当前位置: 首页 > 专利查询>杨晓松专利>正文

进程监控及多级恢复系统和方法技术方案

技术编号:8413061 阅读:202 留言:0更新日期:2013-03-14 02:07
本发明专利技术涉及一种进程监控及多级恢复系统和方法。该系统包括硬件部分和软件部分,硬件部分包括通信模块、控制模块,控制模块控制端与外部计算机主板的重启跳线电连接;软件部分包括监控模块,处理模块,数据收发模块,事件记录模块,以及系统追忆记录模块。该方法与该系统相对应。本发明专利技术可实现对进程的全方位监控,能实施多层次的恢复操作,并能留下事件记录、系统追忆记录,为厂家技术人员追溯故障原因提供有效线索。

【技术实现步骤摘要】

本专利技术涉及进程监控及多级恢复系统,以及与该系统对应的进程监控及多级恢复方法,尤其适用于工控用计算机。
技术介绍
目前,计算机、工控机以及嵌入式设备上通常都装有操作系统用以运行目标应用程序,当用户需要长时间不间断运行多个应用程序时,往往需要使用监控系统,然而现有监控系统功能有限,很难满足用户需求。最传统的监控系统——主板看门狗仅适用于单任务操作系统,若直接用于多任务操作系统,则无法在某一进程异常时准确地做出重启计算机的反应。为了能在多任务操作系统下仍能利用主板看门狗,已有研究者研发出相应的技术方案,如专利号03157874. 8、授权公告号CN100359481C的中国专利技术专利公开了一种多任务系统的异常监控装置及其方法,专利号200810241729. 2、授权公告号CN101464811B的中国专利技术专利公开了一种多任务监控管理系统,均引入了具有汇集功能的中介模块,该中介模块一方面与各进程通信,获知各进程状态,另一方面基于各进程状态决定是否实施喂狗操作,这样即可在某一程序异常时准确地通知主板看门狗重启计算机。然而,当前常用主流操作系统如windows系统、Iinux系统、unix系统均已封锁了直接调用主板看门狗的途径,上述改进的技术方案已经很难适用于当前操作系统。此外,很多服务器、工作站并未采用工控机架构,根本没有主板看门狗,这种情况下无法适用上述改进的技术方案。针对操作系统中的应用程序进行监控,已有研究者研发出相应的技术方案,如专利号200610104447. 9、授权公告号CN100389404C的中国专利技术专利公开了一种计算机应用程序的监控及异常处理方法,但是该技术方案还存在以下不利之处(I)在每个应用模块启动前,均需建立与之通讯的独立的监控模块,这样做会增大运行开销,加剧系统资源的消耗,不利于保持系统稳定。(2)仅根据应用模块通信反馈来判断应用模块是否异常,若遇到因应用模块自身缺陷导致该应用模块占用资源越来越大且无法回收的情况时,则因该应用模块持续正常反馈而使监控模块无法及时做出处理,很容易导致整个系统因资源耗竭而崩溃,无法实现预期的监控目的。(3)若遇到整个系统意外崩溃,则无法自动实现计算机重启操作,这对需要无人值守的计算机而言无疑是巨大的灾难,严重时会使用户损失惨重;同时,在这种情况下也无法留下任何可供追查的有效线索,只能重启计算机继续运行,并留下很有可能复发的隐患。此外,据申请人了解,对于多任务操作系统(如WINDOWS系统),其系统环境允许多进程、多线程运行,在厂家的自动化应用系统项目运行过程中,由于软件成熟度、软件冲突、驱动冲突等多方面的原因,常常会造成项目中进程死锁而不响应、崩溃但不自动退出、出错、异常退出、内存泄漏、进程CPU占用和内存占用不断增大最终导致操作系统响应变慢和操作系统失效等现象,运行方用户由于对项目技术细节不了解,在现场无法应对,而项目生产厂家平时不在运行现场,鞭长莫及,往往造成现场项目功能运行中断,无法恢复,而等到厂家技术人员赶到现场,又无法得知故障发生的过程和发生的原因,无法具体确定是哪一个进程发生的问题、发生的是哪一方面的问题等等,导致即使厂家人员赶到现场也无法找到现场出问题的具体线索,而现场由于运行情况的复杂性,出现的问题往往是产品和系统出厂前短时间拷机时无法发现的。针对这一技术难题,现有技术中还不存在完美的解决方案。
技术实现思路
本专利技术所要解决的技术问题是针对 现有技术存在的问题,提供一种进程监控及多级恢复系统,以及与该系统对应的进程监控及多级恢复方法,可实现对进程的全方位监控,能实施多层次的恢复操作,并能留下事件记录、系统追忆记录,为厂家技术人员追溯故障原因提供有效线索。本专利技术解决其技术问题的技术方案如下一种进程监控及多级恢复系统,其特征是,包括设于外部计算机上的软件部分和与所述计算机数据连接的硬件部分;所述硬件部分包括经数据线与所述计算机通信端口连接的通信模块、以及与通信模块信号连接的控制模块,所述控制模块控制端与所述计算机主板的重启跳线电连接;所述软件部分包括用以监控进程、子过程、或计算机操作系统的监控模块,用以根据监控模块所得监控信息实施处理动作的处理模块,用以利用计算机通信端口与硬件部分通信模块进行数据交换的数据收发模块,用以根据处理模块指令将当前情况记录为事件的事件记录模块,以及用以根据处理模块指令记录最近若干帧计算机操作系统信息状态的系统追忆记录模块;所述计算机操作系统信息状态至少为计算机操作系统内全部运行进程的PID、CPU占用率、CPU占用时间、内存占用数量之一;所述处理模块的处理动作至少为杀掉进程、重启进程、杀掉子过程的父进程、重启子过程的父进程、重启操作系统、向硬件部分控制模块发出重启计算机信号之一。一种采用前述进程监控及多级恢复系统的进程监控及多级恢复方法,其特征是,包括以下步骤第一步、设于计算机的软件部分监控目标进程信息,所述目标进程信息包括目标进程状态、目标进程占用内存数量或百分比、以及目标进程占用CPU百分比;第二步、软件部分将目标进程占用内存或CPU信息与预设的进程限定参数进行比较、并按预设的进程处理决策根据比较结果和目标进程状态确定处理动作;所述进程限定参数包括目标进程占用内存数量或百分比的限定值、目标进程占用CPU百分比的限定值、以及目标进程占用内存或CPU越限的超时时限值;所述进程处理决策为进程决策库的任一项,所述进程决策库包括(1)无动作;(2)杀掉进程;(3)杀掉进程,并在杀掉进程失败时重启操作系统;(4)杀掉进程,并在杀掉进程失败时重启操作系统,并在重启操作系统失败时重启计算机;(5)杀掉进程后重启进程;(6)杀掉进程后重启进程,并在杀掉进程或重启进程失败时重启操作系统;(7)杀掉进程后重启进程,并在杀掉进程或重启进程失败时重启操作系统,并在重启操作系统失败时重启计算机;(8)重启操作系统;(9)重启操作系统,并在重启操作系统失败时重启计算机;(10)重启进程;(11)重启进程,并在重启进程失败时重启操作系统;(12)重启进程,并在重启进程失败时重启操作系统,并在重启操作系统失败时重启计算机;(13)重启计算机;当目标进程占用内存或CPU越限的时间超出超时时限值时,或者当目标进程状态为死锁或崩溃未退出时,所述进程处理决策为进程决策库的(I)至(9)之一;当目标进程退出时,所述进程处理决策为进程决策库的( I)、(8)至(13)之一;当目标进程状态正常且占用内存或CPU未越限时,所述进程处理决策为进程决策库的(I);当确定的处理动作为无动作时直接转至第一步,否则转至第三步;第三步、软件部分实施第二步确定的处理动作,当处理动作为重启计算机时由软件部分向与计算机数据连接、并与计算机重启跳线电连接的硬件部分发出重启计算机信号,硬件部分重置计算机重启跳线使计算机重启;同时,软件部分进行事件记录和/或系统追忆记录;第四步、软件部分判断是否终止所述进程监控及多级恢复系统的运行,若是则退出该系统,若否则转至第一步。本专利技术可实现对进程的全方位监控,能实施多层次的恢复操作,并能留下事件记录、系统追忆记录,为厂家技术人员追溯故障原因提供有效线索。附图说明图I为本专利技术实施例系统的结构示意图。图2为本专利技术实施例方法的流程示意图。本文档来自技高网
...

【技术保护点】
一种进程监控及多级恢复系统,其特征是,包括设于外部计算机上的软件部分和与所述计算机数据连接的硬件部分;所述硬件部分包括经数据线与所述计算机通信端口连接的通信模块、以及与通信模块信号连接的控制模块,所述控制模块控制端与所述计算机主板的重启跳线电连接;所述软件部分包括用以监控进程、子过程、或计算机操作系统的监控模块,用以根据监控模块所得监控信息实施处理动作的处理模块,用以利用计算机通信端口与硬件部分通信模块进行数据交换的数据收发模块,用以根据处理模块指令将当前情况记录为事件的事件记录模块,以及用以根据处理模块指令记录最近若干帧计算机操作系统信息状态的系统追忆记录模块;所述计算机操作系统信息状态至少为计算机操作系统内全部运行进程的PID、CPU占用率、CPU占用时间、内存占用数量之一;所述处理模块的处理动作至少为杀掉进程、重启进程、杀掉子过程的父进程、重启子过程的父进程、重启操作系统、向硬件部分控制模块发出重启计算机信号之一。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨晓松卢文兵
申请(专利权)人:杨晓松
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1