一种运维系统故障自动诊断方法及系统技术方案

技术编号:15329365 阅读:128 留言:0更新日期:2017-05-16 13:03
本发明专利技术涉及一种运维系统故障自动诊断方法及系统,包括如下步骤:步骤S1,获得运维系统正常运行的相关参数的运行信息;步骤S2,建立运维系统运行故障时相关参数运行异常的判断依据;步骤S3,采集运维系统运行中相关参数的运行信息;步骤S4,对运维系统运行故障进行故障识别及关闭相关程序。本发明专利技术提供的运维系统故障自动诊断方法及系统,通过对运维系统运行中可能存在的接口程序通讯断开、接口程序卡死、接口程序报错的异常状态进行充分的检测,3种检测方式任一检测出故障信息,即关闭接口程序,再重启接口程序,以保证系统的正常运行。

Automatic fault diagnosis method and system for operation and maintenance system

The invention relates to a maintenance system of automatic fault diagnosis method and system, which comprises the following steps: step S1, operation information related parameters from the normal operation of the operation and maintenance of the system; step S2, establish the operation fault judgment operation system parameters related to abnormal operation; step S3, operation related information collection operation parameters in the running of the system step S4; operation system of fault fault identification and closing procedures. Automatic fault diagnosis method and system operation and maintenance system provided by the invention are fully detected by the abnormal state of interface for communication operation may exist in the running of the system, disconnect the interface program stuck, interface program error, any of the 3 kinds of detection methods to detect the fault information, namely close interface program, and then restart the program interface in order to ensure the normal operation of the system.

【技术实现步骤摘要】
一种运维系统故障自动诊断方法及系统
本专利技术属于系统运营维护
,尤其涉及一种运维系统故障自动诊断方法及系统。
技术介绍
有效的运维系统应能充分了解业务资源的使用状况,及时发现可能导致系统故障的隐患,是实现系统运营保障的关键。针对现有的运维系统在运行过程中接口程序产生未知的故障,不能自行修复的错误导致接口卡死、崩溃等导致系统无法正常获取数据而无法正常运行的问题。现有系统的检测办法是,采集服务检测接口程序和采集服务之间的标准通讯协议的连接状态。但此方式的缺点是如果程序卡死或者发生错误的时候无法获取反馈状态,这样就无法准确判断程序的状态,本方法将解决在标准的通讯协议无法检测程序状态的情况下也可以检测接口程序运行的状态。
技术实现思路
本专利技术的目的是提供一种运维系统故障自动诊断方法及系统,即在多种检测并行方式并用的基础上,对运维系统运行故障进行故障识别及修复,以保证接口程序的正常运行。为了解决上述技术问题,本专利技术提供了一种运维系统故障自动诊断方法,包括如下步骤:步骤S1,获得运维系统正常运行的相关参数的运行信息;步骤S2,建立运维系统运行故障时相关参数运行异常的判断依据;步骤S3,采集运维系统运行中相关参数的运行信息;步骤S4,对运维系统运行故障进行故障识别及关闭相关程序。进一步可选的,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态,以及操作系统的系统事件。进一步,所述步骤S3包括并行采用的3种相关参数的采集方式,包括;采用定时轮询的方式,采集被监测的接口程序与采集服务之间的通讯协议的连接状态,获取接口程序的通讯是否断开的信息;实时采集被监测的接口程序的内存使用状态,以设定的时间为单位获取当前的内存使用量,将每一设定的时间的内存使用量和上一设定的时间的内存使用量进行对比,以获取接口程序是否卡死的信息,如果在设定的时间内存使用量未有变动,则证明接口程序处于卡死状态;采用定时轮询的方式,采集操作系统的系统事件,以获取接口程序是否存在报错事件的信息。进一步可选的,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的CPU利用率,以及操作系统的系统事件。进一步,所述步骤S3包括并行采用的3种相关参数的采集方式,包括:采用定时轮询的方式,采集被监测的接口程序与采集服务之间的通讯协议的连接状态,获取接口程序的通讯是否断开的信息;实时采集被监测的接口程序的CPU利用率,以设定的时间为单位获取当前的CPU利用率,将每一设定的时间的CPU利用率和上一设定的时间的CPU利用率进行对比,以获取接口程序是否卡死的信息,如果在设定的时间CPU利用率未有变动,则证明接口程序处于卡死状态;采用定时轮询的方式,采集操作系统的系统事件,以获取接口程序是否存在报错事件的信息。进一步,所述定时轮询的流程包括定时读取任务数据和调用指令处理流程进行任务处理。又一方面,本专利技术还提供了一种运维系统故障自动诊断系统,包括:所述运维系统故障自动诊断系统采用所述的运维系统故障自动诊断方法,包括:核心处理单元,与核心处理单元相连的设置单元、监听单元、判断单元和报警单元;其中所述设置单元,用于设置要监听的运维系统正常运行的相关参数的运行信息;所述监听单元,用于获取所述的运维系统运行的相关参数的运行信息;所述判断单元,用于根据监听单元获取的运维系统运行的相关参数的运行信息,判断各相关参数的运行是否正常;以及报警单元,当判断单元判断有相关参数的运行异常时发出报警信号;程序启动单元,用于当运维系统运行状态异常时,重启接口程序;即所述核心处理单元接收所述监听单元获取的运维系统运行的相关参数的运行信息后发送给判断单元以判断各相关参数的运行是否正常,判断单元将判断结果发送给核心处理单元,当判断单元判断有相关参数的运行异常时,核心处理单元对运行异常进行故障识别,并将识别的故障信号发送至报警单元,同时核心处理单元控制程序启动单元进行接口程序的重启进一步,所述核心处理单元还适于通过无线模块将报警信息发送至工作人员的智能终端。进一步,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态和/或CPU利用率,以及操作系统的系统事件。进一步,所述运维系统故障自动诊断系统还包括一轮询单元,用于根据监听策略启动定时器,并在计时结束时通知监听单元抓取数据。本专利技术的有益效果是,本专利技术提供的运维系统故障自动诊断方法及系统,通过对运维系统运行中的相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态和/或CPU利用率,以及操作系统的系统事件的3种并行方式的检测,对运维系统运行中可能存在的接口程序通讯断开、接口程序卡死、接口程序报错的异常状态进行充分的检测,3种检测方式任一检测出故障信息,即关闭接口程序,再重启接口程序,以保证系统的正常运行。本运维系统故障自动诊断方法及系统较现有的只检测接口程序的通讯状态的方式(接口程序通讯断开),增加了接口程序卡死、接口程序报错两种检测方式,对于运维系统运行的中的故障诊断更加全面精确,对确保运维系统的正常运行具有更广泛的应用前景。附图说明下面结合附图和实施例对本专利技术进一步说明。图1为本专利技术的运维系统故障自动诊断方法的原理图;图2为本专利技术的运维系统故障自动诊断方法的流程图;图3为本专利技术的运维系统故障自动诊断系统的结构框图。具体实施方式现在结合附图对本专利技术作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本专利技术的基本结构,因此其仅显示与本专利技术有关的构成。实施例1如图1和图2所示,本专利技术的一种运维系统故障自动诊断方法,包括如下步骤:步骤S1,获得运维系统正常运行的相关参数的运行信息;步骤S2,建立运维系统运行故障时相关参数运行异常的判断依据;步骤S3,采集运维系统运行中相关参数的运行信息;步骤S4,对运维系统运行故障进行故障识别及关闭相关程序。具体的,所述相关程序为接口程序。接口程序是一种通过标准的通讯协议,和硬件设备进行通讯获取智能设备的运行信息,和采集服务进行交互的程序。可选的,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态,以及操作系统的系统事件。其中,所述对操作系统的系统事件进行分析抓取接口程序的报错事件。所述步骤S3包括并行采用的3种相关参数的采集方式,包括;采用定时轮询的方式,采集被监测的接口程序与采集服务之间的通讯协议的连接状态,获取接口程序的通讯是否断开的信息;实时采集被监测的接口程序的内存使用状态,以设定的时间为单位获取当前的内存使用量,将每一设定的时间的内存使用量和上一设定的时间的内存使用量进行对比,以获取接口程序是否卡死的信息,如果在设定的时间内存使用量未有变动,则证明接口程序处于卡死状态;采用定时轮询的方式,采集操作系统的系统事件,以获取接口程序是否存在报错事件的信息。具体的,实时采集被监测的接口程序的内存使用状态,以秒为单位获取当前的内存使用量,和上一秒的内存使用量进行对比,如果内存使用量未有变动,则说明接口程序处于卡死状态。可选的,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被本文档来自技高网...
一种运维系统故障自动诊断方法及系统

【技术保护点】
一种运维系统故障自动诊断方法,其特征在于,包括如下步骤:步骤S1,获得运维系统正常运行的相关参数的运行信息;步骤S2,建立运维系统运行故障时相关参数运行异常的判断依据;步骤S3,采集运维系统运行中相关参数的运行信息;步骤S4,对运维系统运行故障进行故障识别及关闭相关程序。

【技术特征摘要】
1.一种运维系统故障自动诊断方法,其特征在于,包括如下步骤:步骤S1,获得运维系统正常运行的相关参数的运行信息;步骤S2,建立运维系统运行故障时相关参数运行异常的判断依据;步骤S3,采集运维系统运行中相关参数的运行信息;步骤S4,对运维系统运行故障进行故障识别及关闭相关程序。2.根据权利要求1所述的运维系统故障自动诊断方法,其特征在于,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态,以及操作系统的系统事件。3.根据权利要求2所述的运维系统故障自动诊断方法,其特征在于,所述步骤S3包括并行采用的3种相关参数的采集方式,包括:采用定时轮询的方式,采集被监测的接口程序与采集服务之间的通讯协议的连接状态,获取接口程序的通讯是否断开的信息;实时采集被监测的接口程序的内存使用状态,以设定的时间为单位获取当前的内存使用量,将每一设定的时间的内存使用量和上一设定的时间的内存使用量进行对比,以获取接口程序是否卡死的信息;采用定时轮询的方式,采集操作系统的系统事件,以获取接口程序是否存在报错事件的信息。4.根据权利要求1所述的运维系统故障自动诊断方法,其特征在于,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的CPU利用率,以及操作系统的系统事件。5.根据权利要求4所述的运维系统故障自动诊断方法,其特征在于,所述步骤S3包括并行采用的3种相关参数的采集方式,包括:采用定时轮询的方式,采集被监测的接口程序与采集服务之间的通讯协议的连接状态,获取接口程序的通讯是否断开的信息;实时采集被监测的接口程序的CPU利用率,以设定的时间为单位获取当前的CPU利用率,将每一设定的时间的CPU利用率和上一设定的时间的CPU利用率进行对比,以获取接口程序是否卡死的信息;采用定时轮询的方式,采集操作系统...

【专利技术属性】
技术研发人员:韩振华曾尔阳胡卓毅戴斌
申请(专利权)人:深圳新基点智能股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1