一种监控设备故障的方法和装置制造方法及图纸

技术编号:20044855 阅读:30 留言:0更新日期:2019-01-09 04:08
本发明专利技术公开了一种监控设备故障的方法和装置,属于计算机技术领域。所述方法包括:在运行工具集合脚本之后,每隔目标关键指标的监控休眠时长,通过工具集合脚本包含的基础工具监控目标关键指标;如果目标关键指标出现异常,则通过工具集合脚本检测当前是否存在故障,否则基于第一预设时长调整目标关键指标的监控休眠时长;如果当前存在故障,则基于第二预设时长调整目标关键指标的监控休眠时长,并通过工具集合脚本确定并上报当前故障的故障信息;如果当前不存在故障,则基于第三预设时长调整目标关键指标的监控休眠时长。采用本发明专利技术,可以避免对关键指标的频繁监控以及对同一故障的频繁重复上报,又可以较为及时地发现设备故障。

【技术实现步骤摘要】
一种监控设备故障的方法和装置
本专利技术涉及计算机
,特别涉及一种监控设备故障的方法和装置。
技术介绍
设备在运行的过程中,经常会因为硬件或软件上的问题出现运行故障,从而可能导致设备处理能力下降、执行逻辑错误,甚至会出现设备宕机、组件损坏等现象。为了能尽早发现并及时解决设备的运行故障,用户往往可以通过性能监控程序(可称为监控工具)查看设备的性能指标,了解设备的运行状态。目前存在一种集成有多种监控工具的工具集合脚本,通过工具集合脚本可以统一自动地对设备的运行状态进行监控。具体的,用户可以在设备上安装并运行上述工具集合脚本,从而设备可以周期性通过工具集合脚本所包含的多个基础工具来监控多个关键指标。当某个关键指标出现异常时,设备可以进一步利用工具集合脚本中部分数据采集工具采集设备运行参数,并基于采集到的设备运行参数判断设备是否发生故障,以及相应的故障类型。进而,设备可以上报本次出现的故障,以提醒技术人员针对故障对设备进行修复。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:设备如果发生故障后,故障一般会持续较长时间,如果监控关键指标的周期较短,则在故障持续期间内,设备会不断检测到并上报同一故障,将会消耗大量用于性能监控的设备处理资源;而如果监控关键指标的周期较长,则可能导致无法及时发现故障。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种监控设备故障的方法和装置。所述技术方案如下:第一方面,提供了一种监控设备故障的方法,所述方法包括:每隔目标关键指标的监控休眠时长,通过工具集合脚本包含的基础工具监控所述目标关键指标;如果所述目标关键指标出现异常,则通过所述工具集合脚本检测当前是否存在故障,否则基于第一预设时长调整所述目标关键指标的监控休眠时长;如果当前存在故障,则基于第二预设时长调整所述目标关键指标的监控休眠时长,并通过所述工具集合脚本确定并上报当前故障的故障信息;如果当前不存在故障,则基于第三预设时长调整所述目标关键指标的监控休眠时长,其中,所述第二预设时长大于所述第一预设时长,所述第一预设时长大于所述第三预设时长。可选的,所述否则基于第一预设时长调整所述目标关键指标的监控休眠时长,包括:否则统计所述目标关键指标的连续正常次数,并将所述目标关键指标的监控休眠时长调整为所述连续正常次数和第一预设时长的乘积。可选的,所述如果当前不存在故障,则基于第三预设时长调整所述目标关键指标的监控休眠时长,包括:如果当前不存在故障,则统计连续监控到所述目标关键指标异常后的连续无故障次数,并将所述目标关键指标的监控休眠时长调整为所述连续无故障次数和第三预设时长的乘积。可选的,所述通过所述工具集合脚本确定并上报当前故障的故障信息,包括:通过所述工具集合脚本确定当前故障的故障信息,将所述当前故障的短时重复次数加一;当所述短时重复次数等于所述当前故障对应的故障上报阈值时,上报所述当前故障的故障信息,并按预设规则增加所述当前故障的故障上报阈值。可选的,所述通过所述工具集合脚本确定当前故障的故障信息,将所述当前故障的短时重复次数加一,包括:通过所述工具集合脚本在所述目标关键指标对应的预设故障原因中选择当前故障的故障原因,并确定所述故障原因的故障特征;如果本地记录有所述故障原因,且本地记录的故障原因的故障特征与本次确定的故障特征的相似度大于预设阈值,则将本地记录的所述故障原因的短时重复次数加一,否则记录所述本次确定的故障原因及故障特征,并将所述故障原因的短时重复次数设置为一。可选的,所述故障原因以链表的形式进行记录,其中,所述链表包含多个节点,每个所述节点对应一个关键指标,每个所述关键指标分别对应一条或多条子链表,每条子链表包含多个用于记录故障原因的链表头,每个所述链表头对应多个子节点,所述多个子节点分别用于存储所述故障原因的故障特征、短时重复次数和故障上报阈值。可选的,所述关键指标至少包括CPU使用率、内存使用率、负载值、I/O等待时长和各进程的CPU使用率中的一项或多项。第二方面,提供了一种监控设备故障的装置,所述装置包括:监控模块,用于每隔目标关键指标的监控休眠时长,通过工具集合脚本包含的基础工具监控所述目标关键指标;调整模块,用于如果所述目标关键指标出现异常,则通过所述工具集合脚本检测当前是否存在故障,否则基于第一预设时长调整所述目标关键指标的监控休眠时长,如果当前存在故障,则基于第二预设时长调整所述目标关键指标的监控休眠时长,并通过所述工具集合脚本确定并上报当前故障的故障信息,如果当前不存在故障,则基于第三预设时长调整所述目标关键指标的监控休眠时长;其中,所述第二预设时长大于所述第一预设时长,所述第一预设时长大于所述第三预设时长。可选的,所述调整模块,具体用于:否则统计所述目标关键指标的连续正常次数,并将所述目标关键指标的监控休眠时长调整为所述连续正常次数和第一预设时长的乘积。可选的,所述调整模块,具体用于:如果当前不存在故障,则统计连续监控到所述目标关键指标异常后的连续无故障次数,并将所述目标关键指标的监控休眠时长调整为所述连续无故障次数和第三预设时长的乘积。可选的,所述调整模块,具体用于:通过所述工具集合脚本确定当前故障的故障信息,将所述当前故障的短时重复次数加一;当所述短时重复次数等于所述当前故障对应的故障上报阈值时,上报所述当前故障的故障信息,并按预设规则增加所述当前故障的故障上报阈值。可选的,所述调整模块,具体用于:通过所述工具集合脚本在所述目标关键指标对应的预设故障原因中选择当前故障的故障原因,并确定所述故障原因的故障特征;如果本地记录有所述故障原因,且本地记录的故障原因的故障特征与本次确定的故障特征的相似度大于预设阈值,则将本地记录的所述故障原因的短时重复次数加一,否则记录所述本次确定的故障原因及故障特征,并将所述故障原因的短时重复次数设置为一。可选的,所述故障原因以链表的形式进行记录,其中,所述链表包含多个节点,每个所述节点对应一个关键指标,每个所述关键指标分别对应一条或多条子链表,每条子链表包含多个用于记录故障原因的链表头,每个所述链表头对应多个子节点,所述多个子节点分别用于存储所述故障原因的故障特征、短时重复次数和故障上报阈值。可选的,所述关键指标至少包括CPU使用率、内存使用率、负载值、I/O等待时长和各进程的CPU使用率中的一项或多项。第三方面,提供了一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的监控设备故障的方法。第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的监控设备故障的方法。本专利技术实施例提供的技术方案带来的有益效果是:本专利技术实施例中,每隔目标关键指标的监控休眠时长,通过工具集合脚本包含的基础工具监控目标关键指标;如果目标关键指标出现异常,则通过工具集合脚本检测当前是否存在故障,否则基于第一预设时长调整目标关键指标的监控休眠时长;如果当前存在故障,则基于第二预设时长本文档来自技高网...

【技术保护点】
1.一种监控设备故障的方法,其特征在于,所述方法包括:每隔目标关键指标的监控休眠时长,通过工具集合脚本包含的基础工具监控所述目标关键指标;如果所述目标关键指标出现异常,则通过所述工具集合脚本检测当前是否存在故障,否则基于第一预设时长调整所述目标关键指标的监控休眠时长;如果当前存在故障,则基于第二预设时长调整所述目标关键指标的监控休眠时长,并通过所述工具集合脚本确定并上报当前故障的故障信息;如果当前不存在故障,则基于第三预设时长调整所述目标关键指标的监控休眠时长,其中,所述第二预设时长大于所述第一预设时长,所述第一预设时长大于所述第三预设时长。

【技术特征摘要】
1.一种监控设备故障的方法,其特征在于,所述方法包括:每隔目标关键指标的监控休眠时长,通过工具集合脚本包含的基础工具监控所述目标关键指标;如果所述目标关键指标出现异常,则通过所述工具集合脚本检测当前是否存在故障,否则基于第一预设时长调整所述目标关键指标的监控休眠时长;如果当前存在故障,则基于第二预设时长调整所述目标关键指标的监控休眠时长,并通过所述工具集合脚本确定并上报当前故障的故障信息;如果当前不存在故障,则基于第三预设时长调整所述目标关键指标的监控休眠时长,其中,所述第二预设时长大于所述第一预设时长,所述第一预设时长大于所述第三预设时长。2.根据权利要求1所述的方法,其特征在于,所述否则基于第一预设时长调整所述目标关键指标的监控休眠时长,包括:否则统计所述目标关键指标的连续正常次数,并将所述目标关键指标的监控休眠时长调整为所述连续正常次数和第一预设时长的乘积。3.根据权利要求1所述的方法,其特征在于,所述如果当前不存在故障,则基于第三预设时长调整所述目标关键指标的监控休眠时长,包括:如果当前不存在故障,则统计连续监控到所述目标关键指标异常后的连续无故障次数,并将所述目标关键指标的监控休眠时长调整为所述连续无故障次数和第三预设时长的乘积。4.根据权利要求1所述的方法,其特征在于,所述通过所述工具集合脚本确定并上报当前故障的故障信息,包括:通过所述工具集合脚本确定当前故障的故障信息,将所述当前故障的短时重复次数加一;当所述短时重复次数等于所述当前故障对应的故障上报阈值时,上报所述当前故障的故障信息,并按预设规则增加所述当前故障的故障上报阈值。5.根据权利要求4所述的方法,其特征在于,所述通过所述工具集合脚本确定当前故障的故障信息,将所述当前故障的短时重复次数加一,包括:通过所述工具集合脚本在所述目标关键指标对应的预设故障原因中选择当前故障的故障原因,并确定所述故障原因的故障特征;如果本地记录有所述故障原因,且本地记录的故障原因的故障特征与本次确定的故障特征的相似度大于预设阈值,则将本地记录的所述故障原因的短时重复次数加一,否则记录所述本次确定的故障原因及故障特征,并将所述故障原因的短时重复次数设置为一。6.根据权利要求5所述的方法,其特征在于,所述故障原因以链表的形式进行记录,其中,所述链表包含多个节点,每个所述节点对应一个关键指标,每个所述关键指标分别对应一条或多条子链表,每条子链表包含多个用于记录故障原因的链表头,每个所述链表头对应多个子节点,所述多个子节点分别用于存储所述故障原因的故障特征、短时重复次数和故障上报阈值。7.根据权利要求1-6任一项所述的方法,其特征在于,所述关键指标至少包括CPU使用率、内存使用率、负载值、I/O等待时长和各进程的CPU使用率中的一项或多项。8.一种监控设备故障的装置,其特征在于,所述装置包括:监控模块,用于每隔目标关键指标的监控休眠时长,通过工具集合脚本包含的基础工具监控所述目标关键指标;调整模...

【专利技术属性】
技术研发人员:陈涛
申请(专利权)人:网宿科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1