故障预测诊断方法及系统技术方案

技术编号:22135127 阅读:30 留言:0更新日期:2019-09-18 08:51
本发明专利技术提供一种故障预测诊断方法及系统。该故障预测诊断方法包括:采集被监控对象上预设的多个监控指标;按照预设的历史运行趋势判断每个监控指标的风险等级;当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,监控事件包括多个监控指标;判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标;根据一个或多个异常监控指标预测诊断故障原因,可以快速准确地发现潜在问题,满足了监控需求的多样性,有效降低了系统的运行风险,驱动了后续的运维自动化动作。

Fault Prediction and Diagnosis Method and System

【技术实现步骤摘要】
故障预测诊断方法及系统
本专利技术涉及系统故障诊断分析领域,具体地,涉及一种故障预测诊断方法及系统。
技术介绍
目前IT系统规模日益庞大、功能愈加丰富,企业大量核心交易都依赖IT系统处理。在日常的测试及生产活动中,面对海量的运维管理对象,如何能够快速且准确的识别和定位潜在的功能及性能问题,并及时进行处理,对于维护企业正常的经营活动显得至关重要。目前从业界通常做法来看,主要依赖基于固定阀值的监控报警系统。虽然系统间可以根据系统的差异性配置不同的监控阀值,但是对于单个系统,阀值相对固定。这种方案虽然可以快速的发现问题,但是误报率高、弹性差且无法通过监控事件定位原因。随着自动化运维理念和技术的发展,这种监控方案无法有效驱动后续的运维自动化动作。测试环境更为特殊,由于资源投入有限,测试环境配置一般都比投产后环境小很多,数据量也与实际存在较大差异,这样就给问题分析和定位带来了更大的挑战。传统的基于阀值报警的问题发现和诊断方法在测试环境明显存在短板,主要体现在误报率和漏报率较高。
技术实现思路
本专利技术实施例的主要目的在于提供一种故障预测诊断方法及系统,以根据不同监控对象特点和问题预测诊断故障原因,快速准确地发现潜在问题,满足了监控需求的多样性,有效降低了系统的运行风险,驱动了后续的运维自动化动作。为了实现上述目的,本专利技术实施例提供一种故障预测诊断方法,包括:采集被监控对象上预设的多个监控指标;按照预设的历史运行趋势判断每个监控指标的风险等级;当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,监控事件包括多个监控指标;判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标;根据一个或多个异常监控指标预测诊断故障原因。本专利技术实施例还提供一种故障预测诊断系统,包括:采集单元,用于采集被监控对象上预设的多个监控指标;第一判断单元,用于按照预设的历史运行趋势判断每个监控指标的风险等级;定位单元,用于当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,监控事件包括多个监控指标;第二判断单元,用于判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标;故障预测诊断单元,用于根据一个或多个异常监控指标预测诊断故障原因。本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:采集被监控对象上预设的多个监控指标;按照预设的历史运行趋势判断每个监控指标的风险等级;当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,监控事件包括多个监控指标;判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标;根据一个或多个异常监控指标预测诊断故障原因。本专利技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:采集被监控对象上预设的多个监控指标;按照预设的历史运行趋势判断每个监控指标的风险等级;当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,监控事件包括多个监控指标;判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标;根据一个或多个异常监控指标预测诊断故障原因。本专利技术实施例的故障预测诊断方法及系统先采集被监控对象上预设的多个监控指标,再按照预设的历史运行趋势判断每个监控指标的风险等级;当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;然后判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标,最后根据一个或多个异常监控指标预测诊断故障原因,可以快速准确地发现潜在问题,满足了监控需求的多样性,有效降低了系统的运行风险,驱动了后续的运维自动化动作。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术第一实施例中故障预测诊断方法的流程图;图2是本专利技术第二实施例中故障预测诊断方法的流程图;图3是本专利技术实施例中故障预测诊断系统的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本领域技术技术人员知道,本专利技术的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。鉴于现有技术无法有效驱动后续的运维自动化动作,误报率和漏报率较高,本专利技术实施例提供一种故障预测诊断方法,以根据不同监控对象特点和问题预测诊断故障原因,可以快速准确地发现潜在问题,满足了监控需求的多样性,有效降低了系统的运行风险,驱动了后续的运维自动化动作。以下结合附图对本专利技术进行详细说明。图1是本专利技术第一实施例中故障预测诊断方法的流程图。如图1所示,故障预测诊断方法包括:S101:采集被监控对象上预设的多个监控指标。具体实施时,可以采用开源ZABBIX工具、自主研发的DBMONITOR工具采集监控指标。S102:按照预设的历史运行趋势判断每个监控指标的风险等级。具体实施时,可以根据历史采集的数据构建出被监控对象的各个监控指标的历史运行趋势,按照历史最小值、历史平均值、历史最大值和历史最大值的1.5倍由低到高划分为四个风险等级。由于各个被监控对象的特点不同(例如联机事务型或批量作业型),每个监控指标的度量标准是不一样的;同时,由于系统资源的差异,相同的被监控对象在不同资源环境下运行,产生的监控指标也存在很大差异。通过划分风险等级,可以与自身历史运行情况进行比较,过滤低风险等级的监控指标,减少因特点不同和资源差异不同造成的监控指标判断失真现象,提高监控的准确率。S103:当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,监控事件包括多个监控指标。S104:判断监控事件对应的其余多个监控指标是否在异常时间段出现异常,以确定监控事件对应的一个或多个异常的监控指标。具体实施时,还可以借助其他人工判断标准判断是否在异常时间段出现异常,以提升监控的准确率和解决效率,降低误报率。如果监控事件对应的全部监控指标或大部分监控指标出现异常,即认为命中监控事件;如果只有单独监控指标出现异常,即本文档来自技高网...

【技术保护点】
1.一种故障预测诊断方法,其特征在于,包括:采集被监控对象上预设的多个监控指标;按照预设的历史运行趋势判断每个监控指标的风险等级;当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,所述监控事件包括多个监控指标;判断所述监控事件对应的其余多个监控指标是否在所述异常时间段出现异常,以确定所述监控事件对应的一个或多个异常的监控指标;根据所述一个或多个异常监控指标预测诊断故障原因。

【技术特征摘要】
1.一种故障预测诊断方法,其特征在于,包括:采集被监控对象上预设的多个监控指标;按照预设的历史运行趋势判断每个监控指标的风险等级;当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,所述监控事件包括多个监控指标;判断所述监控事件对应的其余多个监控指标是否在所述异常时间段出现异常,以确定所述监控事件对应的一个或多个异常的监控指标;根据所述一个或多个异常监控指标预测诊断故障原因。2.根据权利要求1所述的故障预测诊断方法,其特征在于,采集被监控对象上预设的多个监控指标之前,包括:接收监控需求,按照预设的第一分类规则对所述监控需求进行分类;按照预设的第二分类规则将每类监控需求均分为多个监控事件;将每个监控事件划分为多个监控指标;将每个监控事件对应的至少一个监控指标作为被监控对象上预设的监控指标。3.根据权利要求1所述的故障预测诊断方法,其特征在于,还包括:接收每个监控指标的机器时间;根据当前自然时间与每个监控指标的机器时间确定每个监控指标的自然时间;按照每个监控指标的自然时间对所述多个监控指标进行时序编排;按照预设的历史运行趋势判断每个监控指标的风险等级,具体包括:按照预设的历史运行趋势判断每个进行时序编排后的监控指标的风险等级。4.根据权利要求1所述的故障预测诊断方法,其特征在于,还包括:根据所述故障原因和预设的响应规则判断是否触发运维自动化操作;当触发运维自动化操作时,执行运维自动化操作;发送运维自动化操作的处理结果。5.一种故障预测诊断系统,其特征在于,包括:采集单元,用于采集被监控对象上预设的多个监控指标;第一判断单元,用于按照预设的历史运行趋势判断每个监控指标的风险等级;定位单元,用于当其中一个监控指标的风险等级大于或等于该监控指标对应的阈值风险等级时,定位该监控指标对应的监控事件和异常时间段;其中,所述监控事件包括多个监控指标;第二判断单元,用于判断所述监控事件对应的其余多个监控指标是否在所述异常时间段出现异常,以确定所述监控事件对应的一个或多个异常的监控指标;故障预测诊断单元,用于根据所述一个或多个异常监控指标预测诊断故障原因。6.根据权利要求5所述的故障预测诊断系统,其特征在于,还包括:第一分类单元,用于接收...

【专利技术属性】
技术研发人员:李雁南姜英伟郑重林瑶
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1