一种基于存储设备模型的故障根因发现方法技术

技术编号:33204545 阅读:22 留言:0更新日期:2022-04-24 00:47
一种基于存储设备模型的故障根因发现方法,通过利用连通图,告警根因分析图,和根因推导图的组合进行范数计算,能够有利于通过读取历史记录,使用数据抽象方式和FP

【技术实现步骤摘要】
一种基于存储设备模型的故障根因发现方法


[0001]本专利技术涉及计算机存储设备系统的故障告警技术,特别是一种基于存储设备模型的故障根因发现方法。

技术介绍

[0002]故障的根因定位是保证存储设备系统可靠性和安全性的重要环节,当存储设备系统中某节点出现故障时,快速实现故障的根因定位,才能有效地进行存储设备系统恢复。配置管理数据库(Configuration Management Database,CMDB)是将企业IT资产进行数字化存储的数据库。CMDB中可以存储着企业内海量的硬件、软件、应用等资产信息,及这些资产信息之间复杂的关联关系。这些资产信息作为底层的基石支撑着其他运维系统共同保障企业业务的连续性、健康性,如何快速寻找引起基于CMDB的数据存储结构告警的根因,重要性不言而喻。
[0003]相关技术中,在故障发生时,会获取引起所述故障告警的异常指标;并根据获取的异常指标构建推导图,根据推导图与已建立的故障案例库中故障案例对应的故障不确定图之间的匹配度,确定告警对应的根因。其中,异常指标包括报警发生的第一个和第二个指定时间段内的一个设备异常指标,故障推导图指带有方向的任一条边上的两个节点表示所述获取的各异常指标中的其中两个异常,任一条边上的概率用于表征一个异常指标引起产生另一个异常指标的概率,故障案例库中每个故障案例的不确定图对应已被确定的故障根因。但是,在实际应用中,由于基于CMDB存储设备系统的硬件拓扑结构的特殊性,故障根因的查找有一定的不确定因素,可能存在某些硬件的部分或全部异常指标漏报误报,这种情况会大大影响推导结果,导致根因定位错误。

技术实现思路

[0004]本专利技术针对现有技术中存在的缺陷或不足,提供一种基于存储设备模型的故障根因发现方法。
[0005]本专利技术的技术解决方案如下:
[0006]一种基于存储设备模型的故障根因发现方法,其特征在于,利用连通图,告警根因分析图,和根因推导图,按照以下公式进行范数计算:
[0007][0008]其中d为范数,s为连通图中频繁集项的数量,p
yi
表示告警根因分析图中前一个故障导致后一个故障的概率值,p
i
代表根因推导图中与p
yi
表示的相连故障节点相同的节点间前一个异常指标引起产生另一个异常指标的概率值;
[0009]选取范数值最小的k个告警根因分析图,k为大于1的正整数,从根因推导图中确定与所述告警根因分析图中节点名称相同的图结构,计算k个不同图结构在历史数据中出现
的概率情况,选取概率最高的图结构作为告警根因分析图的最终结果,并获得此次报警的最终根因。
[0010]所述k=2。
[0011]所述根因推导图的实现包括以下步骤:
[0012]步骤A,收集历史数据,包括系统日志、性能数据和系统告警信息;
[0013]步骤B,对收集到的历史数据进行预处理;
[0014]步骤C,对预处理后的历史数据进行抽象;
[0015]步骤D,利用抽象后的历史数据根据FP

Growth关联分析算法获取根因推导图的节点,并构建起根因推导图的FP

Tree图结构;
[0016]步骤E,计算频繁集项两两之间,由前一项引起后一项的概率,根据概率值大小,得到根因推导图中两节点之间的连接方向,直至得到完整的根因推导图。
[0017]所述步骤A中的性能数据包括基于CMDB存储设备模型获取的磁盘信息,磁盘域信息,存储池信息,以及主机组信息;所述系统告警信息包括基于CMDB存储设备模型获取的CPU告警、内存告警、PCIE/IO设备告警和电源告警;所述系统日志包括基于CMDB的存储设备模型获得的客户端id、客户端ip、协议id和文件系统id。
[0018]所述磁盘信息包括磁盘id、磁盘占用率和磁盘健康状态;所述磁盘域信息包括磁盘域id、磁盘域占用率、热备盘容量和磁盘域健康状态;所述存储池信息包括存储池id、存储池占用率和主存类型;所述主机组信息包含主机组id、主机容量利用率;所述CPU告警包括CPU配置告警、CPU稳压器告警、CPU核心温度超限告警、CPU初始化告警;所述内存告警包括内存配置错误告警和内存温度超限告警;所述PCIE I/O设备告警包括BIOS系统报告的PCIe错误告警和I/O通道检查错误告警;所述电源告警包括电源设备电压超限告警。
[0019]所述步骤B中包括缺失值处理、异常值处理、和离散数据编码。
[0020]所述步骤C中包括提取历史数据中发生告警五分钟内的所有上述数据,根据告警的拓扑结构位置,将抽取的数据抽象为故障ID和故障拓扑位置id的组合,其属性为故障告警时间,其中,故障拓扑位置id由主机组id,存储池id,磁盘域id和磁盘id组成,如故障出现位置出现在磁盘域,则故障拓扑位置id由机组id,存储池id和磁盘域id,剩余空位由0补齐,主机组故障告警的故障拓扑位置id由主机组id组成,其余位置由0补齐。
[0021]所述步骤D中包括使用FP

Growth关联分析算法获取5分钟时间段内出现的频繁集项作为根因分析图的节点,当出现服务器多个拓扑结构位置均出现告警时,根据位置数量生成相应数量的FP

Tree图。
[0022]所述步骤E中包括计算频繁集项构成的根因推导图的连接关系,所述根因推导图中,带有方向的任一条边上的两个节点表示所述获取的各异常指标的设备名与故障ID组合,带有方向的任一条边用于指示该边上的两个节点所表示的异常指标之间的关联关系,任一条边上的概率用于表征一个异常指标a引起产生另一个异常指标b的概率p(a,b);具体的概率计算方法如下:
[0023][0024][0025]其中s(a,b)表示一个异常指标a出现告警引起产生另一个异常指标b出现告警的次数,a表示告警a出现的次数,n表示告警数据总数。
[0026]根据服务器的实际情况和告警灵敏度差异,会出现现象告警早于根因告警和根因告警早于现象告警两种情况,此处根据具体服务器属性进行根因推导图的连接方向,其中起点端的告警类型相对终点端的告警类型为果,即为现象告警类型,终点端的告警类型相对于起点端的告警类型为因,即为根因告警。
[0027]通过以下步骤实现连通图和告警根因分析图:
[0028]步骤一,获取告警数据:当服务器出现告警时,获取服务器五分钟内的实时数据,包括系统日志、性能数据和系统告警信息,以及服务器硬件拓扑结构,并对获取到的告警数据进行数据抽象;
[0029]步骤二,生成告警根因分析树:将得到的所有告警数据使用FP

Growth算法获取频繁集项,获取到的频繁集项为根因故障告警以及根因引起的较频繁的现象告警的集合,并计算得到的频繁集项间第一个告警引起第二个告警的概率,将得到的所有连通图保存下来。
[0030]本专利技术的技术效果如下:本专利技术一种基于存储设备模型的故障根因发现方法,通过利用连通图,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于存储设备模型的故障根因发现方法,其特征在于,利用连通图,告警根因分析图,和根因推导图,按照以下公式进行范数计算:其中d为范数,s为连通图中频繁集项的数量,p
yi
表示告警根因分析图中前一个故障导致后一个故障的概率值,p
i
代表根因推导图中与p
yi
表示的相连故障节点相同的节点间前一个异常指标引起产生另一个异常指标的概率值;选取范数值最小的k个告警根因分析图,k为大于1的正整数,从根因推导图中确定与所述告警根因分析图中节点名称相同的图结构,计算k个不同图结构在历史数据中出现的概率情况,选取概率最高的图结构作为告警根因分析图的最终结果,并获得此次报警的最终根因。2.根据权利要求1所述的基于存储设备模型的故障根因发现方法,其特征在于,所述k=2。3.根据权利要求1所述的基于存储设备模型的故障根因发现方法,其特征在于,所述根因推导图的实现包括以下步骤:步骤A,收集历史数据,包括系统日志、性能数据和系统告警信息;步骤B,对收集到的历史数据进行预处理;步骤C,对预处理后的历史数据进行抽象;步骤D,利用抽象后的历史数据根据FP

Growth关联分析算法获取根因推导图的节点,并构建起根因推导图的FP

Tree图结构;步骤E,计算频繁集项两两之间,由前一项引起后一项的概率,根据概率值大小,得到根因推导图中两节点之间的连接方向,直至得到完整的根因推导图。4.根据权利要求3所述的基于存储设备模型的故障根因发现方法,其特征在于,所述步骤A中的性能数据包括基于CMDB存储设备模型获取的磁盘信息,磁盘域信息,存储池信息,以及主机组信息;所述系统告警信息包括基于CMDB存储设备模型获取的CPU告警、内存告警、PCIE/IO设备告警和电源告警;所述系统日志包括基于CMDB的存储设备模型获得的客户端id、客户端ip、协议id和文件系统id;所述磁盘信息包括磁盘id、磁盘占用率和磁盘健康状态;所述磁盘域信息包括磁盘域id、磁盘域占用率、热备盘容量和磁盘域健康状态;所述存储池信息包括存储池id、存储池占用率和主存类型;所述主机组信息包含主机组id、主机容量利用率;所述CPU告警包括CPU配置告警、CPU稳压器告警、CPU核心温度超限告警、CPU初始化告警;所述内存告警包括内存配置错误告警和内存温度超限告警;所述PCIEI/O设备告警包括BIOS系统报告的PCIe错误告警和I/O通道检查错误告警;所述电源告警包括电源设备电压超限告警。5.根据权利要求3所述的基于存储设备模型的故障根因发现方法,其特征在于,所述步骤B中包括缺失值处...

【专利技术属性】
技术研发人员:韩江雪
申请(专利权)人:北京直真科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1