【技术实现步骤摘要】
一种基于存储设备模型的故障根因发现方法
[0001]本专利技术涉及计算机存储设备系统的故障告警技术,特别是一种基于存储设备模型的故障根因发现方法。
技术介绍
[0002]故障的根因定位是保证存储设备系统可靠性和安全性的重要环节,当存储设备系统中某节点出现故障时,快速实现故障的根因定位,才能有效地进行存储设备系统恢复。配置管理数据库(Configuration Management Database,CMDB)是将企业IT资产进行数字化存储的数据库。CMDB中可以存储着企业内海量的硬件、软件、应用等资产信息,及这些资产信息之间复杂的关联关系。这些资产信息作为底层的基石支撑着其他运维系统共同保障企业业务的连续性、健康性,如何快速寻找引起基于CMDB的数据存储结构告警的根因,重要性不言而喻。
[0003]相关技术中,在故障发生时,会获取引起所述故障告警的异常指标;并根据获取的异常指标构建推导图,根据推导图与已建立的故障案例库中故障案例对应的故障不确定图之间的匹配度,确定告警对应的根因。其中,异常指标包括报警发生的第一个和第二个指定时间段内的一个设备异常指标,故障推导图指带有方向的任一条边上的两个节点表示所述获取的各异常指标中的其中两个异常,任一条边上的概率用于表征一个异常指标引起产生另一个异常指标的概率,故障案例库中每个故障案例的不确定图对应已被确定的故障根因。但是,在实际应用中,由于基于CMDB存储设备系统的硬件拓扑结构的特殊性,故障根因的查找有一定的不确定因素,可能存在某些硬件的部分或全部异常指标漏报误报,这种 ...
【技术保护点】
【技术特征摘要】
1.一种基于存储设备模型的故障根因发现方法,其特征在于,利用连通图,告警根因分析图,和根因推导图,按照以下公式进行范数计算:其中d为范数,s为连通图中频繁集项的数量,p
yi
表示告警根因分析图中前一个故障导致后一个故障的概率值,p
i
代表根因推导图中与p
yi
表示的相连故障节点相同的节点间前一个异常指标引起产生另一个异常指标的概率值;选取范数值最小的k个告警根因分析图,k为大于1的正整数,从根因推导图中确定与所述告警根因分析图中节点名称相同的图结构,计算k个不同图结构在历史数据中出现的概率情况,选取概率最高的图结构作为告警根因分析图的最终结果,并获得此次报警的最终根因。2.根据权利要求1所述的基于存储设备模型的故障根因发现方法,其特征在于,所述k=2。3.根据权利要求1所述的基于存储设备模型的故障根因发现方法,其特征在于,所述根因推导图的实现包括以下步骤:步骤A,收集历史数据,包括系统日志、性能数据和系统告警信息;步骤B,对收集到的历史数据进行预处理;步骤C,对预处理后的历史数据进行抽象;步骤D,利用抽象后的历史数据根据FP
‑
Growth关联分析算法获取根因推导图的节点,并构建起根因推导图的FP
‑
Tree图结构;步骤E,计算频繁集项两两之间,由前一项引起后一项的概率,根据概率值大小,得到根因推导图中两节点之间的连接方向,直至得到完整的根因推导图。4.根据权利要求3所述的基于存储设备模型的故障根因发现方法,其特征在于,所述步骤A中的性能数据包括基于CMDB存储设备模型获取的磁盘信息,磁盘域信息,存储池信息,以及主机组信息;所述系统告警信息包括基于CMDB存储设备模型获取的CPU告警、内存告警、PCIE/IO设备告警和电源告警;所述系统日志包括基于CMDB的存储设备模型获得的客户端id、客户端ip、协议id和文件系统id;所述磁盘信息包括磁盘id、磁盘占用率和磁盘健康状态;所述磁盘域信息包括磁盘域id、磁盘域占用率、热备盘容量和磁盘域健康状态;所述存储池信息包括存储池id、存储池占用率和主存类型;所述主机组信息包含主机组id、主机容量利用率;所述CPU告警包括CPU配置告警、CPU稳压器告警、CPU核心温度超限告警、CPU初始化告警;所述内存告警包括内存配置错误告警和内存温度超限告警;所述PCIEI/O设备告警包括BIOS系统报告的PCIe错误告警和I/O通道检查错误告警;所述电源告警包括电源设备电压超限告警。5.根据权利要求3所述的基于存储设备模型的故障根因发现方法,其特征在于,所述步骤B中包括缺失值处...
【专利技术属性】
技术研发人员:韩江雪,
申请(专利权)人:北京直真科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。