当前位置: 首页 > 专利查询>陈刚专利>正文

一种挖掘告警中频发故障的方法技术

技术编号:31377938 阅读:26 留言:0更新日期:2021-12-15 11:18
本发明专利技术涉及一种挖掘告警中频发故障的方法,包括如下步骤:获取预设时间范围内的历史告警信息;通过聚类处理将内容相似的告警聚集在一个类簇中,通过提取处理,分配模板id来标识一个类簇的告警;设定时间窗口并得到告警分段;在每一个报警分段中,按模板id汇总并统计各个模板id是否在该报警分段中出现过,得到汇总结果;对经常一起出现的模板id进行挖掘处理,得到至少一个频发告警模板id集合。本发明专利技术,通过自动的在海量历史告警信息中挖掘频发故障,进而获取频发故障的表现形式,辅助运维人员高效的进行故障诊断及问题定位,提高了故障发现并解决的及时性和准确性,有利于运维的规范化及效率的提升。范化及效率的提升。范化及效率的提升。

【技术实现步骤摘要】
一种挖掘告警中频发故障的方法


[0001]本专利技术涉及IT运维和管理(ITOM)
,具体说是一种挖掘告警中频发故障的方法。所述告警指历史告警信息中的告警记录。

技术介绍

[0002]IT运维和管理(ITOM,简称IT运维管理),随着信息技术发展伊始就已诞生,是指采用专业的信息技术和方法,对软硬件环境、网络、应用系统及运维服务流程等进行综合管理,其目的是保障系统与网络的可用性、安全性和业务的持续性。
[0003]在IT运维和管理工作中,告警分析对运维人员来说尤为重要,如果不能及时了解服务器的告警信息,并及时分析的话,有可能会给企业造成难以估计的损失。对告警信息进行分析,不仅可以了解到软硬件设备的运行状况,还可以在故障发生时快速找到根因,从而及时的进行补救,更好的提高企业软硬件设备的高可用性。
[0004]但是,随着今日服务器规模越来越大,告警信息的数据量也是与日俱增,靠人力对告警信息进行分析已经不能满足企业的要求。
[0005]为了适应告警信息的数据量的迅猛增长,现有技术针对告警分析,通常采用基于机器学习技术的告警分析算法,例如告警聚类分析算法、告警动态定级分析算法等,这些算法的提出和应用给运维工作提供了很大的便利,不足之处在于:现有的告警分析算法未见从历史告警信息中挖掘故障信息的解决方案,尤其是没有可用的基于历史告警信息分析并挖掘频繁出现的故障的表现形式的方案。
[0006]公开于该
技术介绍
部分的信息仅仅旨在加深对本专利技术的总体
技术介绍
的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

技术实现思路

[0007]针对现有技术中存在的缺陷,本专利技术的目的在于提供一种挖掘告警中频发故障的方法,通过自动的在海量历史告警信息中挖掘频发故障,进而获取频发故障的表现形式,辅助运维人员高效的进行故障诊断及问题定位,提高了故障发现并解决的及时性和准确性,有利于运维的规范化及效率的提升。
[0008]为达到以上目的,本专利技术采取的技术方案是:
[0009]一种挖掘告警中频发故障的方法,其特征在于,包括如下步骤:
[0010]预处理步骤,具体包括:
[0011]获取预设时间范围内的历史告警信息;
[0012]聚类及模板提取步骤,具体包括:
[0013]基于告警模板对文本格式的历史告警信息进行聚类及模板提取,通过聚类处理将内容相似的告警聚集在一个类簇中,通过提取处理,分配模板id来标识一个类簇的告警;
[0014]设定时间窗口并得到告警分段步骤,具体包括:
[0015]预先设定一时间长度,或用户指定一时间长度,以该时间长度为时间窗口的取值,
按时间窗口对聚类及模板提取处理后的告警进行切分,得到若干报警分段;
[0016]汇总并统计模板id步骤,具体包括:
[0017]在每一个报警分段中,按模板id汇总并统计各个模板id是否在该报警分段中出现过,得到汇总结果;
[0018]对经常一起出现的模板id进行挖掘处理步骤,具体包括:
[0019]采用FP

Growth算法对汇总结果进行处理,挖掘经常一起出现的模板id的组合,得到至少一个频发告警模板id集合。
[0020]在上述技术方案的基础上,在预处理步骤中,将历史告警信息保存为文本格式,再进行聚类及模板提取;
[0021]所述历史告警信息中包括告警id、发生时间、内容。
[0022]在上述技术方案的基础上,在预处理步骤中,所述预设时间范围默认为一个月。
[0023]在上述技术方案的基础上,在设定时间窗口并得到告警分段步骤中,时间长度的单位默认为分钟;
[0024]预先设定的时间长度包括三档,第一档的时间长度为10分钟,第二档的时间长度为30分钟,第三档的时间长度为60分钟。
[0025]在上述技术方案的基础上,在对经常一起出现的模板id进行挖掘处理步骤中,设定达到n次为确认是否属于频发告警的阈值。
[0026]在上述技术方案的基础上,在对经常一起出现的模板id进行挖掘处理步骤中,当得到多个频发告警模板id集合时,进一步筛选出包含更多数量的频发告警模板id的集合。
[0027]在上述技术方案的基础上,筛选的原则为:如果集合B是集合A的超集,则保留超集,去掉子集。
[0028]在上述技术方案的基础上,进一步包括,遍历模板id,将其替换为模板内容,生成可读报告,供分析故障模式。
[0029]本专利技术所述的一种挖掘告警中频发故障的方法,具有以下有益效果:
[0030]本专利技术通过自动的在海量历史告警信息中挖掘频发故障,进而获取频发故障的表现形式,辅助运维人员高效的进行故障诊断及问题定位,提高了故障发现并解决的及时性和准确性,有利于运维的规范化及效率的提升。
[0031]所述故障的表现形式是多种告警的集合,所述集合中包括了经常一起出现的若干告警,例如:设备存在某运行故障时,告警A、告警B、告警C和告警D经常一起出现,则告警A、B、C、D的集合为该某运行故障的表现形式,反映了该某运行故障的发生。发现告警A、B、C、D一起出现则可判定存在该某运行故障,反之亦然,存在该某运行故障,则能在告警信息对应的时间段中找到告警A、B、C、D。即:辅助运维人员知道告警A、B、C、D是由同一个运行故障引发,提高排障效率,减轻了运维人员的工作量,不再需要人工逐条的对告警信息进行排查。
[0032]所述频发故障是一种故障发生规律(故障信息必须有某种规律才能够挖掘),是按经验值设定的故障类型,通常根据发生窗口数占总窗口数的百分比确定,默认大于等于1%。例如:在一个月(30天)的历史告警信息中,以窗口长度为10分钟计,可以确定总窗口数为60*24*30/10=4320个,如果告警A的出现次数超过43个(4320的1%),就认为告警A是频发故障。
[0033]本专利技术旨在挖掘历史告警信息中可能存在的故障的表现形式。
[0034]本专利技术所述的一种挖掘告警中频发故障的方法,实现了基于历史告警信息分析并挖掘频繁出现的故障的表现形式,有利于提高线上故障分析的准确度和效率。
附图说明
[0035]本专利技术有如下附图:
[0036]附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:
[0037]图1本专利技术所述一种挖掘告警中频发故障的方法的实施例一的流程图。
具体实施方式
[0038]以下结合附图对本专利技术作进一步详细说明。所述详细说明,为结合本专利技术的示范性实施例做出的说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0039]如图1所示,本专利技术给出了一种挖掘告警中频发故障的方法,包括如下步骤:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种挖掘告警中频发故障的方法,其特征在于,包括如下步骤:预处理步骤,具体包括:获取预设时间范围内的历史告警信息;聚类及模板提取步骤,具体包括:基于告警模板对文本格式的历史告警信息进行聚类及模板提取,通过聚类处理将内容相似的告警聚集在一个类簇中,通过提取处理,分配模板id来标识一个类簇的告警;设定时间窗口并得到告警分段步骤,具体包括:预先设定一时间长度,或用户指定一时间长度,以该时间长度为时间窗口的取值,按时间窗口对聚类及模板提取处理后的告警进行切分,得到若干报警分段;汇总并统计模板id步骤,具体包括:在每一个报警分段中,按模板id汇总并统计各个模板id是否在该报警分段中出现过,得到汇总结果;对经常一起出现的模板id进行挖掘处理步骤,具体包括:采用FP

Growth算法对汇总结果进行处理,挖掘经常一起出现的模板id的组合,得到至少一个频发告警模板id集合。2.如权利要求1所述的一种挖掘告警中频发故障的方法,其特征在于,在预处理步骤中,将历史告警信息保存为文本格式,再进行聚类及模板提取;所述历史告警信息中包括告警id、发生时间、内容...

【专利技术属性】
技术研发人员:陈刚夏雷江新乐叶鹏
申请(专利权)人:陈刚
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1