基于数据中心异常监控的告警融合系统及方法技术方案

技术编号:22444321 阅读:31 留言:0更新日期:2019-11-02 04:18
本发明专利技术提供一种基于数据中心异常监控的告警融合方法,包括以下步骤:步骤S1,告警收集:收集一系列时间窗口中来自整个运维系统监控的各个数据来源的告警信息;步骤S2,告警预处理:对收集到的告警信息进行去冗余操作,提取其中关键的告警信息;步骤S3,告警关联分析:对于预处理后的告警信息按照一定的算法进行关联规则的发现;步骤S4,告警整合输出:按照步骤S3中发现的告警信息的关联规则对一定时间内新到达的告警信息进行去重复和整合操作之后,输出到数据库。本发明专利技术能消除告警信息中的冗余信息、将有因果关系的告警信息融合,从而减少运维人员的工作量和工作难度,降低运维成本。

Alarm fusion system and method based on data center anomaly monitoring

【技术实现步骤摘要】
基于数据中心异常监控的告警融合系统及方法
本专利技术涉及数据中心运维系统告警监控
,尤其是一种基于数据中心异常监控的告警融合方法。
技术介绍
在现有的绝大部分数据中心运维系统中都存在了这样一个问题:由于监控项包括了对各个服务器、集群运行状态和服务器上运行软件数据的监控,以及集群拓扑状态的复杂性,导致一个元件产生告警可能会引发一连串的连锁告警。也就是说,一个故障会以反应链的形式而导致另一个故障产生,这样会产生无数的告警,从而会掩盖真正的重要故障。而且大多数的告警并没有包含故障真正原因的信息,但一个故障产生时会出现大量的告警,其中一些告警是冗余的,这样使得故障的处理更复杂。尤其是在针对中大型的网络系统监控过程中,难免产生海量告警信息,而传统的告警信息处理几乎只依靠人工完成。在这个过程中就有可能造成运维人员由于长期经常性的收到海量报警信息,却在查看后发现并没有重大故障,从而放松对告警的警惕,以至于真正有重大故障告警后没能及时处理。这样的情况下,不仅使得机房运维成本很高,而且难以满足告警处理的实时性要求,容易引发重大问题。由告警信息冗余问题造成的“告警风暴”由来已久,针对这方面问题,“告警收敛”的概念应运而生。告警收敛主要是指在对告警信息的处理过程中,通过一定的关联规则对海量告警信息进行去重复和去冗余操作,从而大大降低告警信息数量的过程。在整个告警收敛的过程中,最为关键且困难的一环便是告警关联规则的发现。关于告警信息关联规则发现的方法有许多,其中比较有代表性的方法包括基于事例推理的方法、基于规则的相关性分析的方法、基于相关度分析的方法、贝叶斯网络方法、人工神经网络方法、基于编码的方法、数据挖掘的方法等等。在现有的告警关联规则发现方法中,存在以下缺点:基于事例的相关性分析算法最大的缺点是它基于之前的经验和事例来解决问题而非利用该问题的领域中的一般常识,不适用于环境多变且实时性要求高的环境。基于规则的相关性分析方法中的规则获取环节主要是依靠工程师的经验来制定,无法自动生成。规则的获取环节始终成为该算法运行效率和准确度的制约条件。贝叶斯网络是针对不确定性提出的解决方法。最大的问题在于,贝叶斯网络的边界概率的计算效率问题目前仍然没有有效的解决办法。基于编码的方法致力于通过对知识模型数据的预处理来分析时间相关性。对于规模庞大、结构复杂的系统来说,很难建立准确的网络模型。基于人工神经网络的方法的瓶颈在于不太容易找到训练数据,且不同输入参数对结果影响很大。基于相关度分析的方法适应的场景有限,不擅长于分析连锁告警反应。
技术实现思路
本专利技术的目的在于克服现有技术中存在的不足,提供一种基于数据中心异常监控的告警融合系统及方法,以消除冗余信息、将有因果关系的告警信息融合,目的是提取告警中的有效信息,从而减少运维人员的工作量和工作难度,降低运维成本。本专利技术采用的技术方案是:一种基于数据中心异常监控的告警融合方法,包括以下步骤:步骤S1,告警收集:收集一系列时间窗口中来自整个运维系统监控的各个数据来源的告警信息;步骤S2,告警预处理:对收集到的告警信息进行去冗余操作,提取其中关键的告警信息;步骤S3,告警关联分析:对于预处理后的告警信息按照一定的算法进行关联规则的发现;步骤S4,告警整合输出:按照步骤S3中发现的告警信息的关联规则对一定时间内新到达的告警信息进行去重复和整合操作之后,输出到数据库。进一步地,步骤S3中,对于预处理后的告警信息置入一个二维矩阵,之后进行分析并结合二维矩阵的压缩,发现告警信息的关联规则。进一步地,步骤S3具体包括:步骤S3.1,建立一个二维矩阵,二维矩阵的一行代表一个时间窗口内某一台主机的所有告警信息,一列代表一个告警项;将二维矩阵的首行设置为sum_row,表示对应告警项出现过的时间窗口的数量,首列设置为sum_col列,表示对应时间窗口内出现的告警项的数量;将收集到并预处理后的告警信息填入二维矩阵对应的位置,有对应告警项的位置置为1,其余置为0,计算出对应的sum_col和sum_row值;步骤S3.2,寻找频繁项集;1)将最小支持度与事务总数即时间窗口总数相乘,计算出最小支持度计数min_sup;将sum_row行各个元素与之相比,若某元素小于min_sup,则说明该元素对应的列也就是告警项在时间窗口中的出现次数小于最小支持度计数,不是频繁项,则将该列删除;矩阵中剩余的列对应的告警项都是频繁1-项集;2)重新计算二维矩阵中的sum_col列,若该列某元素值为0,说明该元素对应的行也就是时间窗口的数据已经不对产生频繁项集的过程造成影响,不需要继续分析,则将该行删除;由此产生的矩阵记为A1;3)k>=2时,基于A1通过递推,对矩阵Ak-1进行压缩,产生压缩矩阵Ak;k为压缩次数;首先要对频繁-k-1项集的所有子项集进行分析,将其中出现次数小于k-1的项对应的列删去;接着重新计算出Ak-1矩阵中的sum_col列元素,将此列元素中小于k的元素对应的行删去;之后再计算出新的sum_row行元素的值,将该行小于min_sup的元素对应的列删除;自此生成压缩后的矩阵Ak;4)由压缩矩阵Ak生成频繁k-项集;对压缩矩阵Ak中的列进行k维组合,生成可能出现的所有k-项集,通过将矩阵Ak中对应的k列元素进行按位与运算计算出所有可能的k-项集的支持度计数,并将其中不小于min_sup的计数和对应的k-项集记录在一个二维数组中,该二维数组保存的便是频繁项集;5)当步骤4)中产生的频繁k-项集的数目大于k时,重复步骤3)——步骤4)的过程寻找下一级频繁项集,得到最终汇总的频繁项集;否则,频繁项集搜集结束,退出循环;步骤S3.3,发现关联规则;接着,通过寻找到的k>=2的频繁k-项集生成关联规则;通过以上步骤寻找到频繁项集之后,再将频繁项集中的k项(k>=2)拆为A′、B′两个项集,A′、B′要满足A′∪B′=拆分前原项集且A′∩B′为空集的条件,列出A′、B′所有可能的组合并计算出每种可能的A′->B′和B′->A′的情况的置信度,将其与之前定义好的最小置信度比较,从而得出值得相信的关联规则。进一步地,步骤S4具体包括:步骤S4.1,若当前时间窗口还未结束,收集新到达的告警信息,提取关键的告警信息之后将其和对应时间窗口编号存入数据库;步骤S4.2,将此条告警信息与当前AlertInfo表中的信息比较:若产生告警的主机Id和告警信息内容与AlertInfo表中某条记录相等,证明该条告警信息已经存在,则返回步骤S4.1;若该条告警信息不存在,则进行步骤S4.3,其中AlertInfo表中保存的是当前时间窗口去除重复信息之后的告警信息;步骤S4.3,根据发现的告警信息的关联规则,寻找当前AlertFuse表中是否存在同一个产生告警的主机Id下本条告警的“前因”,若存在“前因”,则返回步骤S4.1;若不存在“前因”,则将该条告警信息放入AlertFuse表;其中AlertFuse表保存的是当前时间窗口将要提交的去除重复和关联融合后的告警信息;步骤S4.4,若当前时间窗口已结束,本时间窗口内收集到的AlertFuse表即为本时间窗口内的整合后的告警信息。进一步地,步骤S2中,所述去冗余操作,本文档来自技高网
...

【技术保护点】
1.一种基于数据中心异常监控的告警融合方法,其特征在于,包括以下步骤:步骤S1,告警收集:收集一系列时间窗口中来自整个运维系统监控的各个数据来源的告警信息;步骤S2,告警预处理:对收集到的告警信息进行去冗余操作,提取其中关键的告警信息;步骤S3,告警关联分析:对于预处理后的告警信息按照一定的算法进行关联规则的发现;步骤S4,告警整合输出:按照步骤S3中发现的告警信息的关联规则对一定时间内新到达的告警信息进行去重复和整合操作之后,输出到数据库。

【技术特征摘要】
1.一种基于数据中心异常监控的告警融合方法,其特征在于,包括以下步骤:步骤S1,告警收集:收集一系列时间窗口中来自整个运维系统监控的各个数据来源的告警信息;步骤S2,告警预处理:对收集到的告警信息进行去冗余操作,提取其中关键的告警信息;步骤S3,告警关联分析:对于预处理后的告警信息按照一定的算法进行关联规则的发现;步骤S4,告警整合输出:按照步骤S3中发现的告警信息的关联规则对一定时间内新到达的告警信息进行去重复和整合操作之后,输出到数据库。2.如权利要求1所述的基于数据中心异常监控的告警融合方法,其特征在于,步骤S3中,对于预处理后的告警信息置入一个二维矩阵,之后进行分析并结合二维矩阵的压缩,发现告警信息的关联规则。3.如权利要求2所述的基于数据中心异常监控的告警融合方法,其特征在于,步骤S3具体包括:步骤S3.1,建立一个二维矩阵,二维矩阵的一行代表一个时间窗口内某一台主机的所有告警信息,一列代表一个告警项;将二维矩阵的首行设置为sum_row,表示对应告警项出现过的时间窗口的数量,首列设置为sum_col列,表示对应时间窗口内出现的告警项的数量;将收集到并预处理后的告警信息填入二维矩阵对应的位置,有对应告警项的位置置为1,其余置为0,计算出对应的sum_col和sum_row值;步骤S3.2,寻找频繁项集;1)将最小支持度与事务总数即时间窗口总数相乘,计算出最小支持度计数min_sup;将sum_row行各个元素与之相比,若某元素小于min_sup,则说明该元素对应的列也就是告警项在时间窗口中的出现次数小于最小支持度计数,不是频繁项,则将该列删除;矩阵中剩余的列对应的告警项都是频繁1-项集;2)重新计算二维矩阵中的sum_col列,若该列某元素值为0,说明该元素对应的行也就是时间窗口的数据已经不对产生频繁项集的过程造成影响,不需要继续分析,则将该行删除;由此产生的矩阵记为A1;3)k>=2时,基于A1通过递推,对矩阵Ak-1进行压缩,产生压缩矩阵Ak;k为压缩次数;首先要对频繁-k-1项集的所有子项集进行分析,将其中出现次数小于k-1的项对应的列删去;接着重新计算出Ak-1矩阵中的sum_col列元素,将此列元素中小于k的元素对应的行删去;之后再计算出新的sum_row行元素的值,将该行小于min_sup的元素对应的列删除;自此生成压缩后的矩阵Ak;4)由压缩矩阵Ak生成频繁k-项集;对压缩矩阵Ak中的列进行k维组合,生成可能出现的所有k-项集,通过将矩阵Ak中对应的k列元素进行按位与运算计算出所有可...

【专利技术属性】
技术研发人员:马玉峰董怡瑾台宪青
申请(专利权)人:江苏物联网研究发展中心
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1