基于数据中心异常监控的告警融合系统及方法技术方案

技术编号：22444321 阅读：31 留言：0更新日期：2019-11-02 04:18

本发明专利技术提供一种基于数据中心异常监控的告警融合方法，包括以下步骤：步骤S1，告警收集：收集一系列时间窗口中来自整个运维系统监控的各个数据来源的告警信息；步骤S2，告警预处理：对收集到的告警信息进行去冗余操作，提取其中关键的告警信息；步骤S3，告警关联分析：对于预处理后的告警信息按照一定的算法进行关联规则的发现；步骤S4，告警整合输出：按照步骤S3中发现的告警信息的关联规则对一定时间内新到达的告警信息进行去重复和整合操作之后，输出到数据库。本发明专利技术能消除告警信息中的冗余信息、将有因果关系的告警信息融合，从而减少运维人员的工作量和工作难度，降低运维成本。

Alarm fusion system and method based on data center anomaly monitoring

全部详细技术资料下载

【技术实现步骤摘要】
基于数据中心异常监控的告警融合系统及方法
本专利技术涉及数据中心运维系统告警监控
，尤其是一种基于数据中心异常监控的告警融合方法。
技术介绍
在现有的绝大部分数据中心运维系统中都存在了这样一个问题：由于监控项包括了对各个服务器、集群运行状态和服务器上运行软件数据的监控，以及集群拓扑状态的复杂性，导致一个元件产生告警可能会引发一连串的连锁告警。也就是说，一个故障会以反应链的形式而导致另一个故障产生，这样会产生无数的告警，从而会掩盖真正的重要故障。而且大多数的告警并没有包含故障真正原因的信息，但一个故障产生时会出现大量的告警，其中一些告警是冗余的，这样使得故障的处理更复杂。尤其是在针对中大型的网络系统监控过程中，难免产生海量告警信息，而传统的告警信息处理几乎只依靠人工完成。在这个过程中就有可能造成运维人员由于长期经常性的收到海量报警信息，却在查看后发现并没有重大故障，从而放松对告警的警惕，以至于真正有重大故障告警后没能及时处理。这样的情况下，不仅使得机房运维成本很高，而且难以满足告警处理的实时性要求，容易引发重大问题。由告警信息冗余问题造成的“告警风暴”由来已久，针对这方面问题，“告警收敛”的概念应运而生。告警收敛主要是指在对告警信息的处理过程中，通过一定的关联规则对海量告警信息进行去重复和去冗余操作，从而大大降低告警信息数量的过程。在整个告警收敛的过程中，最为关键且困难的一环便是告警关联规则的发现。关于告警信息关联规则发现的方法有许多，其中比较有代表性的方法包括基于事例推理的方法、基于规则的相关性分析的方法、基于相关度分析的方法、贝叶斯网络方法、人工神...

【技术保护点】
1.一种基于数据中心异常监控的告警融合方法，其特征在于，包括以下步骤：步骤S1，告警收集：收集一系列时间窗口中来自整个运维系统监控的各个数据来源的告警信息；步骤S2，告警预处理：对收集到的告警信息进行去冗余操作，提取其中关键的告警信息；步骤S3，告警关联分析：对于预处理后的告警信息按照一定的算法进行关联规则的发现；步骤S4，告警整合输出：按照步骤S3中发现的告警信息的关联规则对一定时间内新到达的告警信息进行去重复和整合操作之后，输出到数据库。

【技术特征摘要】
1.一种基于数据中心异常监控的告警融合方法，其特征在于，包括以下步骤：步骤S1，告警收集：收集一系列时间窗口中来自整个运维系统监控的各个数据来源的告警信息；步骤S2，告警预处理：对收集到的告警信息进行去冗余操作，提取其中关键的告警信息；步骤S3，告警关联分析：对于预处理后的告警信息按照一定的算法进行关联规则的发现；步骤S4，告警整合输出：按照步骤S3中发现的告警信息的关联规则对一定时间内新到达的告警信息进行去重复和整合操作之后，输出到数据库。2.如权利要求1所述的基于数据中心异常监控的告警融合方法，其特征在于，步骤S3中，对于预处理后的告警信息置入一个二维矩阵，之后进行分析并结合二维矩阵的压缩，发现告警信息的关联规则。3.如权利要求2所述的基于数据中心异常监控的告警融合方法，其特征在于，步骤S3具体包括：步骤S3.1，建立一个二维矩阵，二维矩阵的一行代表一个时间窗口内某一台主机的所有告警信息，一列代表一个告警项；将二维矩阵的首行设置为sum_row，表示对应告警项出现过的时间窗口的数量，首列设置为sum_col列，表示对应时间窗口内出现的告警项的数量；将收集到并预处理后的告警信息填入二维矩阵对应的位置，有对应告警项的位置置为1，其余置为0，计算出对应的sum_col和sum_row值；步骤S3.2，寻找频繁项集；1)将最小支持度与事务总数即时间窗口总数相乘，计算出最小支持度计数min_sup；将sum_row行各个元素与之相比，若某元素小于min_sup，则说明该元素对应的列也就是告警项在时间窗口中的出现次数小于最小支持度计数，不是频繁项，则将该列删除；矩阵中剩余的列对应的告警项都是频繁1-项集；2)重新计算二维矩阵中的sum_col列，若该列某元素值为0，说明该元素对应的行也就是时间窗口的数据已经不对产生频繁项集的过程造成影响，不需要继续分析，则将该行删除；由此产生的矩阵记为A1；3)k>＝2时，基于A1通过递推，对矩阵Ak-1进行压缩，产生压缩矩阵Ak；k为压缩次数；首先要对频繁-k-1项集的所有子项集进行分析，将其中出现次数小于k-1的项对应的列删去；接着重新计算出Ak-1矩阵中的sum_col列元素，将此列元素中小于k的元素对应的行删去；之后再计算出新的sum_row行元素的值，将该行小于min_sup的元素对应的列删除；自此生成压缩后的矩阵Ak；4)由压缩矩阵Ak生成频繁k-项集；对压缩矩阵Ak中的列进行k维组合，生成可能出现的所有k-项集，通过将矩阵Ak中对应的k列元素进行按位与运算计算出所有可...

【专利技术属性】
技术研发人员：马玉峰，董怡瑾，台宪青，
申请(专利权)人：江苏物联网研究发展中心，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人