告警处理方法、装置、电子设备以及计算机可读存储介质制造方法及图纸

技术编号:24573412 阅读:57 留言:0更新日期:2020-06-21 00:02
本发明专利技术公开了一种告警处理方法、装置、电子设备以及计算机可读存储介质。上述方法包括:根据单位时间内接收到的告警数量和告警阈值,判断是否发生了告警风暴,其中所述告警阈值是自适应更新的;以及,若检测到产生了所述告警风暴,则提取告警风暴摘要。本发明专利技术首创性地将告警处理这一问题聚焦在告警风暴的检测和摘要提取上,旨在帮助工程师在实际运维场景中,更好的应对告警风暴,实现故障的快速发现和诊断。

Alarm processing method, device, electronic equipment and computer readable storage medium

【技术实现步骤摘要】
告警处理方法、装置、电子设备以及计算机可读存储介质
本申请涉及系统告警领域,尤其涉及一种告警处理方法、装置、电子设备以及计算机可读存储介质。
技术介绍
大型的在线服务系统如搜索引擎、网上银行已经成为人们生活不可缺少的部分。但是由于这些服务系统的规模庞大、结构复杂,在实际运行会不可避免的出现故障。这些故障一般由硬件问题、软件bug和一些突发的外部因素造成,可能会造成服务响应延迟,系统不可用,违背了服务级别协议(ServiceLevelAgreement,SLA),导致用户体验差,且带来巨大的经济损失。比如,相关报告对美国63个数据中心的统计发现,平均1小时宕机带来的损失从2010年的$505502增加到2016年的$740357。因此,及时准确的发现故障并快速诊断修复故障至关重要。为了保证服务质量和用户体验,系统会从各个组件中收集各种监控数据,如指标,日志,调用链等,并手工设置多种告警规则。一旦监控数据违反了告警规则(如CPU利用率超过80%;日志文件中出现fail关键字)就会生成告警。由于大型服务系统包含很多个组件,针对每个组件会生成很多种监控数据,且不同组件和不同系统之间都会相互影响,因此在实际中,故障发生时可能导致短时间内迸发大量的告警,也就是告警风暴。面对海量的告警数据,工程师挨个检查告警来诊断故障是耗时且易错的,所以我们需要一个智能化算法来帮助工程师来应对告警风暴,从而实现快速的故障诊断。通过对一个大型在线服务系统在三年中发生的告警风暴的历史数据进行分析,我们有以下几个发现:1.告警风暴的发生非常频繁(平均大约一周一次),给工程师排障带来了很大困扰。而处理一个告警风暴平均需要几个工程师耗费大约1个小时的时间。2.目前主要通过设置固定阈值来识别告警风暴(比如一分钟内的告警数量超过300认为是发生了告警风暴),但是这种方法不能应对动态的线上环境。3.在告警风暴中,很多告警是系统常规告警,和故障发生没有关系,其存在不利于工程师对真正故障进行排查。
技术实现思路
为解决上述技术问题,本专利技术的一个方面在于,提供一种告警处理方法,包括以下步骤:根据单位时间内接收到的告警数量和告警阈值,判断是否发生了告警风暴,其中所述告警阈值是自适应更新的;以及,若检测到产生了所述告警风暴,则提取告警风暴摘要。可选的,所述根据单位时间内接收到的告警数量和告警阈值,判断是否发生了告警风暴的步骤包括:判断单位时间内接收到的所述告警数量是否超过所述告警阈值,若所述告警数量超过所述告警阈值,判断发生了所述告警风暴。可选的,所述告警阈值采用极值理论方法进行自适应更新。可选的,其特征在于,所述提取告警风暴摘要的步骤包括:对告警信息进行降噪处理,得到异常告警;对所述异常告警进行聚类处理,得到异常告警簇,所述异常告警簇可以为一个或者多个;以及,对每个所述异常告警簇,提取所述告警风暴摘要。可选的,所述对告警信息进行文本预处理的步骤包括:将所述告警信息中的变量字符串进行标准化处理;以及,去掉所述告警信息中的停用词。可选的,所述对所述告警信息进行降噪处理,得到异常告警的步骤包括:采用基于学习的异常检测模型,对所述告警信息进行筛选,得到异所述常告警信息。可选的,所述对所述异常告警进行聚类处理,得到异常告警簇的步骤包括:计算所述异常告警之间的相似距离;以及根据所述相似距离对所述异常告警进行聚类,得到所述异常告警簇。可选的,所述对每个所述异常告警簇,提取所述告警风暴摘要的步骤包括:计算所述异常告警簇的聚类中心告警,所述聚类中心告警是所述异常告警簇内与其他告警异常告警簇内与其他告警的平均相似距离最小的告警;以及将所述聚类中心告警作为所述告警风暴摘要。本专利技术的另一个方面在于,提供一种告警处理装置,所述装置包括:告警风暴检测模块,用于根据单位时间内接收到的告警数量和告警阈值,判断是否发生了所述告警风暴,其中所述告警阈值是自适应更新的;以及,摘要提取模块,用于若检测到产生了所述告警风暴,则提取告警风暴摘要。可选的,所述根据单位时间内接收到的告警数量和告警阈值,判断是否发生了所述告警风暴包括:判断单位时间内接收到的所述告警数量是否超过所述告警阈值,若所述告警数量超过所述告警阈值,判断发生了所述告警风暴。可选的,所述告警阈值采用极值理论方法进行自适应更新。可选的,所述摘要提取模块包括:降噪模块,用于对告警信息进行降噪处理,得到异常告警;聚类模块,用于对所述异常告警进行聚类处理,得到异常告警簇,所述异常告警簇可以为一个或者多个;以及,代表性告警选择模块,用于对每个所述异常告警簇,提取所述告警风暴摘要。可选的,所述预处理模块具体用于:将所述告警信息中的变量字符串进行标准化处理;以及,去掉所述告警信息中的停用词。可选的,所述降噪模块具体用于:采用基于学习的异常检测模型,对所述告警信息进行筛选,得到异所述常告警信息。可选的,所述聚类模块具体用于:计算所述异常告警之间的相似距离;以及根据所述相似距离对所述异常告警进行聚类,得到所述异常告警簇。可选的,所述代表性告警选择模块具体用于:计算所述异常告警簇的聚类中心告警,所述聚类中心告警是所述异常告警簇内与其他告警异常告警簇内与其他告警的平均相似距离最小的告警;以及将所述聚类中心告警作为所述告警风暴摘要。本专利技术的另一个方面在于,提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器耦合连接的存储器;其中,所述存储器存储有计算机程序,所述计算机程序能够被所述至少一个处理器执行,以实现本专利技术所述的方法。本专利技术的另一个方面在于,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被执行时,能够实本专利技术所述的方法。本专利技术首创性地将告警处理这一问题聚焦在告警风暴的检测和摘要提取上,旨在帮助工程师在实际运维场景中,更好的应对告警风暴,实现故障的快速发现和诊断。首先,本专利技术将在线告警风暴检测转换成在线自适应突变点检测的问题,并将极值理论这一方法应用在告警风暴检测问题中,能够准确、动态地检测出告警风暴。其次,本专利技术设计了一个新颖的告警摘要提取算法,包括基于学习的告警降噪、差异化告警聚类和代表性告警选择三个步骤,能够帮助工程师从海量的告警中挑选出小部分有代表性的告警,从而快速了解告警风暴的问题,定位到根因。附图说明图1是本专利技术实施例中告警处理方法的流程图;图2是本专利技术实施例中告警处理方法的流程图;图3是本专利技术实施例中采用极值理论方法自适应获取的告警风暴阈值;图4是本专利技术实施例中提取告警风暴摘要的步骤流程图;图5是本专利技术实施例中提取告警风暴摘要的示意图;图6是本本文档来自技高网
...

【技术保护点】
1.一种告警处理方法,其特征在于,包括以下步骤:/n根据单位时间内接收到的告警数量和告警阈值,判断是否发生了告警风暴,其中所述告警阈值是自适应更新的;以及,/n若检测到产生了所述告警风暴,则提取告警风暴摘要。/n

【技术特征摘要】
1.一种告警处理方法,其特征在于,包括以下步骤:
根据单位时间内接收到的告警数量和告警阈值,判断是否发生了告警风暴,其中所述告警阈值是自适应更新的;以及,
若检测到产生了所述告警风暴,则提取告警风暴摘要。


2.根据权利要求1所述的告警处理方法,其特征在于,所述根据单位时间内接收到的告警数量和告警阈值,判断是否发生了告警风暴的步骤包括:
判断单位时间内接收到的所述告警数量是否超过所述告警阈值,若所述告警数量超过所述告警阈值,判断发生了所述告警风暴。


3.根据权利要求1所述的告警处理方法,其特征在于,所述告警阈值采用极值理论方法进行自适应更新。


4.根据权利要求1所述的告警处理方法,其特征在于,所述提取告警风暴摘要的步骤包括:
对告警信息进行降噪处理,得到异常告警;
对所述异常告警进行聚类处理,得到异常告警簇,所述异常告警簇可以为一个或者多个;以及,
对每个所述异常告警簇,提取所述告警风暴摘要。


5.根据权利要求4所述的告警处理方法,其特征在于,在所述对告警信息进行降噪处理之前,还包括对告警信息进行文本预处理,包括:
将所述告警信息中的变量字符串进行标准化处理;以及,
去掉所述告警信息中的停用词。


6.根据权利要求4所述的告警处理方法,其特征在于,所述对所述告警信息进行降噪处理,得到异常告警的步骤包括:
采用基于学习的异常检...

【专利技术属性】
技术研发人员:赵能文刘大鹏隋楷心张文池聂晓辉
申请(专利权)人:北京必示科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1