【技术实现步骤摘要】
动态告警定级方法、装置、电子设备以及存储介质
本申请涉及系统告警领域,尤其涉及一种动态告警定级方法、装置、电子设备以及计算机可读存储介质。
技术介绍
大型的在线服务系统由很多组件组成来支持大量的并发用户。为了保证服务质量和用户体验,需要从各个组件中收集各种监控数据,如指标,日志,调用链等,并手动设置多种告警规则,一旦监控数据违反了这些告警规则(例如CPU利用率超过80%,日志文件中出现fail关键字等)就会生成告警,并发送给工程师进行检查。如果告警比较严重,工程师会创建工单来进行排查和诊断。告警数据可以包含多个属性,例如告警时间、告警内容、告警类型、告警来源系统、告警来源机器、告警级别和告警关闭时间等。由于在线服务的复杂性和动态性,系统可能并发生成大量告警,超出工程师的处理能力。因此,实际中常采用手动方式定义定级规则,将告警分为不同优先级(例如P1-error,P2-warning,P3-info;CPU利用率超过90%是P1,超过70%是P2)。工程师主要关注最高级别的告警,即严重告警。然而即便如此,严重告警的触发 ...
【技术保护点】
1.一种动态告警定级方法,其特征在于,所述方法包括以下步骤:/n使用告警的历史数据对排序模型进行训练,得到训练模型;以及/n使用所述训练模型对告警的在线数据进行排序,得到告警定级。/n
【技术特征摘要】
1.一种动态告警定级方法,其特征在于,所述方法包括以下步骤:
使用告警的历史数据对排序模型进行训练,得到训练模型;以及
使用所述训练模型对告警的在线数据进行排序,得到告警定级。
2.根据权利要求1所述的动态告警定级方法,其特征在于,
所述历史数据包括工单、告警数据和指标数据;
所述使用告警的历史数据对排序模型进行训练,得到训练模型的步骤包括:
提取所述工单的标注;
提取所述告警数据的告警特征,并提取所述指标数据的指标特征,将所述告警特征和指标特征组合得到特征向量;以及
将所述标注和所述特征向量输入所述排序模型,对所述排序模型进行训练,得到所述训练模型。
3.根据权利要求1所述的动态告警定级方法,其特征在于,
所述在线数据包括在线告警数据和在线指标数据;
所述使用所述训练模型对告警的在线数据进行排序,得到告警定级的步骤包括:
提取所述在线告警数据的告警特征,并提取所述在线指标数据的指标特征,将所述告警特征和所述指标特征组合得到在线特征向量;以及
将所述在线特征向量输入所述训练模型,得到所述告警定级。
4.根据权利要求2或3所述的动态告警定级方法,其特征在于,
所述告警特征包括以下特征中的至少一项:文本特征、文本熵、时序特征;其中,所述文本特征是采用基于学习的双词主题模型(BTM)获得的;所述文本熵是采用逆文档频率(IDF)计算得到的;所述时序特征包括告警的频率、周期、单位时间告警数量或告警间隔时间;
所述指标特征是采用基于长短期记忆(LSTM)网络的多时间序列异常检测算法获得的。
5.一种动态告警定级装置,其特征在于,所述装置包括:
离线训练模块,用于使用告警的历史数据对排序模型进行训练,得到训练模型;以及
在线排序模块,用于使用所述训练模型对告警的在线数据进行排序,得到告警定级。<...
【专利技术属性】
技术研发人员:赵能文,刘大鹏,隋楷心,张文池,
申请(专利权)人:北京必示科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。