一种故障场景检测方法及系统技术方案

技术编号:39659324 阅读:10 留言:0更新日期:2023-12-09 11:28
本发明专利技术涉及运维技术领域,具体为一种故障场景检测方法及系统,包括以下步骤:故障场景预检,故障场景告警过滤,故障场景合并;查询所有告警集合,依次构造告警集合中的告警特征向量,集合告警特征包括告警个数,告警种类数,根据所有告警集合的告警特征向量训练告警异常检测模型;有益效果为:本发明专利技术提出的故障场景检测方法及系统,通过提取告警集合的告警特征向量训练告警异常检测模型能够快速根据告警的异常来识别出可能的故障,并将疑似故障告警合并到一起,然后利用告警发生时其他告警发生的概率,对不相关的告警进行剔除,有助于故障的快速定位

【技术实现步骤摘要】
一种故障场景检测方法及系统


[0001]本专利技术涉及运维
,具体为一种故障场景检测方法及系统


技术介绍

[0002]随着云计算的飞速发展,越来越多的企业和个人用户拥抱云服务,对于云服务提供商来说为了给用户提供稳定的服务,通常会部署大量的监控系统,随之而来的是大量的告警

[0003]现有技术中,对于运维人员来说如何从海量告警中识别真实的故障具有重要意义

通常会采用告警收敛技术对告警进行收敛,如按时间窗口

按告警对象

按地域等对告警进行合并,采用这种方式在故障发生时并不能对运维人员进行及时的提醒,而且仅仅依靠时间窗口也会将一些不相关的告警合并到一起,干扰运维人员的故障定位


技术实现思路

[0004]本专利技术的目的在于提供一种故障场景检测方法及系统,以解决上述
技术介绍
中提出的问题

[0005]为实现上述目的,本专利技术提供如下技术方案:一种故障场景检测方法,所述方法包括以下步骤:
[0006]故障场景预检,故障场景告警过滤,故障场景合并;
[0007]查询所有告警集合,依次构造告警集合中的告警特征向量,集合告警特征包括告警个数,告警种类数,根据所有告警集合的告警特征向量训练告警异常检测模型;
[0008]查询所有告警列表,依次遍历告警列表,将当前告警记为主告警,并将发生次数自增1,查询当前主告警发生时前后指定时间间隔共现告警列表,将共现告警按照告警名称去重,得到共现告警集合,依次遍历共现告警集合,将当前共现告警记为次告警,并将对应主告警下该次告警的发生次数自增1,全部遍历结束后计算主告警发生时次告警发生的条件概率

[0009]优选的,故障场景预检的具体操作包括:
[0010]获取待检测告警列表,构造当前告警列表的告警特征向量,将告警特征向量输入训练好的告警异常检测模型,若告警异常检测模型的检测结果为疑似故障场景,则生成一个故障场景

[0011]优选的,故障场景告警过滤的具体操作包括:
[0012]依次遍历故障场景包含的告警列表,查询当前告警发生时其他告警发生的条件概率满足指定阈值的告警集合,此时当前告警为主告警,其他告警为次告警,若告警集合为空,则查询其他告警发生时当前告警发生的条件概率满足指定阈值的告警集合,此时其他告警为主告警,当前告警为次告警,若告警集合为空,则将当前告警从故障场景告警列表中删除

[0013]优选的,故障场景合并的具体操作包括:
[0014]若当前检测到的故障场景之前的最新故障场景状态为未关闭,则判断最新故障场景的创建时间和当前时间的间隔是否小于设定的故障场景合并时间间隔,若小于则计算当前故障场景包含的告警名称和之前的最新故障场景包含的告警名称之间的
Jaccard
相似度,若相似度大于设定的阈值,则将两个故障场景合并

[0015]一种故障场景检测系统,所述系统由故障场景实时检测模块

告警异常检测模型训练模块以及告警条件概率分析模块组成;
[0016]故障场景实时检测模块,用于故障场景预检,故障场景告警过滤,故障场景合并;
[0017]告警异常检测模型训练模块,用于查询所有告警集合,依次构造告警集合中的告警特征向量,集合告警特征包括告警个数,告警种类数,根据所有告警集合的告警特征向量训练告警异常检测模型
[0018]以及告警条件概率分析模块,用于查询所有告警列表,依次遍历告警列表,将当前告警记为主告警,并将发生次数自增1,查询当前主告警发生时前后指定时间间隔共现告警列表,将共现告警按照告警名称去重,得到共现告警集合,依次遍历共现告警集合,将当前共现告警记为次告警,并将对应主告警下该次告警的发生次数自增1,全部遍历结束后计算主告警发生时次告警发生的条件概率

[0019]优选的,故障场景预检,用于获取待检测告警列表,构造当前告警列表的告警特征向量,将告警特征向量输入训练好的告警异常检测模型,若告警异常检测模型的检测结果为疑似故障场景,则生成一个故障场景

[0020]优选的,故障场景告警过滤,用于依次遍历故障场景包含的告警列表,查询当前告警发生时其他告警发生的条件概率满足指定阈值的告警集合,此时当前告警为主告警,其他告警为次告警,若告警集合为空,则查询其他告警发生时当前告警发生的条件概率满足指定阈值的告警集合,此时其他告警为主告警,当前告警为次告警,若告警集合为空,则将当前告警从故障场景告警列表中删除

[0021]优选的,故障场景合并,用于若当前检测到的故障场景之前的最新故障场景状态为未关闭,则判断最新故障场景的创建时间和当前时间的间隔是否小于设定的故障场景合并时间间隔,若小于则计算当前故障场景包含的告警名称和之前的最新故障场景包含的告警名称之间的
Jaccard
相似度,若相似度大于设定的阈值,则将两个故障场景合并

[0022]与现有技术相比,本专利技术的有益效果是:
[0023]本专利技术提出的故障场景检测方法及系统,通过提取告警集合的告警特征向量训练告警异常检测模型能够快速根据告警的异常来识别出可能的故障,并将疑似故障告警合并到一起,然后利用告警发生时其他告警发生的概率,对不相关的告警进行剔除,有助于故障的快速定位

通常故障场景的合并,能够将故障发生时的大量告警有效的合并在一起,避免告警风暴

附图说明
[0024]图1为本专利技术系统架构图;
[0025]图2为本专利技术故障场景预检流程图;
[0026]图3为本专利技术故障场景告警过滤流程图;
[0027]图4为本专利技术故障场景合并流程图;
[0028]图5为本专利技术告警异常检测模型训练流程图;
[0029]图6为本专利技术告警条件概率计算流程图

具体实施方式
[0030]为了使本专利技术的目的

技术方案进行清楚

完整地描述,及优点更加清楚明白,以下结合附图对本专利技术实施例进行进一步详细说明

应当理解,此处所描述的具体实施例是本专利技术一部分实施例,而不是全部的实施例,仅仅用以解释本专利技术实施例,并不用于限定本专利技术实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围

[0031]本专利技术提供一种技术方案:一种故障场景检测方法及系统,

[0032]如附图1所示为系统的架构图,包含故障场景实时检测模块

告警异常检测模型训练模块

告警条件概率分析模块

[0033]下面结合附图2说明故障场景的预检流程:
[0034]获取待检测告警列表,构造当前告警列表的告警特征向量,将告警特征向量输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种故障场景检测方法,其特征在于:所述方法包括以下步骤:故障场景预检,故障场景告警过滤,故障场景合并;查询所有告警集合,依次构造告警集合中的告警特征向量,集合告警特征包括告警个数,告警种类数,根据所有告警集合的告警特征向量训练告警异常检测模型;查询所有告警列表,依次遍历告警列表,将当前告警记为主告警,并将发生次数自增1,查询当前主告警发生时前后指定时间间隔共现告警列表,将共现告警按照告警名称去重,得到共现告警集合,依次遍历共现告警集合,将当前共现告警记为次告警,并将对应主告警下该次告警的发生次数自增1,全部遍历结束后计算主告警发生时次告警发生的条件概率
。2.
根据权利要求1所述的一种故障场景检测方法,其特征在于:故障场景预检的具体操作包括:获取待检测告警列表,构造当前告警列表的告警特征向量,将告警特征向量输入训练好的告警异常检测模型,若告警异常检测模型的检测结果为疑似故障场景,则生成一个故障场景
。3.
根据权利要求1所述的一种故障场景检测方法,其特征在于:故障场景告警过滤的具体操作包括:依次遍历故障场景包含的告警列表,查询当前告警发生时其他告警发生的条件概率满足指定阈值的告警集合,此时当前告警为主告警,其他告警为次告警,若告警集合为空,则查询其他告警发生时当前告警发生的条件概率满足指定阈值的告警集合,此时其他告警为主告警,当前告警为次告警,若告警集合为空,则将当前告警从故障场景告警列表中删除
。4.
根据权利要求1所述的一种故障场景检测方法,其特征在于:故障场景合并的具体操作包括:若当前检测到的故障场景之前的最新故障场景状态为未关闭,则判断最新故障场景的创建时间和当前时间的间隔是否小于设定的故障场景合并时间间隔,若小于则计算当前故障场景包含的告警名称和之前的最新故障场景包含的告警名称之间的
Jaccard
相似度,若相似度大于设定的阈值,则将两个故障场景合并
。5.
一种根据权利要求1‑4任意一项所述的故障场景检测方法的故障场景检测系统,其特征在于:所述系统由...

【专利技术属性】
技术研发人员:孙光涛陈尧张永皋
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1