【技术实现步骤摘要】
一种故障场景检测方法及系统
[0001]本专利技术涉及运维
,具体为一种故障场景检测方法及系统
。
技术介绍
[0002]随着云计算的飞速发展,越来越多的企业和个人用户拥抱云服务,对于云服务提供商来说为了给用户提供稳定的服务,通常会部署大量的监控系统,随之而来的是大量的告警
。
[0003]现有技术中,对于运维人员来说如何从海量告警中识别真实的故障具有重要意义
。
通常会采用告警收敛技术对告警进行收敛,如按时间窗口
、
按告警对象
、
按地域等对告警进行合并,采用这种方式在故障发生时并不能对运维人员进行及时的提醒,而且仅仅依靠时间窗口也会将一些不相关的告警合并到一起,干扰运维人员的故障定位
。
技术实现思路
[0004]本专利技术的目的在于提供一种故障场景检测方法及系统,以解决上述
技术介绍
中提出的问题
。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种故障场景检测方法,所述方法包括以下步骤:r/>[0006]故本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种故障场景检测方法,其特征在于:所述方法包括以下步骤:故障场景预检,故障场景告警过滤,故障场景合并;查询所有告警集合,依次构造告警集合中的告警特征向量,集合告警特征包括告警个数,告警种类数,根据所有告警集合的告警特征向量训练告警异常检测模型;查询所有告警列表,依次遍历告警列表,将当前告警记为主告警,并将发生次数自增1,查询当前主告警发生时前后指定时间间隔共现告警列表,将共现告警按照告警名称去重,得到共现告警集合,依次遍历共现告警集合,将当前共现告警记为次告警,并将对应主告警下该次告警的发生次数自增1,全部遍历结束后计算主告警发生时次告警发生的条件概率
。2.
根据权利要求1所述的一种故障场景检测方法,其特征在于:故障场景预检的具体操作包括:获取待检测告警列表,构造当前告警列表的告警特征向量,将告警特征向量输入训练好的告警异常检测模型,若告警异常检测模型的检测结果为疑似故障场景,则生成一个故障场景
。3.
根据权利要求1所述的一种故障场景检测方法,其特征在于:故障场景告警过滤的具体操作包括:依次遍历故障场景包含的告警列表,查询当前告警发生时其他告警发生的条件概率满足指定阈值的告警集合,此时当前告警为主告警,其他告警为次告警,若告警集合为空,则查询其他告警发生时当前告警发生的条件概率满足指定阈值的告警集合,此时其他告警为主告警,当前告警为次告警,若告警集合为空,则将当前告警从故障场景告警列表中删除
。4.
根据权利要求1所述的一种故障场景检测方法,其特征在于:故障场景合并的具体操作包括:若当前检测到的故障场景之前的最新故障场景状态为未关闭,则判断最新故障场景的创建时间和当前时间的间隔是否小于设定的故障场景合并时间间隔,若小于则计算当前故障场景包含的告警名称和之前的最新故障场景包含的告警名称之间的
Jaccard
相似度,若相似度大于设定的阈值,则将两个故障场景合并
。5.
一种根据权利要求1‑4任意一项所述的故障场景检测方法的故障场景检测系统,其特征在于:所述系统由...
【专利技术属性】
技术研发人员:孙光涛,陈尧,张永皋,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。