一种故障检测方法及系统技术方案

技术编号:34941042 阅读:21 留言:0更新日期:2022-09-17 12:14
本公开提供一种故障检测方法及系统,所述方法包括:获取海量的告警数据;计算各告警数据的异常性得分,并筛选异常性得分高于第一阈值的告警数据作为异常告警数据;基于预存的第一模型对异常告警数据进行第一处理,以获取疑似故障告警数据;基于预存的第二模型对疑似故障告警数据进行第二处理,得到告警故障数据,并从告警故障数据中提取故障信息。本公开所述方法能够从海量的告警数据中高效地获取较为准确的故障信息,减少故障的排查时间。减少故障的排查时间。减少故障的排查时间。

【技术实现步骤摘要】
一种故障检测方法及系统


[0001]本公开涉及计算机应用
,尤其涉及一种故障检测方法及系统。

技术介绍

[0002]大型IT企业的业务庞杂,监控指标众多,为了保证服务系统安全稳定的运行中,需要实时检测出可能存在的系统故障,开发人员往往会在脚本执行过程中设计大量监控规则,从而对异常指标发出告警。
[0003]现有技术通常使用聚类算法对海量告警进行告警聚类摘要后,再交由运维工程师进行分析,当系统规模庞大、应用种类繁多时,通过聚类后得到的告警数据规模依然庞大,并夹杂大量噪声告警,因此增加了运维工程师的排查难度,使得定位故障十分困难。
[0004]因此,如何减少故障的排查时间,实现高效的故障检测是业界亟需解决的重要课题。

技术实现思路

[0005]本公开提供的一种故障检测方法及系统,用以解决现有技术在系统规模庞大、应用种类繁多时对告警数据进行故障定位的难度较大、效率较低的缺陷,使其能够减少故障的排查时间,提升故障检测的效率。
[0006]本公开提供一种故障检测方法,包括:
[0007]获取海量的告警数据;
[0008]计算各所述告警数据的第一异常性得分,并筛选所述第一异常性得分高于第一阈值的所述告警数据作为异常告警数据;
[0009]基于预存的第一模型对所述异常告警数据进行第一处理,以获取疑似故障告警数据;
[0010]基于预存的第二模型对所述疑似故障告警数据进行第二处理,得到告警故障数据,并从所述告警故障数据中提取故障信息。
[0011]根据本公开提供的一种故障检测方法,所述计算各所述告警数据的第一异常性得分,包括:基于预存的告警模板对所述告警数据进行分层解析,以获取告警模板数据;对所述告警模板数据进行周期性分析,以获取第一分类数据,其中,所述第一分类数据包括周期性告警数据和非周期性告警数据;对所述告警模板数据进行稀有性分析,以获取第二分类数据;其中,所述第二分类数据包括高频告警数据和低频告警数据;基于所述第一分类数据和所述第二分类数据,计算所述第一异常性得分。
[0012]根据本公开提供的一种故障检测方法,对所述告警模板数据进行周期性分析,以获取第一分类数据,包括:提取所述告警模板数据的分钟级聚合特征;基于所述分钟级聚合特征,将所述告警模板数据分为所述周期性告警数据和所述非周期性告警数据。
[0013]根据本公开提供的一种故障检测方法,对所述告警模板数据进行稀有性分析,以获取第二分类数据,包括:将所述告警模板数据中重复出现的数据进行聚合处理,以得到高
频告警数据,并将所述告警模板数据中除所述高频告警数据外的其他数据作为低频告警数据。
[0014]根据本公开提供的一种故障检测方法,所述基于所述第一分类数据和所述第二分类数据,计算所述第一异常性得分,包括:提取所述第一分类数据中周期性告警数据的趋势成分及残差,并根据所述趋势成分及所述残差计算所述周期性告警数据的第二异常性得分;在所述告警数据为所述非周期性告警数据和所述低频告警数据的情况下,将所述第二异常性得分按第一比例增大,得到所述第一异常性得分;在所述告警数据为所述周期性告警数据和所述高频告警数据的情况下,将所述第二异常性得分按第二比例减小,得到所述第一异常性得分。
[0015]根据本公开提供的一种故障检测方法,所述基于预存的第一模型对所述异常告警数据进行第一处理,以获取疑似故障告警数据,包括:提取所述异常告警数据中的告警特征;将所述告警特征输入所述第一模型进行故障告警的召回处理,并根据所述召回处理的结果从所述异常告警数据中获取所述疑似故障告警数据。
[0016]根据本公开提供的一种故障检测方法,对所述异常告警数据进行独热编码处理,得到编码处理结果,并从所述编码处理结果中提取告警时序特征和告警状态分布特征;将所述告警时序特征和所述告警状态分布特征作为所述告警特征;其中,所述告警时序特征包括分钟级粒度聚合特征、分钟级告警应用数目和分钟级最大应用数目;所述告警状态分布特征包括告警时序数量分布特征和告警时序频率分布特征。
[0017]根据本公开提供的一种故障检测方法,所述将所述告警特征输入所述第一模型进行故障告警的召回处理,并根据所述召回处理的结果从所述异常告警数据中获取所述疑似故障告警数据,包括:利用所述第一模型对所述告警特征进行所述召回处理,并从所述召回处理的结果中提取包含疑似故障信息的异常时间点;对各所述异常时间点进行故障评分,以获取各所述异常时间点对应的故障得分;在所述故障得分高于第二阈值的情况下,将所述异常时间点对应的告警数据作为所述疑似故障告警数据。
[0018]根据本公开提供的一种故障检测方法,基于预存的第二模型对所述疑似故障告警数据进行第二处理,以获取故障告警信息,包括:将所述疑似故障告警数据输入所述第二模型中进行筛选,以获取故障告警数据,并从所述故障告警数据中获取所述故障告警信息;其中,所述故障告警信息包括故障根因信息以及故障预测信息。
[0019]本公开还提供一种故障检测系统,包括:
[0020]告警数据获取单元,用于获取海量的告警数据;异常告警数据获取单元,用于计算各所述告警数据的异常性得分,并筛选所述异常性得分高于第一阈值的所述告警数据作为异常告警数据;疑似故障告警数据获取单元,用于基于预存的第一模型对所述异常告警数据进行第一处理,以获取疑似故障告警数据;告警故障信息获取单元,用于基于预存的第二模型对所述疑似故障告警数据进行第二处理,得到告警故障数据,并从所述告警故障数据中提取故障信息。
[0021]本公开还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述故障检测方法的步骤。
[0022]本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算
机程序被处理器执行时实现如上述任一种所述故障检测方法。
[0023]本公开还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述故障检测方法。
[0024]本公开提供的一种故障检测方法和系统,通过各告警数据的异常性得分从海量的告警数据中快速筛选出异常告警数据,并利用第一模型对异常告警数据进行无监督学习以获取疑似故障告警数据,保证了该疑似故障告警数据的召回率,又利用第二模型对疑似故障告警数据进行有监督学习,进一步从疑似故障告警数据中筛选出告警故障数据,并从告警故障数据中提取所需故障信息,以便根据故障信息对故障进行定位和预测。本公开所述方法能够从海量的告警数据中高效地提取准确的故障信息,减少故障的排查时间。
附图说明
[0025]为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图进行简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1是本公本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障检测方法,其特征在于,包括:获取海量的告警数据;计算各所述告警数据的第一异常性得分,并筛选所述第一异常性得分高于第一阈值的所述告警数据作为异常告警数据;基于预存的第一模型对所述异常告警数据进行第一处理,以获取疑似故障告警数据;基于预存的第二模型对所述疑似故障告警数据进行第二处理,得到告警故障数据,并从所述告警故障数据中提取故障信息。2.根据权利要求1所述的故障检测方法,其特征在于,所述计算各所述告警数据的第一异常性得分,包括:基于预存的告警模板对所述告警数据进行分层解析,以获取告警模板数据;对所述告警模板数据进行周期性分析,以获取第一分类数据,其中,所述第一分类数据包括周期性告警数据和非周期性告警数据;对所述告警模板数据进行稀有性分析,以获取第二分类数据;其中,所述第二分类数据包括高频告警数据和低频告警数据;基于所述第一分类数据和所述第二分类数据,计算所述第一异常性得分。3.根据权利要求2所述的故障检测方法,其特征在于,对所述告警模板数据进行周期性分析,以获取第一分类数据,包括:提取所述告警模板数据的分钟级聚合特征;基于所述分钟级聚合特征,将所述告警模板数据分为所述周期性告警数据和所述非周期性告警数据。4.根据权利要求2所述的故障检测方法,其特征在于,对所述告警模板数据进行稀有性分析,以获取第二分类数据,包括:将所述告警模板数据中重复出现的数据进行聚合处理,以得到高频告警数据,并将所述告警模板数据中除所述高频告警数据外的其他数据作为低频告警数据。5.根据权利要求2所述的故障检测方法,其特征在于,所述基于所述第一分类数据和所述第二分类数据,计算所述第一异常性得分,包括:提取所述第一分类数据中周期性告警数据的趋势成分及残差,并根据所述趋势成分及所述残差计算所述周期性告警数据的第二异常性得分;在所述告警数据为所述非周期性告警数据和所述低频告警数据的情况下,将所述第二异常性得分按第一比例增大,得到所述第一异常性得分;在所述告警数据为所述周期性告警数据和所述高频告警数据的情况下,将所述第二异常性得分按第二比例减小,得到所述第一异常性得分。6.根据权利要求1所述的故障检测方法,其特征在于,所述基于预存的第一模型对所述异常告警数据进行第一处理,以获取疑似故障告警数据,包括:提取所述异常告警数据中的告警特征;将所述告警特征输入所述第一模型进行故障告警的召回处理,并根据所述召回处理的结果从所述异常告警数据中获取所述疑似故障告警数据。7.根据...

【专利技术属性】
技术研发人员:张静李沐恒张宪波
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1