告警故障预测方法、装置、设备及存储介质制造方法及图纸

技术编号:38332184 阅读:17 留言:0更新日期:2023-07-29 09:15
本申请提供一种告警故障预测方法、装置、设备及存储介质,涉及网络通信技术领域,该方法包括:根据告警拓扑关系强弱和时序指标关联性,构建推荐模型;根据推荐模型对目标指标进行故障预测;其中,告警拓扑关系强弱通过对历史告警数据进行拓扑关系挖掘获得;以及时序指标关联性通过对历史时序指标数据进行时序相关性分析获得。通过在融合基于告警模板引发关系和时序预测算法的基础上,引入告警拓扑关系强弱以及时序指标关联性构建推荐模型进行故障预测感知,降低了数据中心出现故障的可能性,同时有效降低了运维成本,提高了运维效率。提高了运维效率。提高了运维效率。

【技术实现步骤摘要】
告警故障预测方法、装置、设备及存储介质


[0001]本申请涉及网络通信
,具体而言,涉及一种告警故障预测方法、装置、设备及存储介质。

技术介绍

[0002]随着企业的规模不断壮大,企业的整体架构也日趋复杂,越来越多的企业(如金融行业、制造业等等)会重视数据的价值,数据中心是企业管理IT设备和数据的最有效手段之一。数据中心承载着企业运营的产品和服务,为了保障良好的用户体验和业务连续性,运维工作变得更加艰巨。当运维系统检测到数据中心发生告警时,对于整个企业来说,优先级最高并不是根因分析,而是需要预测接下来是否会发生更加严重的故障,即对故障进行感知。现有故障感知的方式大体有四类方法:1.基于工程师自身的经验;2.利用与业务相关的调用链进行推理;3.基于告警模板引发关系进行推理;4.基于时序预测算法的故障预测。
[0003]目前,相较于经验和调用链等受限较多的传统方法,基于告警模板引发关系和时序预测的算法进行推理的智能运维技术是适应于大数据环境并且降低了预测的不确定性;但是基于告警模板之间的引发关系的推理方法中缺少对拓扑关系影响的考虑,基于时序预测算法的故障预测缺少对关联指标的影响分析缺乏对监控指标的覆盖,降低了数据中心的故障感知效果。

技术实现思路

[0004]有鉴于此,本申请实施例的目的在于提供一种告警故障预测方法、装置、设备及存储介质,通过在融合基于告警模板引发关系和时序预测算法的基础上,引入告警拓扑关系强弱以及时序指标关联性构建推荐模型进行故障预测感知,该故障感知方法在拓扑结构关系明确或者不明确的场景下均适用,可以有效提升运维系统对故障的感知和发现的能力,可降低数据中心出现故障的可能性,并且可以有效降低运维成本,提高运维效率,提升业务连续性。
[0005]第一方面,本申请实施例提供一种告警故障预测方法,所述方法包括:根据告警拓扑关系强弱和时序指标关联性,构建推荐模型;根据所述推荐模型对所述目标指标进行故障预测;其中,所述告警拓扑关系强弱通过对历史告警数据进行拓扑关系挖掘获得;以及所述时序指标关联性通过对历史时序指标数据进行时序相关性分析获得。
[0006]在上述实现过程中,通过在融合基于告警模板引发关系和时序预测算法的基础上,引入告警拓扑关系强弱以及时序指标关联性构建推荐模型进行故障预测感知,该故障感知方法在拓扑结构关系明确或者不明确的场景下均适用,有效提升了运维系统对故障的感知和发现的能力,降低了数据中心出现故障的可能性,同时有效降低了成本,提高了运维效率,提升了业务连续性。
[0007]可选地,所述对历史告警数据进行拓扑关系挖掘,包括:通过滑窗对所述历史告警数据进行有效划分,以获得初始告警数据集;其中,所述滑窗的长度为有关联关系的告警之
间进行诱发的有效时间;根据告警数据的解决时间,对所述初始告警数据集中的告警数据进行筛选排除,以获得全有效告警数据集;根据所述全有效告警数据集进行拓扑关系挖掘,获得所述告警拓扑关系强弱。
[0008]在上述实现过程中,通过在基于告警模板之间的引发关系的推理方法中,利用有关联关系的告警之间进行诱发的有效时间作参考,实现对拓扑关系影响程度的考虑,并精确到拓扑关系的强弱,提升了推理的效果。
[0009]可选地,所述根据所述全有效告警数据集进行拓扑关系挖掘,获得所述告警拓扑关系强弱,包括:根据所述全有效告警数据集,计算有关联关系的告警组合的共现次数;若判定所述告警组合的共现次数大于或等于最小绝对支持度,则根据所述告警组合构建告警拓扑关系库;根据所述告警拓扑关系库,计算拓扑关系的共现次数并进行归一化,以获得所述告警拓扑关系强弱。
[0010]在上述实现过程中,通过在基于告警模板之间的引发关系的推理方法中,设定阈值判断当告警模板共现次数达到多少IT设备之间视为存在关联关系,实现对拓扑关系影响程度的考虑,并精确到拓扑关系的强弱,提升了推理的效果。
[0011]可选地,所述告警拓扑关系库根据历史告警数据来源进行定时更新。
[0012]在上述实现过程中,通过对构建的告警拓扑关系库进行定时更新,扩大了故障预测方法的适用性。
[0013]可选地,所述对历史时序指标数据进行时序相关性分析,包括:从所述历史时序指标数据中选取任意两个时序指标;根据预设算法,计算所述两个时序指标在宏观时间粒度和微观时间粒度下的数据相关性,以获得所述时序指标关联性。
[0014]在上述实现过程中,通过在基于时序预测算法的故障预测方法中,根据历史时序数据计算两个指标之间的相关性,实现对可能有关系的指标造成的影响程度的分析,提高了故障感知的准确度。
[0015]可选地,所述根据告警拓扑关系强弱和时序指标关联性,构建推荐模型,包括:对目标指标在预设时间段前是否已发生异常告警进行判断和估计,获得辅助规则影响系数;根据所述辅助规则影响系数、告警拓扑关系强弱和时序指标关联性,构建推荐模型。
[0016]在上述实现过程中,通过引入拓扑关系强弱、宏观和微观时间粒度下时序指标的相关性以及结合实际场景需求的辅助规则,以推荐的方式为整个运维系统感知故障提供决策依据,大大提升了故障感知覆盖面和准确度。
[0017]可选地,所述根据所述辅助规则影响系数、告警拓扑关系强弱和时序指标关联性,构建推荐模型,包括:对所述辅助规则影响系数、告警拓扑关系强弱、时序指标关联性、告警模板之间引发概率、目标指标未来是否有告警的系数进行加权求和,以获得推荐模型。
[0018]在上述实现过程中,通过融合告警模板的引发关系和时序数据的可预测性,将静态和动态的数据特征进行结合,实现了一种兼顾告警和时序数据的融合机制,在考虑时序指标相关性时,同时考虑了宏观和微观时间粒度的影响,并且在有结合场景需求的辅助规则的加持,可以大大提升准确度。
[0019]第二方面,本申请实施例提供了一种告警故障预测装置,所述装置包括:模型构建模块以及预测模块;所述模型构建模块用于根据告警拓扑关系强弱和时序指标关联性,构建推荐模型;所述预测模块用于根据所述推荐模型对所述目标指标进行故障预测;其中,所
述告警拓扑关系强弱通过对历史告警数据进行拓扑关系挖掘获得;以及所述时序指标关联性通过对历史时序指标数据进行时序相关性分析获得。
[0020]第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行上述的方法的步骤。
[0021]第四方面,本申请实施例提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。
[0022]为使本申请的上述目的、特征和优点能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。
附图说明
[0023]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种告警故障预测方法,其特征在于,所述方法包括:根据告警拓扑关系强弱和时序指标关联性,构建推荐模型;根据所述推荐模型对目标指标进行故障预测;其中,所述告警拓扑关系强弱通过对历史告警数据进行拓扑关系挖掘获得;以及所述时序指标关联性通过对历史时序指标数据进行时序相关性分析获得。2.根据权利要求1所述的方法,其特征在于,所述对历史告警数据进行拓扑关系挖掘,包括:通过滑窗对所述历史告警数据进行有效划分,以获得初始告警数据集;其中,所述滑窗的长度为有关联关系的告警之间进行诱发的有效时间;根据告警数据的解决时间,对所述初始告警数据集中的告警数据进行筛选排除,以获得全有效告警数据集;根据所述全有效告警数据集进行拓扑关系挖掘,获得所述告警拓扑关系强弱。3.根据权利要求2所述的方法,其特征在于,所述根据所述全有效告警数据集进行拓扑关系挖掘,获得所述告警拓扑关系强弱,包括:根据所述全有效告警数据集,计算有关联关系的告警组合的共现次数;若判定所述告警组合的共现次数大于或等于最小绝对支持度,则根据所述告警组合构建告警拓扑关系库;根据所述告警拓扑关系库,计算拓扑关系的共现次数并进行归一化,以获得所述告警拓扑关系强弱。4.根据权利要求3所述的方法,其特征在于,其中,所述告警拓扑关系库根据历史告警数据来源进行定时更新。5.根据权利要求1所述的方法,其特征在于,所述对历史时序指标数据进行时序相关性分析,包括:从所述历史时序指标数据中选取任意两个时序指标;根据预设算法,计算所述两个时序指标在宏观时间粒度...

【专利技术属性】
技术研发人员:姜勇越王菲
申请(专利权)人:创新奇智上海科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1