System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于AI的运维故障确定方法、装置、设备和存储介质制造方法及图纸_技高网

基于AI的运维故障确定方法、装置、设备和存储介质制造方法及图纸

技术编号:40375126 阅读:8 留言:0更新日期:2024-02-20 22:16
本发明专利技术提供了一种基于AI的运维故障确定方法、装置、设备和存储介质,涉及人工智能技术领域。其中,该方法包括:确定故障现象网元和故障时间,确定故障现象网元对应的相关网元;获取故障现象网元和相关网元对应的待分析运维数据;对待分析运维数据进行预处理,得到向量化要素信息;将向量化要素信息输入预先训练好的故障根因分析模型,输出待分析运维数据对应的故障根因;通过对历史运维数据进行处理确定标准化训练样本,基于标准化训练样本训练获得故障根因分析模型,再基于训练完成的故障根因分析模型分析运维数据确定故障根因,提高了运维数据的处理能力,提升了故障根因挖掘的准确性。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其是涉及一种基于ai的运维故障确定方法、装置、设备和存储介质。


技术介绍

1、在网络运维领域,引起网络故障的原因很多。随着网络规模的扩大,故障的原因分析越来越困难。故障往往表现在:甲设备被发现故障现象,但故障本身是由于乙设备所发生的事件或性能变化所导致;简单排除甲上故障往往不能彻底解决网络中存在的问题。因此,在运维领域,需要透过表面现象,揭示故障发生的根节点原因。

2、现有技术尝试用计算机算法来挖掘运维故障根因。这种方法对多次某类故障发生前的告警进行分别统计,通过构建频繁项集的方法,并人为设定置信度等阈值,去试图发现故障与告警是否存在较强的关联关系。由于运维过程中数据量太大,人工难以处理大量数据并从中发现故障和故障发生之前各种现象之间的逻辑,使得挖掘结果往往难以和运维经验相匹配,数据挖掘的指向性不明确,使得问题得不到收束,故障根因挖掘准确率差。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种基于ai的运维故障确定方法、装置、设备和存储介质,通过对历史运维数据进行处理确定标准化训练样本,基于标准化训练样本训练获得故障根因分析模型,再基于训练完成的故障根因分析模型分析运维数据确定故障根因,提高了运维数据的处理能力,提升了故障根因挖掘的准确性。

2、第一方面,本专利技术提供了一种基于ai的运维故障确定方法,包括:确定故障现象网元和故障时间,获取故障现象网元的标识信息;其中,故障现象网元的标识信息包括:故障现象网元的名称和/或故障现象网元的id标识;基于预设的资源关系数据库和故障现象网元的标识信息确定故障现象网元对应的相关网元;其中,资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据;规范化要素信息包括网元的规范化命名和网元的规范化id标识;获取故障现象网元以故障时间为基准的第一预设时间段内的第一运维数据,以及相关网元以故障时间为基准的第一预设时间段内的第二运维数据;将第一运维数据和第二运维数据确定为待分析运维数据;对待分析运维数据进行结构化处理,得到结构化要素信息;将结构化要素信息进行向量化表示,得到向量化要素信息;将向量化要素信息输入预先训练好的故障根因分析模型,输出待分析运维数据对应的故障根因;其中,故障根因分析模型基于历史运维数据运维数据训练得到,历史运维数据包括历史运维报告和历史故障分析报告。

3、在本专利技术一些较佳的实施例中,第一运维数据包括:第一日志数据、第一告警数据和性能指标时间序列数据;第二运维数据包括:第二日志数据、第二告警数据和性能指标时间序列数据;获取故障现象网元以故障时间为基准预设时间段内的第一运维数据,以及相关网元以故障时间为基准预设时间段内的第二运维数据的步骤包括:基于预先设置的自然语言算法模型对第一告警数据和第一日志数据进行语义化分析和关键词提取,获得第一目标运维信息;将第一目标运维信息基于性能指标时间序列数据序列化表达,确定第一运维数据;基于预先设置的自然语言算法模型对第二告警数据和第二日志数据进行语义化分析和关键词提取,获得第二目标运维信息;将第二目标运维信息基于性能指标时间序列数据序列化表达,确定第二运维数据。

4、在本专利技术一些较佳的实施例中,故障根因分析模型通过下述步骤训练得到:获取第一历史运行数据;第一历史运行数据包括历史运维数据和历史故障分析数据;获取第一历史运行数据中的历史第一目标信息;获取历史故障分析数据中的历史第二目标信息和历史故障根因;将历史第一目标信息和历史第二目标信息作为历史要素信息;将历史要素信息和历史故障根因一一对应后作为训练样本数据;对训练样本数据进行标准化预处理得到向量化训练样本数据;基于向量化训练样本数据训练故障根因分析基础模型,直到达到预设的训练结束条件,得到故障根因分析模型。

5、在本专利技术一些较佳的实施例中,获取第一历史运行数据中的历史第一目标信息的步骤包括:确定历史故障现象网元和历史故障时间,获取历史故障现象网元的标识信息;其中,历史故障现象网元的标识信息包括:历史故障现象网元的名称和/或历史故障现象网元的id标识;基于预设的资源关系数据库确定历史故障现象网元对应的历史故障相关网元;其中,资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据;规范化要素信息包括网元的规范化命名和网元的规范化id标识;获取历史故障现象网元以历史故障时间为基准的第二预设时间段内的第三运维数据,以及历史相关网元以历史故障时间为基准的第二预设时间段内的第四运维数据;将第三运维数据和第四运维数据确定为历史第一目标信息。

6、在本专利技术一些较佳的实施例中,获取历史故障分析数据中的历史第二目标信息和历史故障根因的步骤包括:基于自然语言算法提取历史故障分析报告的关键词并进行结构化处理,得到目标关键词;其中,目标关键词包括:历史故障时间、历史故障地点、历史故障现象网元、历史故障相关网元、历史故障根因网元和历史故障类别;将历史故障时间、历史故障地点、历史故障现象网元和历史故障相关网元确定为历史第二目标信息;将历史故障根因网元和历史故障类别确定为历史故障根因。

7、在本专利技术一些较佳的实施例中,基于向量化训练样本数据训练故障根因分析基础模型,直到达到预设的训练结束条件,得到故障根因分析模型的步骤包括:将向量化训练样本数据按照预设的比例分为训练集和验证集;基于训练集训练故障根因分析基础模型,得到故障根因分析中间模型;基于验证集验证故障根因分析中间模型,如果验证通过,将故障根因分析中间模型作为故障根因分析模型;如果验证不通过,基于训练集继续训练故障根因分析中间模型,直至验证通过。

8、在本专利技术一些较佳的实施例中,获取第一历史运行数据中的历史第一目标信息的步骤之后,方法还包括:获取第二历史运维数据;提取第二历史运维数据中的异常告警信息;通过异常告警信息从历史第一目标信息中将异常告警信息对应的历史第一目标信息剔除,得到更新后的历史第一目标信息。

9、第二方面,本专利技术提供了一种基于ai的运维故障确定装置,包括:故障响应模块,用于确定故障现象网元和故障时间,获取故障现象网元的标识信息;其中,故障现象网元的标识信息包括:故障现象网元的名称和/或故障现象网元的id标识;相关网元确定模块,用于基于预设的资源关系数据库和故障现象网元的标识信息确定故障现象网元对应的相关网元;其中,资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据;规范化要素信息包括网元的规范化命名和网元的规范化id标识;运维数据获取模块,用于获取故障现象网元以故障时间为基准的第一预设时间段内的第一运维数据,以及相关网元以故障时间为基准的第一预设时间段内的第二运维数据;待分析运维数据确定模块,用于将第一运维数据和第二运维数据确定为待分析运维数据;要素信息结构化处理模块,用于对待分析运维数据进行结构化处理,得到结构化要素信息;要素信息向量化处理模块,将结构化要素信息进行向量化表示,得到向量化要素信息;运维故障根因确定模块,用于将向量化要素信息输入预先训练好的故障本文档来自技高网...

【技术保护点】

1.一种基于AI的运维故障确定方法,其特征在于,包括:

2.根据权利要求1所述的基于AI的运维故障确定方法,其特征在于,所述第一运维数据包括:第一日志数据、第一告警数据和性能指标时间序列数据;所述第二运维数据包括:第二日志数据、第二告警数据和所述性能指标时间序列数据;获取所述故障现象网元以所述故障时间为基准预设时间段内的第一运维数据,以及所述相关网元以所述故障时间为基准预设时间段内的第二运维数据的步骤包括:

3.根据权利要求1所述的基于AI的运维故障确定方法,其特征在于,所述故障根因分析模型通过下述步骤训练得到:

4.根据权利要求3所述的基于AI的运维故障确定方法,其特征在于,获取所述第一历史运行数据中的历史第一目标信息的步骤包括:

5.根据权利要求3所述的基于AI的运维故障确定方法,其特征在于,获取所述历史故障分析数据中的历史第二目标信息和历史故障根因的步骤包括:

6.根据权利要求3所述的基于AI的运维故障确定方法,其特征在于,基于所述向量化训练样本数据训练故障根因分析基础模型,直到达到预设的训练结束条件,得到所述故障根因分析模型的步骤包括:

7.根据权利要求3所述的基于AI的运维故障确定方法,其特征在于,获取所述第一历史运行数据中的历史第一目标信息的步骤之后,所述方法还包括:

8.一种基于AI的运维故障确定装置,其特征在于,包括:

9.一种设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现上述权利要求1至7任一项所述的基于AI的运维故障确定方法。

10.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至7任一项所述的基于AI的运维故障确定方法。

...

【技术特征摘要】

1.一种基于ai的运维故障确定方法,其特征在于,包括:

2.根据权利要求1所述的基于ai的运维故障确定方法,其特征在于,所述第一运维数据包括:第一日志数据、第一告警数据和性能指标时间序列数据;所述第二运维数据包括:第二日志数据、第二告警数据和所述性能指标时间序列数据;获取所述故障现象网元以所述故障时间为基准预设时间段内的第一运维数据,以及所述相关网元以所述故障时间为基准预设时间段内的第二运维数据的步骤包括:

3.根据权利要求1所述的基于ai的运维故障确定方法,其特征在于,所述故障根因分析模型通过下述步骤训练得到:

4.根据权利要求3所述的基于ai的运维故障确定方法,其特征在于,获取所述第一历史运行数据中的历史第一目标信息的步骤包括:

5.根据权利要求3所述的基于ai的运维故障确定方法,其特征在于,获取所述历史故障分析数据中的历史第二目标信息和历史故障根因的步骤包括:

【专利技术属性】
技术研发人员:黄朝明刘鹏郑欣欣何冉
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1