System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种分布式云平台故障自愈方法和系统技术方案_技高网

一种分布式云平台故障自愈方法和系统技术方案

技术编号:40125630 阅读:8 留言:0更新日期:2024-01-23 21:20
本发明专利技术涉及云计算技术领域,具体为一种分布式云平台故障自愈方法和系统,包括如下步骤:告警事件接入;根因告警识别;故障自愈方案生成;脚本下发;有益效果为:本发明专利技术提出的分布式云平台故障自愈方法和系统,基于模式匹配和规则运算融合了机器学习和人工运维经验,可以更加精准地识别根因告警;基于告警知识库和模板引擎,自动生成故障自愈脚本;基于SD‑WAN网络和消息中间件,实现自愈脚本的自动下发;基于云平台侧的自愈调度执行模块和运维编排工具,实现自愈脚本的调度执行。

【技术实现步骤摘要】

本专利技术涉及云计算,具体为一种分布式云平台故障自愈方法和系统


技术介绍

1、分布式云场景下,云平台运维更加复杂。基于传统的自动化运维模式,由告警平台提供告警接入和工单推送,运维人员基于告警信息进行故障的响应和处理。由此一来,从故障告警集中接入、分析、工单推送,再到运维人员的响应处理,运维流程长、环节多,系统sla的保障面临着巨大挑战。

2、现有技术中,为了提升分布式云场景下故障响应效率,一个有效的策略是实现自动化运维向智能化运维的转变,由人工响应故障转变为机器响应故障,这就是本专利技术所面临的故障自愈场景;故障自愈的实现机制,通常以告警事件作为驱动,基于机器学习算法识别根因告警,并基于知识库生成故障自愈脚本。根因告警识别的准确性,对于故障自愈来说至关重要。为了减小机器学习算法的误差,必须以人工经验作为辅助,对算法逻辑进行补充和调整。


技术实现思路

1、本专利技术的目的在于提供一种分布式云平台故障自愈方法和系统,以解决上述
技术介绍
中提出的问题。

2、为实现上述目的,本专利技术提供如下技术方案:一种分布式云平台故障自愈方法,所述方法包括如下步骤:

3、告警事件接入;

4、根因告警识别;

5、故障自愈方案生成;

6、脚本下发。

7、优选的,告警事件接入的具体操作包括:

8、各分布式云平台的告警组件基于监控、日志数据实现告警触发,并基于sd-wan网络将告警消息推送到中心侧告警接入组件。p>

9、优选的,根因告警识别的具体操作包括:

10、告警特征提取,基于告警信息、监控信息、日志信息、变更日志、cmdb配置信息,提取告警特征信息,告警特征信息包括:告警名称、告警组件、严重级别、资源id,告警特征信息提取完毕后,封装为告警向量组,作为根因识别算法的数据输入;

11、根因告警识别,告警特征提取输出的告警向量组作为输入,基于根因告警识别算法进行处理,输出根因告警和知识库记录,模式匹配是基于知识库倒排索引进行匹配,如果匹配成功,则返回根因告警和知识库记录。

12、优选的,故障自愈方案生成的具体操作包括:

13、参数提取,基于告警向量组,提取告警参数,用于自愈脚本的生成;

14、自愈脚本生成,基于告警知识记录,获取故障处理方案和脚本模板,基于模板引擎,实现故障处理脚本模板的参数化和实例化,最终输出具体可执行的自愈脚本。

15、优选的,脚本下发的具体操作包括:

16、故障自愈脚本下发,由故障自愈脚本下发模块,将自愈脚本推送到消息中间件topic;

17、云中心自愈执行调度,分布式云平台中的自愈执行逻辑模块,负责监听由中心侧下发的故障自愈脚本消息,并调用运维编排工具执行自愈脚本;

18、运维编排执行,故障自愈脚本基于运维编排工具在云平台上执行,并返回执行结果。

19、一种分布式云平台故障自愈系统,包括告警事件接入、根因告警识别、自愈脚本生成、故障自愈脚本下发、自愈调度执行、运维编排工具六大模块;

20、告警事件接入模块,各分布式云平台基于sd-wan网络将告警消息推送到中心侧告警接入组件;

21、根因告警识别模块,基于告警信息、监控信息、日志信息、变更日志、cmdb配置信息,提取告警特征信息;基于模式匹配和规则引擎,融合了机器学习算法和人工运维经验,更加精准的进行根因告警识别;

22、故障自愈方案生成模块,基于告警向量组提取告警参数,用于自愈脚本的生成;基于告警知识记录,获取故障处理方案中的脚本模板;基于模板引擎,实现故障处理脚本模板的参数实例化,最终输出具体可执行的自愈脚本;

23、故障自愈脚本下发模块,基于消息中间件,由故障自愈脚本下发模块实现故障自愈脚本的下发;

24、自愈脚本执行调度模块,负责监听故障自愈消息,并通过调用运维编排工具实现故障自愈脚本的执行。

25、优选的,告警特征信息包括:告警云平台编码、告警名称、告警组件、严重级别、开始时间、ip地址、资源id、告警规则、告警详情,告警特征信息提取完毕后,封装为告警向量组,作为根因告警识别算法的输入。

26、与现有技术相比,本专利技术的有益效果是:

27、本专利技术提出的分布式云平台故障自愈方法和系统,基于模式匹配和规则运算融合了机器学习和人工运维经验,可以更加精准地识别根因告警;基于告警知识库和模板引擎,自动生成故障自愈脚本;基于sd-wan网络和消息中间件,实现自愈脚本的自动下发;基于云平台侧的自愈调度执行模块和运维编排工具,实现自愈脚本的调度执行。

本文档来自技高网...

【技术保护点】

1.一种分布式云平台故障自愈方法,其特征在于:所述方法包括如下步骤:

2.根据权利要求1所述的一种分布式云平台故障自愈方法,其特征在于:告警事件接入的具体操作包括:

3.根据权利要求1所述的一种分布式云平台故障自愈方法,其特征在于:根因告警识别的具体操作包括:

4.根据权利要求1所述的一种分布式云平台故障自愈方法,其特征在于:故障自愈方案生成的具体操作包括:

5.根据权利要求1所述的一种分布式云平台故障自愈方法,其特征在于:脚本下发的具体操作包括:

6.一种根据权利要求1-5任意一项所述分布式云平台故障自愈方法的分布式云平台故障自愈系统,其特征在于:包括告警事件接入、根因告警识别、自愈脚本生成、故障自愈脚本下发、自愈调度执行、运维编排工具六大模块;

7.根据权利要求6所述的一种分布式云平台故障自愈系统,其特征在于:告警特征信息包括:告警云平台编码、告警名称、告警组件、严重级别、开

【技术特征摘要】

1.一种分布式云平台故障自愈方法,其特征在于:所述方法包括如下步骤:

2.根据权利要求1所述的一种分布式云平台故障自愈方法,其特征在于:告警事件接入的具体操作包括:

3.根据权利要求1所述的一种分布式云平台故障自愈方法,其特征在于:根因告警识别的具体操作包括:

4.根据权利要求1所述的一种分布式云平台故障自愈方法,其特征在于:故障自愈方案生成的具体操作包括:

5.根据权利要求1所述...

【专利技术属性】
技术研发人员:吴东生陈尧张目飞
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1