System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大语言模型的IT系统故障诊断方法及系统技术方案_技高网

一种基于大语言模型的IT系统故障诊断方法及系统技术方案

技术编号:44186133 阅读:15 留言:0更新日期:2025-02-06 18:27
本发明专利技术公开了一种基于大语言模型的IT系统故障诊断方法及系统,方法包括:利用LLM技术对排障指南TSG进行向量化,生成对应的TSG向量,并根据TSG定义自动化排障流程;根据接收到的告警事件信息,利用IT拓扑图确定相关联的IT组件及发生的告警事件;利用LLM技术对告警事件进行向量化生成告警事件向量,与TSG向量进行相似性对比,确定相似故障的TSG;执行相似故障TSG的自动化排障流程,根据所得的诊断信息确定故障根因,并利用LLM技术生成故障诊断报告。通过本发明专利技术的技术方案,能够精确快速定位故障根因,实现了故障自动化诊断,提高了故障处置效率。

【技术实现步骤摘要】

本专利技术涉及系统错误检测,尤其涉及一种基于大语言模型的it系统故障诊断方法以及一种基于大语言模型的it系统故障诊断系统。


技术介绍

1、分布式微服务应用架构、云原生技术让it架构规模变得非常庞大、组成及运行逻辑也巨复杂,极大加剧了故障发生时诊断分析的难度。

2、首先,it系统可能出现故障的环节比较多,从底层网络系统到服务器、数据库、中间件、应用程序均有可能发生故障,并且会产生故障传播。其次,分布式架构用户访问路径比较长,其中任何一个环节都有可能出现问题。生产环境的故障因为部署架构和配置差异、数据量、并发量、数据敏感性、偶然性等原因,难以在测试环境通过模拟调试方式定位故障。

3、当前it系统一般会部署多种监控系统,持续对it系统各个层面的监控指标数据、调用链数据、日志数据进行监控,通过静态或者动态指标阈值、ai机器学习算法对系统异常行为进行判断产生告警事件,结合it系统组件之间的拓扑关系,在系统异常时间点前后时间窗内产生的众多告警事件中确定根因事件。根据根因事件找到预设的故障排查方案,手工排查造成业务访问异常的原因并恢复系统。

4、分布式架构的it系统规模庞大、it系统组件之间关系复杂,受限于监控技术,指标数据、日志、调用链三个维度只能独立进行故障检测,并且会出现遗漏或者误判的情况。辅助故障定位分析的it拓扑图一般也只能到it系统组件层,所以很多情况下只能确定一个故障类型和大概故障范围,一线运维工程师据此在众多排障指导手册中寻找合适的,按手册指南进行排障。如果根因事件判断不准确,或者故障范围过大,或者排障指南描述不清晰,将会导致排障效率降低、甚至无法定位到故障根因。


技术实现思路

1、针对上述问题,本专利技术提供了一种基于大语言模型的it系统故障诊断方法及系统,利用先验知识构建排障指南tsg及其自动化排障流程,将告警事件信息利用llm技术与tsg向量进行相似性匹配后确定相似故障tsg,通过执行对应的自动化排障流程得到的诊断信息,得到故障根因、生成故障诊断报告,能够充分利用多种模态告警事件信息和故障库先验知识,精确快速定位故障根因,将排障过程的诊断信息以一线运维人员容易理解的方式呈现,实现了故障自动化诊断,提高了故障处置效率。

2、为实现上述目的,本专利技术提供了一种基于大语言模型的it系统故障诊断方法,包括:

3、利用大语言模型llm技术对排障指南tsg进行向量化,生成对应的tsg向量存储至tsg向量库中,并根据所述tsg定义自动化排障流程;

4、根据接收到的告警事件信息,利用it拓扑图确定相关联的it组件,并确定发生在所述it组件上的告警事件;

5、利用llm技术对所述告警事件进行向量化生成告警事件向量,并将所述告警事件向量与所述tsg向量库中的tsg向量进行相似性对比,确定相似故障tsg;

6、自动执行所述相似故障tsg对应的自动化排障流程,根据所得到的诊断信息确定故障根因,并利用llm技术生成故障诊断报告。

7、在上述技术方案中,优选地,所述利用大语言模型llm技术对排障指南tsg进行向量化,生成对应的tsg向量,具体过程包括:

8、利用llm技术为每个排障指南生成对应的向量表示,作为对应排障指南的tsg向量;

9、当排障指南的文字长度小于预设值时,直接将该排障指南的内容输入llm生成对应的向量;

10、当排障指南的文字长度大于或等于预设值时,对该排障指南按照章节或固定长度进行分割,为每个分割部分生成摘要,并将所述摘要进行合并后进行向量化。

11、在上述技术方案中,优选地,所述根据接收到的告警事件信息,利用it拓扑图确定相关联的it组件,并确定发生在所述it组件上的告警事件,具体过程包括:

12、根据系统接收到的所述告警事件信息,提取出告警时间、告警级别、告警类别、产生告警的it资源、告警详细内容以及对应的指标和值;

13、若系统接收到业务系统指标告警或业务系统日志告警事件,由it拓扑图中检索到该业务系统所依赖的所有基础设施it组件,其中,所述it组件包括数据库、中间件、操作系统、存储、网络和云环境;

14、确定所述it组件在所述业务告警事件发生前后预设时间窗口内的告警事件。

15、在上述技术方案中,优选地,将所述告警事件向量与所述tsg向量库中的tsg向量进行相似性对比,确定相似故障tsg,具体过程包括:

16、利用所述告警事件向量与所述tsg向量库中的tsg向量分别进行相似性对比;

17、按照相似度对所述tsg向量库中的tsg向量进行由高到低排序;

18、选择相似度最高的前预设数量个tsg向量,作为与所述告警事件向量相对应的相似故障tsg。

19、在上述技术方案中,优选地,自动执行所述相似故障tsg对应的自动化排障流程,根据所得到的诊断信息确定故障根因,并利用llm技术生成故障诊断报告,具体过程包括:

20、按照所述相似故障tsg对应的自动化排障流程,利用自动化技术进行自动执行;

21、将得到的诊断信息作为上下文,通过预设prompt模板输入至llm,利用llm技术的语言综合能力生成故障根因分析和诊断报告。

22、本专利技术还提出一种基于大语言模型的it系统故障诊断系统,应用如上述技术方案中任一项公开的基于大语言模型的it系统故障诊断方法,包括:

23、tsg向量化模块,用于利用大语言模型llm技术对排障指南tsg进行向量化,生成对应的tsg向量存储至tsg向量库中,并根据所述tsg定义自动化排障流程;

24、告警事件确定模块,用于根据接收到的告警事件信息,利用it拓扑图确定相关联的it组件,并确定发生在所述it组件上的告警事件;

25、相似故障确定模块,用于利用llm技术对所述告警事件进行向量化生成告警事件向量,并将所述告警事件向量与所述tsg向量库中的tsg向量进行相似性对比,确定相似故障tsg;

26、自动排障分析模块,用于自动执行所述相似故障tsg对应的自动化排障流程,根据所得到的诊断信息确定故障根因,并利用llm技术生成故障诊断报告。

27、在上述技术方案中,优选地,所述tsg向量化模块具体用于:

28、利用llm技术为每个排障指南生成对应的向量表示,作为对应排障指南的tsg向量;

29、当排障指南的文字长度小于预设值时,直接将该排障指南的内容输入llm生成对应的向量;

30、当排障指南的文字长度大于或等于预设值时,对该排障指南按照章节或固定长度进行分割,为每个分割部分生成摘要,并将所述摘要进行合并后进行向量化。

31、在上述技术方案中,优选地,所述告警事件确定模块具体用于:

32、根据系统接收到的所述告警事件信息,提取出告警时间、告警级别、告警类别、产生告警的it资源、告警详细内容以及对应的指标和值;<本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的IT系统故障诊断方法,其特征在于,包括:

2.根据权利要求1所述的基于大语言模型的IT系统故障诊断方法,其特征在于,所述利用大语言模型LLM技术对排障指南TSG进行向量化,生成对应的TSG向量,具体过程包括:

3.根据权利要求1所述的基于大语言模型的IT系统故障诊断方法,其特征在于,所述根据接收到的告警事件信息,利用IT拓扑图确定相关联的IT组件,并确定发生在所述IT组件上的告警事件,具体过程包括:

4.根据权利要求1所述的基于大语言模型的IT系统故障诊断方法,其特征在于,所述将所述告警事件向量与所述TSG向量库中的TSG向量进行相似性对比,确定相似故障TSG,具体过程包括:

5.根据权利要求1所述的基于大语言模型的IT系统故障诊断方法,其特征在于,所述执行所述相似故障TSG的自动化排障流程,根据所得到的诊断信息确定故障根因,并利用LLM技术生成故障诊断报告,具体过程包括:

6.一种基于大语言模型的IT系统故障诊断系统,其特征在于,应用如权利要求1至5中任一项所述的基于大语言模型的IT系统故障诊断方法,包括:

7.根据权利要求6所述的基于大语言模型的IT系统故障诊断系统,其特征在于,所述TSG向量化模块具体用于:

8.根据权利要求6所述的基于大语言模型的IT系统故障诊断系统,其特征在于,所述告警事件确定模块具体用于:

9.根据权利要求6所述的基于大语言模型的IT系统故障诊断系统,其特征在于,所述相似故障确定模块具体用于:

10.根据权利要求6所述的基于大语言模型的IT系统故障诊断系统,其特征在于,所述自动排障分析模块具体用于:

...

【技术特征摘要】

1.一种基于大语言模型的it系统故障诊断方法,其特征在于,包括:

2.根据权利要求1所述的基于大语言模型的it系统故障诊断方法,其特征在于,所述利用大语言模型llm技术对排障指南tsg进行向量化,生成对应的tsg向量,具体过程包括:

3.根据权利要求1所述的基于大语言模型的it系统故障诊断方法,其特征在于,所述根据接收到的告警事件信息,利用it拓扑图确定相关联的it组件,并确定发生在所述it组件上的告警事件,具体过程包括:

4.根据权利要求1所述的基于大语言模型的it系统故障诊断方法,其特征在于,所述将所述告警事件向量与所述tsg向量库中的tsg向量进行相似性对比,确定相似故障tsg,具体过程包括:

5.根据权利要求1所述的基于大语言模型的it系统故障诊断方法,其特征在于,所述执行所...

【专利技术属性】
技术研发人员:方宇炜王东
申请(专利权)人:神州数码系统集成服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1