System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于云计算的软件运维系统及方法技术方案_技高网

一种基于云计算的软件运维系统及方法技术方案

技术编号:40807514 阅读:7 留言:0更新日期:2024-03-28 19:30
本发明专利技术实施例中提供了一种基于云计算的软件运维系统及方法,属于软件管理技术领域,该系统包括:连接模块,所述连接模块定时触发数据采集功能,从各种软件组件里面获取软件的运行状态数据,并通过kettle的中间件,将采集到的数据发送至kafka消息中间件,提供给模型预测模块进行在线推理;联邦训练模块,通过FedAvg算法实现模型参数的可靠聚合,使用Flask将更新后的模型部署为API服务;故障检测模块,使用规则引擎进行实时故障识别,根据解析结果对软件故障进行分类;决策控制模块,基于kettle的软件组件连接通道和脚本支撑,实现软件故障命令的下发执行。采用本方案,能够提高软件管理的效率。

【技术实现步骤摘要】

本专利技术涉及软件管理,尤其涉及一种基于云计算的软件运维系统及方法


技术介绍

1、随着计算机性能得到提高,更重要的是出现了大容量磁盘,存储容量大大增加且价格下降。在此基础上,有可能克服文件系统管理数据的不足,而去满足和解决实际应用中多个用户、多个应用程序共享数据的要求,从而使数据能为尽可能多的应用程序服务,这就出现了数据库这样的数据管理技术。数据库的特点是数据不再只针对某一特定程序应用,而是面向全组织,具有整体的结构性,共享性高,冗余度小,具有一定的程序与数据间的独立性,并且实现了对数据进行统一的控制。数据库技术的应用使数据存储量猛增,用户增加,而且数据库技术的出现使数据处理系统的研制从围绕以加工数据的程序为中心转向围绕共享数据来进行。这样,既便于数据的集中管理,又有利于应用程序的研制和维护,从而提高了数据的利用率和相容性,并且有可能从企业或组织的全局来利用数据,从而提高了决策可靠性。

2、在信息系统维护的过程中,如何基于互联网技术来挖掘信息系统软件数据之间的联系,进而提高系统软件维护管理的效率,是需要解决的问题。


技术实现思路

1、有鉴于此,本专利技术实施例提供一种基于云计算的软件运维系统及方法,至少部分解决现有技术中存在的问题。

2、第一方面,本专利技术实施例提供了一种基于云计算的软件运维系统,包括:

3、连接模块,所述连接模块定时触发数据采集功能,从各种软件组件里面获取软件的运行状态数据,并通过kettle的中间件,将采集到的数据发送至kafka消息中间件,提供给模型预测模块进行在线推理;

4、联邦训练模块,所述联邦训练模块利用python脚本将历史故障训练数据格式化为文本,通过zookeeper协调模型初始化,各本地节点使用fate进行本地模型训练,通过fedavg算法实现模型参数的可靠聚合,使用flask将更新后的模型部署为api服务;

5、故障检测模块,所述故障检测模块通过flask将大语言模型部署为api服务,接收kettle上报的实时状态数据,进行模型在线预测推理,输出结果通过python脚本解析成可执行的sql语句,同时使用规则引擎进行实时故障识别,根据解析结果对软件故障进行分类;

6、决策控制模块,所述决策控制模块利用drools规则引擎将故障识别结果映射为可调度任务的参数,通过xxl-job调度任务执行,尝试故障修复,基于kettle的软件组件连接通道和脚本支撑,实现软件故障命令的下发执行。

7、根据本公开实施例的一种具体实现方式,所述联邦训练模块还用于:

8、基于fate-llm对输入的向量化需求,将互联网、日常运维产生的软件故障文本数据转化为向量表示,包括:对文本进行分词,然后使用gensim库中的word2vec模型训练词嵌入,最后,通过取每个文本中所有单词向量的平均值,得到了整个文本的向量表示。

9、根据本公开实施例的一种具体实现方式,所述联邦训练模块还用于:

10、在联邦学习开始时,将chatglm-6b初始化为全局模型,该全局模型在所有本地节点上进行联邦训练。

11、根据本公开实施例的一种具体实现方式,所述联邦训练模块还用于:

12、选择adamw作为优化器,使用 adamw 优化器更新模型参数包括:

13、s41、初始化优化器:在微调过程开始前,首先初始化 adamw 优化器;

14、s42、加载预训练模型:加载chatglm-6b模型作为微调的初始模型;

15、s43、切换到训练模式:将加载的预训练模型切换到训练模式;

16、s44、迭代训练:针对微调数据集,迭代多个训练轮次,在每个轮次内,通过前向传播获取模型的预测结果,计算损失函数,然后使用反向传播计算相对于模型参数的梯度;

17、s45、计算梯度:利用 tf.gradienttape 记录前向传播过程,计算损失函数相对于模型参数的梯度;

18、s46、更新模型参数:使用 adamw 优化器的 apply_gradients 方法,根据计算得到的梯度更新模型参数。

19、根据本公开实施例的一种具体实现方式,所述联邦训练模块还用于:

20、使用一个轻量级的框架flask,搭建一个 api 服务,接收用户的请求,这里的用户是基于kettle配置的软件状态采集消息,通过传入异常信息文本作为模型输入,推理后会输出相关的数据库故障诊断结果描述文本。

21、根据本公开实施例的一种具体实现方式,所述连接模块还用于:

22、基于要自动运维的软件,通过kettle的数据输入进行软件连接配置,使用kettle设计etl任务,连接到目标软件组件,执行sql或者接口查询,获取软件的运行状态数据。

23、根据本公开实施例的一种具体实现方式,所述故障检测模块还用于:

24、根据 chatglm-6b 模型的输出格式,定义解析规则,使用 python编写解析脚本,脚本能够接收模型的输出文本作为输入,并根据定义的解析规则提取出有用的信息可以为后续进行故障识别与分类。

25、根据本公开实施例的一种具体实现方式,所述故障检测模块还用于:

26、基于规则处理后的数据,对提取的特征进行分析,以识别是否存在潜在的软件故障,如果故障识别判定存在困难,进一步对故障进行分类,包括对故障的类型、严重程度进行分类,以便进行后续的决策和修复。

27、根据本公开实施例的一种具体实现方式,所述决策控制模块还用于:

28、将前述故障识别模块得到的故障类型和严重程度信息与模型输出结果结合,综合判断考虑软件运行状态、模型输出的建议操作,以及已经识别的故障信息,具体包括:

29、故障类型和严重程度信息:结合故障识别模块的输出,考虑已识别的故障类型和严重程度信息;

30、软件运行状态:考察当前软件的运行状态,包括性能指标、负载、响应时间;

31、历史数据分析:分析历史监控指标数据,查看是否存在类似的模式或趋势,以帮助判断当前情况是否为常见故障;

32、在综合判断过程中,使用规则引擎将不同的条件组合起来,制定一系列规则,从而做出最终的综合判断。

33、第二方面,本专利技术实施例提供了一种基于云计算的软件运维方法,包括:

34、定时触发数据采集功能,从各种软件组件里面获取软件的运行状态数据,并通过kettle的中间件,将采集到的数据发送至kafka消息中间件,提供给模型预测模块进行在线推理;

35、利用python脚本将历史故障训练数据格式化为文本,通过zookeeper协调模型初始化,各本地节点使用fate进行本地模型训练,通过fedavg算法实现模型参数的可靠聚合,使用flask将更新后的模型部署为api服务;

36、通过flask将大语言模型部署为api服务,接收kettl本文档来自技高网...

【技术保护点】

1.一种基于云计算的软件运维系统,其特征在于,包括:

2.根据权利要求1所述的系统,其特征在于,所述联邦训练模块还用于:

3.根据权利要求2所述的系统,其特征在于,所述联邦训练模块还用于:

4.根据权利要求3所述的系统,其特征在于,所述联邦训练模块还用于:

5.根据权利要求4所述的系统,其特征在于,所述联邦训练模块还用于:

6.根据权利要求5所述的系统,其特征在于,所述连接模块还用于:

7.根据权利要求6所述的系统,其特征在于,所述故障检测模块还用于:

8.根据权利要求7所述的系统,其特征在于,所述故障检测模块还用于:

9.根据权利要求8所述的系统,其特征在于,所述决策控制模块还用于:

10.一种基于云计算的软件运维方法,其特征在于,包括:

【技术特征摘要】

1.一种基于云计算的软件运维系统,其特征在于,包括:

2.根据权利要求1所述的系统,其特征在于,所述联邦训练模块还用于:

3.根据权利要求2所述的系统,其特征在于,所述联邦训练模块还用于:

4.根据权利要求3所述的系统,其特征在于,所述联邦训练模块还用于:

5.根据权利要求4所述的系统,其特征在于,所述联邦训练模块还用于:

【专利技术属性】
技术研发人员:廖畅叶智慧王根娟苏胜林马军亮
申请(专利权)人:中睿信数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1