设备运维方法、设备运维装置、设备运维设备及存储介质制造方法及图纸

技术编号:34809407 阅读:12 留言:0更新日期:2022-09-03 20:17
本申请涉及计算机运行维护技术领域,具体公开了一种设备运维方法、设备运维装置、设备运维设备及存储介质,采用包括告警状态值、转换条件、正常状态值的三元组结构作为训练数据,从设备资源信息和设备告警配置信息提取训练数据、构建训练数据集,对基于TransE模型搭建的文本信息标签处理框架进行训练,得到以向量形式描述设备资源信息、设备告警配置信息等数据的关联性的设备故障诊断模型。当接收到设备告警信息时,基于设备告警信息和设备故障诊断模型,可以自动生成与设备告警信息对应的故障反馈结果供运维人员参考,减少了运维人员需要到现场进行设备故障排查的情况。要到现场进行设备故障排查的情况。要到现场进行设备故障排查的情况。

【技术实现步骤摘要】
设备运维方法、设备运维装置、设备运维设备及存储介质


[0001]本申请涉及计算机运行维护
,特别是涉及一种设备运维方法、设备运维装置、设备运维设备及存储介质。

技术介绍

[0002]当前计算机设备的运维中需要监控设备资源信息和设备告警信息。以服务器为例,所要收集的设备资源信息主要包括服务器名称、服务器序列号、服务器的CPU利用率、服务器的端口流量数据、服务器的内存利用率、服务器的硬盘规格信息等。而对于设备告警信息,所有的信息源自于设备本身,由厂商定义,设备产生告警后通过Trap(Linux命令)或者超文本传输协议(Hyper Text Transfer Protocol,HTTP)的形式推送到运维平台,由运维平台对告警报文进行解析后,通过文字的形式展示且支持发送设备告警信息给运维人员。
[0003]运维人员在接收到设备告警信息后,需要根据设备资源信息和设备告警信息排查设备故障原因并进行维护。然而,由于设备告警信息只能给出设备告警的表现,如某参数超标,仅仅基于设备资源信息和设备告警信息,运维人员往往无法远程判断设备故障原因,经常需要去往现场进行设备故障排查才能进行故障修复。

技术实现思路

[0004]本申请的目的是提供一种设备运维方法、设备运维装置、设备运维设备及存储介质,用于扩展设备故障排查能力,针对设备告警信息提供故障反馈结果供运维人员参考,减少运维人员需要到现场进行设备故障排查的情况。
[0005]为解决上述技术问题,本申请提供一种设备运维方法,包括:
[0006]根据设备资源信息和设备告警配置信息,构建训练数据集;所述训练数据集的训练数据为包括告警状态值、转换条件、正常状态值的三元组结构;
[0007]利用所述训练数据集,对基于TransE模型搭建的文本信息标签处理框架进行训练,得到设备故障诊断模型;
[0008]当接收到设备告警信息时,基于所述设备告警信息和所述设备故障诊断模型,得到与所述设备告警信息对应的故障反馈结果;
[0009]关联输出所述故障反馈结果与所述设备告警信息。
[0010]可选的,所述文本信息标签处理框架具体包括所述TransE模型、多层感知机模型和置信学习模块;
[0011]所述利用所述训练数据集,对基于TransE模型搭建的文本信息标签处理框架进行训练,得到设备故障诊断模型,具体包括:
[0012]将包含新增实例实体的三元组、所述三元组中每一所述新增实例实体的本体概念以及每一所述新增实例实体的邻居实例实体集合输入所述TransE模型;
[0013]对所述三元组中每一所述新增实例实体均通过双层注意力机制生成所述本体概念的表征;
[0014]基于所有所述本体概念的表征与所述三元组生成所述新增实例实体的模板表征;
[0015]结合所述模板表征和所述邻居实例实体集合生成所述新增实例实体的最终表征向量;
[0016]基于所述最终表征向量评估所述三元组的合法性;
[0017]如果满足合法性要求,则利用所述最终表征向量更新所述文本信息标签处理框架的参数;
[0018]其中,所述本体概念为所述告警状态值或所述正常状态值,所述邻居实例实体集合包括所述告警状态值的关联信息和/或所述正常状态值的关联信息。
[0019]可选的,以所述告警状态值为所述三元组中的头实体,以所述正常状态值为所述三元组中的尾实体。
[0020]可选的,所述利用所述训练数据集,对基于TransE模型搭建的文本信息标签处理框架进行训练,得到设备故障诊断模型,具体包括:
[0021]将所述告警状态值转换为头实体向量,将所述转换条件转换为关系向量,将所述正常状态值转换为尾实体向量;
[0022]将所述头实体向量、所述关系向量和所述尾实体向量代入距离函数,以计算所述头实体向量与所述关系向量之和与所述尾实体向量之间的向量间距;
[0023]选择最小的向量间距对应的所述头实体向量、所述关系向量和所述尾实体向量的三元组为当前迭代次数对应的正确三元组;
[0024]利用所述正确三元组更新所述文本信息标签处理框架的参数,直至将相邻两次迭代计算对应的所述正确三元组代入损失函数得到的损失值小于预设损失值,得到所述设备故障诊断模型。
[0025]可选的,所述距离函数具体通过下述等式表示:
[0026]f
r
(h,t)=||h+r

t||
L1/L2

[0027]其中,f
r
(h,t)为所述向量间距,h为所述头实体向量,r为所述关系向量,t为所述尾实体向量,L1为曼哈顿距离,L2为欧式距离。
[0028]可选的,所述损失函数具体通过下述等式表示:
[0029][0030]其中,L为所述损失函数值,h为所述头实体向量,r为所述关系向量,t为所述尾实体向量,∑
(h,r,t)
为h、r、t三个向量的输出,为h、r、t三个向量方向的单位向量的输出,为h向量方向的单位向量,为r向量方向的单位向量,为t向量方向的单位向量,f
r
(h,t)为所述向量间距,为单位向量间距。
[0031]可选的,所述故障反馈结果包括故障诊断结果和/或故障修复方案。
[0032]可选的,所述基于所述设备告警信息和所述设备故障诊断模型,得到与所述设备告警信息对应的故障反馈结果,具体包括:
[0033]以所述设备告警信息为所述告警状态值,自基于所述设备资源信息和所述设备告警配置信息建立的设备信息数据库中查询待选故障反馈结果;
[0034]若无法查询得到所述待选故障反馈结果,则以未查询到故障原因为所述故障反馈
结果;
[0035]若仅查询得到一个所述待选故障反馈结果,则以所述待选故障反馈结果为所述故障反馈结果;
[0036]若查询得到多个所述待选故障反馈结果,则将各所述待选故障反馈结果输入所述设备故障诊断模型,得到各所述待选故障反馈结果的置信度排序结果;以所述置信度排序结果靠前的一个或多个所述待选故障反馈结果为所述故障反馈结果。
[0037]可选的,所述基于所述设备告警信息和所述设备故障诊断模型,得到与所述设备告警信息对应的故障反馈结果,具体包括:
[0038]以所述设备告警信息为所述告警状态值,基于所述设备资源信息和所述设备告警配置信息建立的设备信息数据库中查询待选中间故障原因;
[0039]若无法查询得到所述待选中间故障原因,则以未查询到故障原因为所述故障反馈结果;
[0040]若仅查询得到一个所述待选中间故障原因,则以所述待选中间故障原因为中间故障原因;
[0041]若查询得到多个所述待选中间故障原因,则将各所述待选中间故障原因输入所述设备故障诊断模型,得到各所述待选中间故障原因的置信度排序结果;以所述置信度排序结果靠前的一个或多个所述待选中间故障原因为所述中间故障原因;
[0042]以所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种设备运维方法,其特征在于,包括:根据设备资源信息和设备告警配置信息,构建训练数据集;所述训练数据集的训练数据为包括告警状态值、转换条件、正常状态值的三元组结构;利用所述训练数据集,对基于TransE模型搭建的文本信息标签处理框架进行训练,得到设备故障诊断模型;当接收到设备告警信息时,基于所述设备告警信息和所述设备故障诊断模型,得到与所述设备告警信息对应的故障反馈结果;关联输出所述故障反馈结果与所述设备告警信息。2.根据权利要求1所述的设备运维方法,其特征在于,所述文本信息标签处理框架具体包括所述TransE模型、多层感知机模型和置信学习模块;所述利用所述训练数据集,对基于TransE模型搭建的文本信息标签处理框架进行训练,得到设备故障诊断模型,具体包括:将包含新增实例实体的三元组、所述三元组中每一所述新增实例实体的本体概念以及每一所述新增实例实体的邻居实例实体集合输入所述TransE模型;对所述三元组中每一所述新增实例实体均通过双层注意力机制生成所述本体概念的表征;基于所有所述本体概念的表征与所述三元组生成所述新增实例实体的模板表征;结合所述模板表征和所述邻居实例实体集合生成所述新增实例实体的最终表征向量;基于所述最终表征向量评估所述三元组的合法性;如果满足合法性要求,则利用所述最终表征向量更新所述文本信息标签处理框架的参数;其中,所述本体概念为所述告警状态值或所述正常状态值,所述邻居实例实体集合包括所述告警状态值的关联信息和/或所述正常状态值的关联信息。3.根据权利要求2所述的设备运维方法,其特征在于,以所述告警状态值为所述三元组中的头实体,以所述正常状态值为所述三元组中的尾实体。4.根据权利要求1所述的设备运维方法,其特征在于,所述利用所述训练数据集,对基于TransE模型搭建的文本信息标签处理框架进行训练,得到设备故障诊断模型,具体包括:将所述告警状态值转换为头实体向量,将所述转换条件转换为关系向量,将所述正常状态值转换为尾实体向量;将所述头实体向量、所述关系向量和所述尾实体向量代入距离函数,以计算所述头实体向量与所述关系向量之和与所述尾实体向量之间的向量间距;选择最小的向量间距对应的所述头实体向量、所述关系向量和所述尾实体向量的三元组为当前迭代次数对应的正确三元组;利用所述正确三元组更新所述文本信息标签处理框架的参数,直至将相邻两次迭代计算对应的所述正确三元组代入损失函数得到的损失值小于预设损失值,得到所述设备故障诊断模型。5.根据权利要求4所述的设备运维方法,其特征在于,所述距离函数具体通过下述等式表示:f
r
(h,t)=||h+r

t||
L1/L2

其中,f
r
(h,t)为所述向量间距,h为所述头实体向量,r为所述关系向量,t为所述尾实体向量,L1为曼哈顿距离,L2为欧式距离。6.根据权利要求4所述的设备运维方法,其特征在于,所述损失函数具体通过下述等式表示:其中,L为所述损失函数值,h为所述头实体向量,r为所述关系向量,t为所述尾实体向量,∑
(h,r,...

【专利技术属性】
技术研发人员:张源升
申请(专利权)人:济南浪潮数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1