一种设备故障检测方法、装置、设备及存储介质制造方法及图纸

技术编号:37334313 阅读:27 留言:0更新日期:2023-04-21 23:12
本申请涉及服务器监控技术领域,具体公开了一种设备故障检测方法、装置、设备及存储介质,通过根据部件关联关系处理目标设备的训练数据集,以与生成故障日志的部件关联关系越近,利用所述部件关联关系分配的权重越大为原则分配每个故障类型下的训练数据的权重,得到处理后的训练数据集并投入训练,得到设备故障识别模型,在实际故障识别中,对目标设备的故障日志数据进行同样的处理后,输入设备故障识别模型,得到设备故障识别结果。因此能够从设备各部件关联关系出发,根据设备运行日志实现对设备故障类型的检出,无需运维人员根据经验对各类故障日志或其结果进行分析得到设备故障,提高了设备故障识别的效率。提高了设备故障识别的效率。提高了设备故障识别的效率。

【技术实现步骤摘要】
一种设备故障检测方法、装置、设备及存储介质


[0001]本申请涉及服务器监控
,特别是涉及一种设备故障检测方法、装置、设备及存储介质。

技术介绍

[0002]随着社会信息化、智能化的逐步发展,越来越多的信息中心被建立,其中的服务器承载着大量数据存储、传输、处理等等角色。在服务器的运行过程中,会产生大量的日志信息,涉及中央处理器,内存,服务器驱动,输入输出单元,主板,网络链接,电源部件,风扇等多种部件。这些日志信息为后续运维人员对服务器的维护起着至关重要的作用。基于日志信息的根因定位是智能运维中重要的一环,具体为通过归纳分析和演绎推理,确定异常产生的根本原因。服务器是一个复杂的系统,每个部件有自己独立的监控单元,导致整个系统的部件关系复杂,日志信息类型及结构各异,为日常服务器维护造成了极大的困难。
[0003]也正因为服务器每个部件的监控单元互相独立,针对服务器的故障根因分析,往往只是针对不同类型的日志文件,预先定义相应的解析规则,解析到每种故障日志对应的故障类型,再由运维人员根据经验分析得到服务器故障根因,这不仅给运维人员带来了极大的工作压力、分析效率低、不利于及时的服务器故障检出,服务器故障根因检出的准确性也不能得到保证。
[0004]因此,如何快速、准确地从众多日志信息中分析清楚设备的故障根因,是智能运维领域一个亟待解决的问题。

技术实现思路

[0005]本申请的目的是提供一种设备故障检测方法、装置、设备及存储介质,用于实现对设备故障根因的检出,减轻运维人员工作压力。
>[0006]为解决上述技术问题,本申请提供一种设备故障检测方法,包括:
[0007]根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集;
[0008]根据所述目标设备的各部件之间的部件关联关系,根据故障类型对每条训练数据中的历史运行日志数据分配权重,得到处理后的训练数据集;
[0009]利用所述处理后的训练数据集训练初始模型,得到设备故障识别模型;
[0010]当接收到所述目标设备的报警信号后,提取包含所述目标设备的故障日志数据在内的所述目标设备的运行日志数据,生成待识别日志数据;
[0011]利用所述部件关联关系图对所述待识别日志数据分配权重后,得到处理后的待识别日志数据;
[0012]将所述处理后的待识别日志数据输入所述设备故障识别模型,得到所述目标设备的故障检测结果;
[0013]其中,与生成故障日志的部件关联关系越近,利用所述部件关联关系分配的权重
越大。
[0014]可选的,所述根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集,具体包括:
[0015]获取所述目标设备的所述历史故障日志数据;
[0016]在所述历史故障数据的生成时间点,利用时间窗口算法提取所述目标设备在预设时间段内的所有历史关联运行日志数据;
[0017]以所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据为一条所述训练数据,每条所述训练数据对应一个故障类型标签,生成所述训练数据集。
[0018]可选的,所述获取所述目标设备的所述历史故障日志数据,具体包括:
[0019]预先构建包含所述目标设备的故障判别信息的日志异常检测库;
[0020]根据所述日志异常检测库中的故障判别信息,在所述目标设备的历史运行日志中提取所述历史故障日志数据。
[0021]可选的,所述以所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据为一条所述训练数据,每条所述训练数据对应一个故障类型标签,生成所述训练数据集,具体包括:
[0022]分别自所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据中提取故障相关特征;
[0023]以各所述训练数据的所述故障相关特征生成所述训练数据集;
[0024]其中,所述故障相关特征包括所述历史故障日志数据中的故障参数以及所述历史故障日志数据对应的所述历史关联运行日志数据中与所述故障参数同类的特征参数。
[0025]可选的,所述以各训练数据的所述故障相关特征生成所述训练数据集,具体为:
[0026]对各所述训练数据,根据所述部件关联关系以及所述训练数据对应的所述故障类型标签对应的部件,以与生成故障日志的部件关联关系越近则保存比例越大的原则剔除部分所述故障相关特征后,得到所述训练数据集。
[0027]可选的,所述利用所述处理后的训练数据集训练初始模型,得到设备故障识别模型,具体为:
[0028]对所述处理后的训练数据集中被剔除的所述故障相关特征进行取空处理后,输入所述初始模型进行训练,得到所述设备故障识别模型。
[0029]可选的,所述分别自所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据中提取故障相关特征,具体包括:
[0030]预先构建包含所述目标设备的故障判别信息的日志异常检测库;
[0031]根据所述日志异常检测库中的故障判别信息,在分别自所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据中提取所述故障相关特征。
[0032]可选的,所述根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集,具体包括:
[0033]将所述历史运行日志数据代入对应部件的格式转换模板,得到统一格式的日志数据,并将同一时间点的各所述统一格式的日志数据进行融合,得到结构化历史运行日志数据;
[0034]根据所述结构化历史运行日志数据生成训练数据集。
[0035]可选的,所述利用所述处理后的训练数据集训练初始模型,得到设备故障识别模型,具体包括:
[0036]采用自适应算法在预设超参数组合中选定最优超参数组合;
[0037]将所述最优超参数组合代入所述初始模型后,利用所述处理后的训练数据集训练所述初始模型,得到所述设备故障识别模型。
[0038]为解决上述技术问题,本申请还提供一种设备故障检测装置,包括:
[0039]数据生成单元,用于根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集;
[0040]第一预处理单元,用于根据所述目标设备的各部件之间的部件关联关系,根据故障类型对每条训练数据中的历史运行日志数据分配权重,得到处理后的训练数据集;
[0041]训练单元,用于利用所述处理后的训练数据集训练初始模型,得到设备故障识别模型;
[0042]提取单元,用于当接收到所述目标设备的报警信号后,提取包含所述目标设备的故障日志数据在内的所述目标设备的运行日志数据,生成待识别日志数据;
[0043]第二预处理单元,利用所述部件关联关系图对所述待识别日志数据分配权重后,得到处理后的待识别日志数据;
[0044]识别单元,用于将所述处理后的待识别日志数据输入所述设备故障识别模型,得到所述目标设本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种设备故障检测方法,其特征在于,包括:根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集;根据所述目标设备的各部件之间的部件关联关系,根据故障类型对每条训练数据中的历史运行日志数据分配权重,得到处理后的训练数据集;利用所述处理后的训练数据集训练初始模型,得到设备故障识别模型;当接收到所述目标设备的报警信号后,提取包含所述目标设备的故障日志数据在内的所述目标设备的运行日志数据,生成待识别日志数据;利用所述部件关联关系图对所述待识别日志数据分配权重后,得到处理后的待识别日志数据;将所述处理后的待识别日志数据输入所述设备故障识别模型,得到所述目标设备的故障检测结果;其中,与生成故障日志的部件关联关系越近,利用所述部件关联关系分配的权重越大。2.根据权利要求1所述的设备故障检测方法,其特征在于,所述根据目标设备的包含历史故障日志数据在内的历史运行日志数据生成训练数据集,具体包括:获取所述目标设备的所述历史故障日志数据;在所述历史故障数据的生成时间点,利用时间窗口算法提取所述目标设备在预设时间段内的所有历史关联运行日志数据;以所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据为一条所述训练数据,每条所述训练数据对应一个故障类型标签,生成所述训练数据集。3.根据权利要求2所述的设备故障检测方法,其特征在于,所述获取所述目标设备的所述历史故障日志数据,具体包括:预先构建包含所述目标设备的故障判别信息的日志异常检测库;根据所述日志异常检测库中的故障判别信息,在所述目标设备的历史运行日志中提取所述历史故障日志数据。4.根据权利要求2所述的设备故障检测方法,其特征在于,所述以所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据为一条所述训练数据,每条所述训练数据对应一个故障类型标签,生成所述训练数据集,具体包括:分别自所述历史故障日志数据和所述历史故障日志数据对应的所述历史关联运行日志数据中提取故障相关特征;以各所述训练数据的所述故障相关特征生成所述训练数据集;其中,所述故障相关特征包括所述历史故障日志数据中的故障参数以及所述历史故障日志数据对应的所述历史关联运行日志数据中与所述故障参数同类的特征参数。5.根据权利要求4所述的设备故障检测方法,其特征在于,所述以各训练数据的所述故障相关特征生成所述训练数据集,具体为:对各所述训练数据,根据所述部件关联关系以及所述训练数据对应的所述故障类型标签对应的部件,以与生成故障日志的部件关联关系越近则保存比例越大的原则剔除部分所述故障相关特征后,得到所述训练数据集。6.根据权利要求5所述的设备故障检测方法,其特征在于,所述利用所述处理后的训练数据集训练初...

【专利技术属性】
技术研发人员:殷涛张潇澜李峰
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1