CPU故障预测方法、模型训练方法、设备和存储介质技术

技术编号:39402710 阅读:7 留言:0更新日期:2023-11-19 15:54
本发明专利技术实施例提供一种CPU故障预测方法、模型训练方法、设备和存储介质,包括:获取目标时间段内服务器中影响CPU运行状态的多个部件分别对应的错误日志数据,错误日志数据对应于检测到相应部件存在可纠正错误时触发的;根据与缓存介质相关的部件所对应的错误日志数据,确定缓存介质对应的第一故障统计特征,多个部件中包括与缓存介质相关的部件;根据多个部件分别对应的错误日志数据,确定多个部件对应的第二故障统计特征;将第一故障统计特征和第二故障统计特征输入故障预测模型,以确定CPU是否会发生不可纠正错误。本方案中基于影响CPU运行状态的多个部件所发生的可纠正错误,对CPU是否会发生不可纠正错误进行预测。CPU是否会发生不可纠正错误进行预测。CPU是否会发生不可纠正错误进行预测。

【技术实现步骤摘要】
CPU故障预测方法、模型训练方法、设备和存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种CPU故障预测方法、模型训练方法、设备和存储介质。

技术介绍

[0002]随着云计算相关技术的高速发展,大量软件的开发和部署中利用到了云服务。其中,服务器硬件系统的可靠性、可用性和可服务性对于云计算和高性能计算尤为重要。
[0003]CPU故障是硬件系统常见的故障之一,CPU故障会产生可纠正错误(correctable error,简称CE)和不可纠正错误(uncorrectable error,简称UE),其中,UE会导致CPU宕机,进而对硬件系统的可靠性、可用性和可服务性产生不良影响。因此,有必要准确、高效的对CPU进行故障预测。

技术实现思路

[0004]本专利技术实施例提供一种CPU故障预测方法、模型训练方法、设备和存储介质,用以对CPU故障进行准确、高效的预测。
[0005]第一方面,本专利技术实施例提供一种CPU故障预测方法,所述方法包括:
[0006]获取目标时间段内服务器中影响CPU运行状态的多个部件分别对应的错误日志数据,所述错误日志数据对应于检测到相应部件存在可纠正错误时触发的;
[0007]根据与缓存介质相关的部件所对应的错误日志数据,确定缓存介质对应的第一故障统计特征,所述多个部件中包括与缓存介质相关的部件;
[0008]根据所述多个部件分别对应的错误日志数据,确定所述多个部件对应的第二故障统计特征;
[0009]将所述第一故障统计特征和所述第二故障统计特征输入故障预测模型,以确定所述CPU是否会发生不可纠正错误。
[0010]第二方面,本专利技术实施例提供一种故障预测模型训练方法,所述方法包括:
[0011]获取第一历史时间得到的指示服务器中CPU发生不可纠正错误的第一错误日志数据;
[0012]获取第二历史时间到第三历史时间内服务器中影响CPU运行状态的多个部件分别对应的第二错误日志数据,所述第二错误日志数据对应于检测到相应部件存在可纠正错误时触发的,所述第二历史时间到第三历史时间是所述第一历史时间之前的设定时间段;
[0013]根据与缓存介质相关的部件所对应的第二错误日志数据,确定缓存介质对应的第一故障统计特征,所述多个部件中包括与缓存介质相关的部件;
[0014]根据所述多个部件分别对应的第二错误日志数据,确定所述多个部件对应的第二故障统计特征;
[0015]生成包含所述第一故障统计特征和所述第二故障统计特征的正训练样本数据,并根据所述第一错误日志数据确定所述正训练样本数据对应的监督信息;
[0016]根据所述正训练样本数据和所述监督信息训练故障预测模型。
[0017]第三方面,本专利技术实施例提供一种CPU故障预测装置,所述装置包括:
[0018]获取模块,用于获取目标时间段内服务器中影响CPU运行状态的多个部件分别对应的错误日志数据,所述错误日志数据对应于检测到相应部件存在可纠正错误时触发的;
[0019]处理模块,用于根据与缓存介质相关的部件所对应的错误日志数据,确定缓存介质对应的第一故障统计特征,所述多个部件中包括与缓存介质相关的部件;根据所述多个部件分别对应的错误日志数据,确定所述多个部件对应的第二故障统计特征;
[0020]预测模块,用于将所述第一故障统计特征和所述第二故障统计特征输入故障预测模型,以确定所述CPU是否会发生不可纠正错误。
[0021]第四方面,本专利技术实施例提供一种故障预测模型训练装置,所述装置包括:
[0022]获取模块,用于获取第一历史时间得到的指示服务器中CPU发生不可纠正错误的第一错误日志数据;获取第二历史时间到第三历史时间内服务器中影响CPU运行状态的多个部件分别对应的第二错误日志数据,所述第二错误日志数据对应于检测到相应部件存在可纠正错误时触发的,所述第二历史时间到第三历史时间是所述第一历史时间之前的设定时间段;
[0023]特征统计模块,用于根据与缓存介质相关的部件所对应的第二错误日志数据,确定缓存介质对应的第一故障统计特征,所述多个部件中包括与缓存介质相关的部件;根据所述多个部件分别对应的第二错误日志数据,确定所述多个部件对应的第二故障统计特征;
[0024]训练模块,用于生成包含所述第一故障统计特征和所述第二故障统计特征的正训练样本数据,并根据所述第一错误日志数据确定所述正训练样本数据对应的监督信息;根据所述正训练样本数据和所述监督信息训练故障预测模型。
[0025]第五方面,本专利技术实施例提供一种电子设备,包括:存储器、处理器、通信接口;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器至少可以实现如第一方面所述的CPU故障预测方法,或者,第二方面所述的故障预测模型训练方法。
[0026]第六方面,本专利技术实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如第一方面所述的CPU故障预测方法,或者,第二方面所述的故障预测模型训练方法。
[0027]在本专利技术实施例提供的方案中,可通过设置校验程序等方式,对服务器中影响CPU运行状态的多个部件(比如:与缓存介质相关的部件等)进行检测,并在检测到相应部件存在可纠正错误或不可纠正错误时,产生相应的错误日志数据。基于错误日志数据,训练出能够基于CPU对应的不可纠正错误的故障统计特征预测CPU是否会发生不可纠正错误的故障预测模型。当需要对服务器中的CPU进行故障预测时,首先,获取目标时间段内服务器中影响CPU运行状态的多个部件分别对应的错误日志数据;之后,根据与缓存介质相关的部件所对应的错误日志数据,确定缓存介质对应的第一故障统计特征,并根据多个部件分别对应的错误日志数据,确定多个部件对应的第二故障统计特征。由于第一故障统计特征和第二故障统计特征分别从介质层面和部件层面两个不同的维度全面反映影响CPU运行状态的部
件已发生的可纠正错误情况,因此将第一故障统计特征和第二故障统计特征输入预先训练好的故障预测模型,可以准确、高效的预测CPU是否会发生不可纠正错误,进而可以在预测到CPU会发生不可纠正错误时,能够提前规避风险,避免CPU由于发生不可纠正错误而宕机,从而提升服务器的可靠性、可用性和可服务性。
附图说明
[0028]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1为本专利技术实施例提供的一种CPU故障预测方法的流程图;
[0030]图2为本专利技术实施例提供的一种确定第一故障统计特征的方法流程图;
[0031]图3为本专利技术实施例提供的一种目标缓存的结构示意图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种CPU故障预测方法,其特征在于,包括:获取目标时间段内服务器中影响CPU运行状态的多个部件分别对应的错误日志数据,所述错误日志数据对应于检测到相应部件存在可纠正错误时触发的;根据与缓存介质相关的部件所对应的错误日志数据,确定缓存介质对应的第一故障统计特征,所述多个部件中包括与缓存介质相关的部件;根据所述多个部件分别对应的错误日志数据,确定所述多个部件对应的第二故障统计特征;将所述第一故障统计特征和所述第二故障统计特征输入故障预测模型,以确定所述CPU是否会发生不可纠正错误。2.根据权利要求1所述的方法,其特征在于,所述与缓存介质相关的部件包括:多级缓存;所述根据与缓存介质相关的部件所对应的错误日志数据,确定缓存介质对应的第一故障统计特征,包括:根据所述多级缓存各自对应的错误日志数据中所包含的物理内存地址,确定不同物理内存地址对应的故障信息;根据所述不同物理内存地址对应的故障信息,确定所述缓存介质对应的第一故障统计特征。3.根据权利要求2所述的方法,其特征在于,目标缓存由多个缓存组构成,每个缓存组中包括多个缓存块,所述目标缓存是所述多级缓存中任一个;所述根据所述不同物理内存地址对应的故障信息,确定所述缓存介质对应的第一故障统计特征,包括:根据所述目标缓存中各缓存块与物理内存地址的映射关系以及所述目标缓存对应的错误日志数据中各物理内存地址对应的故障信息,确定所述目标缓存中各缓存块对应的第一故障特征;根据目标缓存组中多个缓存块各自对应的第一故障特征,确定所述目标缓存组对应的第二故障特征,所述目标缓存组是所述多个缓存组中任一个;确定所述多个缓存组中相邻的N个缓存组对应的第三故障特征,所述第三故障特征用于反映是否存在相邻的N个缓存组均发生故障,其中,N为大于1的整数;根据所述第一故障特征、所述第二故障特征和所述第三故障特征中的至少部分,确定所述缓存介质对应的第一故障统计特征。4.根据权利要求1所述的方法,其特征在于,所述与缓存介质相关的部件包括:多级缓存;所述根据与缓存介质相关的部件所对应的错误日志数据,确定缓存介质对应的第一故障统计特征,包括:根据所述多级缓存分别对应的错误日志数据,以及在所述目标时间段内所述多级缓存各自对应的未命中数据次数,确定所述缓存介质对应的第一故障统计特征;其中,任一级缓存对应的未命中次数是指所述CPU进行数据访问时未在所述任一级缓存中查到待访问数据的次数。5.根据权利要求1所述的方法,其特征在于,所述错误日志数据包含故障操作、故障原因;所述根据所述多个部件分别对应的错误日志数据,确定第二故障统计特征,包括:
确定目标部件、目标故障操作、目标故障原因分别对应的第四故障特征,其中,所述目标部件是所述多个部件中任一个,所述目标故障操作是所述多个部件对应的错误日志数据中包含的多个故障操作中任一个,所述目标故障原因是所述多个部件对应的错误日志数据中包含的多个故障原因中任一个;所述第四故障特征中包括相应目标部件或目标故障操作或目标故障原因的出现次数;根据所述目标部件、目标故障操作、目标故障原因分别对应的第四故障特征...

【专利技术属性】
技术研发人员:杜小明马旭华郑旭东王雨农
申请(专利权)人:杭州阿里巴巴飞天信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1