内存故障预测方法、装置及设备制造方法及图纸

技术编号:34808289 阅读:18 留言:0更新日期:2022-09-03 20:16
本申请实施例提供一种内存故障预测方法、装置及设备。该方法包括:获取当前时间窗口内待预测设备多次出现内存可纠正错误的多个ECC校验出错特征,所述ECC校验出错特征包括出错位置特征和出错形式特征;基于所述ECC校验出错特征中的出错位置特征,对所述多个ECC校验出错特征进行特征聚合,得到聚合错误特征;根据所述聚合错误特征,预测所述待预测设备是否会出现内存不可纠正错误。本申请能够提高预测是否会出现内存不可纠正错误的准确度。是否会出现内存不可纠正错误的准确度。是否会出现内存不可纠正错误的准确度。

【技术实现步骤摘要】
内存故障预测方法、装置及设备


[0001]本申请涉及计算机
,尤其涉及一种内存故障预测方法、装置及设备。

技术介绍

[0002]内存故障是硬件系统最普遍的故障,极大地影响了系统的可靠性,可用性和可服务性(reliability,availability,serviceability,RAS)。
[0003]通常,内存控制器从内存中读取数据后,会进行错误校验,如果发生内存可纠正错误(Correctable Error,CE),则对错误进行纠正,如果发生内存不可纠正错误(Uncorrectable Error,UCE,UCE),则会重新访问出错的位置,如果多次访问均发生内存不可纠正错误,则硬件系统会发出UCE信号并导致设备宕机。为了减少宕机情况的发生,目前采用的方式是:基于一段时间内某个设备发生内存可纠正错误的次数,来预测该设备未来是否会发生内存不可纠正错误。
[0004]然而,这种预测方式存在准确度较差的问题。

技术实现思路

[0005]本申请实施例提供一种内存故障预测方法、装置及设备,用以解决现有技术中预测是否会发生不可纠正错误的准确度较差的问题。
[0006]第一方面,本申请实施例提供一种内存故障预测方法,包括:
[0007]获取当前时间窗口内待预测设备多次出现内存可纠正错误的多个ECC校验出错特征,所述ECC校验出错特征包括出错位置特征和出错形式特征;
[0008]基于所述ECC校验出错特征中的出错位置特征,对所述多个ECC校验出错特征进行特征聚合,得到聚合错误特征;
[0009]根据所述聚合错误特征,预测所述待预测设备是否会出现内存不可纠正错误。
[0010]第二方面,本申请实施例提供一种内存故障预测装置,包括:
[0011]获取模块,用于获取当前时间窗口内待预测设备多次出现内存可纠正错误的多个ECC校验出错特征;所述ECC校验出错特征包括出错位置特征和出错形式特征;
[0012]聚合模块,用于基于所述ECC校验出错特征中的出错位置特征,对所述多个ECC校验出错特征进行聚合,得到聚合错误特征;
[0013]预测模块,用于根据所述聚合错误特征,预测所述待预测设备是否会出现内存不可纠正错误。
[0014]第三方面,本申请实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如第一方面中任一项所述的方法。
[0015]第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被执行时,实现如第一方面中任一项所述的方法。
[0016]本申请实施例还提供一种计算机程序,当所述计算机程序被计算机执行时,用于
实现如第一方面任一项所述的方法。
[0017]在本申请实施例中,可以获取当前时间窗口内待预测设备多次出现内存可纠正错误的多个ECC校验出错特征,ECC校验出错特征包括出错位置特征和出错形式特征,基于ECC校验出错特征中的出错位置特征,对多个ECC校验出错特征进行特征聚合得到聚合错误特征,根据聚合错误特征预测待预测设备是否会出现内存不可纠正错误,实现了根据多次出现内存可纠正错误具体的ECC校验出错特征,预测是否会出现内存不可纠正错误,并且,具体是根据对多个ECC校验出错特征进行特征聚合得到的聚合错误特征,来预测待预测设备是否会出现内存不可纠正错误,因此对于内存故障的预测,能够基于微观的ECC校验出错特征,并能够从宏观角度来考量待预测设备历史的ECC校验出错情况,从而能够提高预测的准确度。
附图说明
[0018]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本申请实施例的内存故障预测方法的应用场景的示意图;
[0020]图2为本申请一实施例提供的内存故障预测方法的流程示意图;
[0021]图3为本申请一实施例提供的单个内存芯片单次读数据出错情况的示意图;
[0022]图4为本申请一实施例提供的训练模型及使用模型预测的示意图;
[0023]图5为本申请一实施例提供的内存故障预测装置的结构示意图;
[0024]图6为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
[0025]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0026]在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
[0027]应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0028]取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
[0029]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
[0030]另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
[0031]图1为本申请实施例提供的内存故障预测方法的应用场景示意图,如图1所示,该应用场景中可以包括第一设备11和至少一个第二设备12。其中,第一设备11可以预测第二设备12的内存故障,具体可以预测第二设备是否会出现内存不可纠正错误。第二设备12具体可以是需要预测是否会出现内存不可纠正错误的任意类型的电子设备,第二设备12可以记为待预测设备,第二设备12例如可以为物理机,物理机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内存故障预测方法,其特征在于,包括:获取当前时间窗口内待预测设备多次出现内存可纠正错误的多个ECC校验出错特征,所述ECC校验出错特征包括出错位置特征和出错形式特征;基于所述ECC校验出错特征中的出错位置特征,对所述多个ECC校验出错特征进行特征聚合,得到聚合错误特征;根据所述聚合错误特征,预测所述待预测设备是否会出现内存不可纠正错误。2.根据权利要求1所述的方法,其特征在于,所述出错位置特征包括:处理器、内存控制器、内存通道、插槽、Rank、Bank Group、Bank、行和列。3.根据权利要求2所述的方法,其特征在于,所述出错位置特征还包括:内存芯片。4.根据权利要求1所述的方法,其特征在于,所述出错形式特征包括:从Burst角度描述的出错形式特征,和/或,从DQ角度描述的出错形式特征。5.根据权利要求4所述的方法,其特征在于,所述从Burst角度描述的出错形式特征包括下述中的一个或多个:同一Burst内出错比特的数量、同一Burst内出错比特的位置、同一Burst内的出错比特是否连续、出现错误比特的Burst的数量、出现错误比特的Burst的位置或者出现错误比特的Burst是否连续。6.根据权利要求4所述的方法,其特征在于,所述从DQ角度描述的出错形式特征包括下述中的一个或多个:同一DQ内出错比特的数量、同一DQ内出错比特的位置、同一DQ内的出错比特是否连续、出现错误比特的DQ的数量、出现错误比特的DQ的位置或者出现错误比特的DQ是否连续。7.根据权利要求1

6中任一项所述的方法,其特征在于,所述基于所述ECC校验出错特征中的出错位置特征,对所述多个ECC校验出错特征进行特征聚合,得到聚合错误特征,包括:确定进行特征聚合的目标粒度;基于所述ECC校验出错特征中的出错位置特征,将所述多个ECC校验出错特征聚合为目标粒度的聚合错误特征。8.根据权利要求...

【专利技术属性】
技术研发人员:杜小明马旭华郑旭东
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1