一种确定内存故障修复方式的方法、装置及存储介质制造方法及图纸

技术编号:35737178 阅读:31 留言:0更新日期:2022-11-26 18:39
本申请实施例提供一种确定内存故障修复方式的方法、装置及存储介质,涉及计算机技术领域,能够提高内存可靠性。该方法包括:获取多个行故障的信息,其中,行故障的信息包括:行故障的次序和该行故障的严重程度;行故障的发生次序为目标时间段内,内存发生的行故障的数量,该目标时间段是内存所在的服务器上一次重启的时间至该行故障的发生时间;根据上述多个行故障各自的严重程度从该多个行故障中确定第一目标行故障;根据该第一目标行故障的发生次序和该第一目标行故障的严重程度,确定上述第一目标行故障的修复方式。第一目标行故障的修复方式。第一目标行故障的修复方式。

【技术实现步骤摘要】
一种确定内存故障修复方式的方法、装置及存储介质


[0001]本申请实施例涉及计算机
,尤其涉及一种确定内存故障修复方式的方法、装置及存储介质。

技术介绍

[0002]随着互联网技术的广泛应用,内存的可靠性已成为各大企业关注的重点。经数据统计发现,内存中的行(Row)故障是降低内存可靠性和引发服务器宕机的因素之一;传统的处理行故障的方式为基于行替换(post

package repair,PPR)的方式。
[0003]众所周知,上述PPR的方式是将内存分为冗余存储区域和存储区域;其中,存储区域用于存储数据,冗余存储区域用于替换存储区域中发生故障的区域。该PPR的方式包括:软件行替换(soft post

package repair,sPPR)的方式和硬件行替换(hardware post

package repair,hPPR);其中,sPPR的方式是在预定时间内使用冗余存储区域中的空闲存储区域替换发生故障的区域;该预定时间包括从内存所在的服务器发生重启时触发sPPR的方式开始直至该服务器下次发生重启时结束。hPPR的方式是使用冗余存储区域中的空闲存储区域永久性的替换发生故障的区域,其中,hPPR和sPPR的方式触发时机均为发生故障后内存所在的服务器执行的第一次重启动作的时间。
[0004]传统的基于PPR处理行故障的具体过程包括:单板管理控制器(baseboard management controller,BMC)接收到第一行故障信息时,记录该第一行故障的地址;当接收到第二行故障信息时,记录第二行故障的地址,并删除之前记录的第一行故障的地址。以此往复,直至BMC所在的服务器发生重启时,BMC根据预设的sPPR或hPPR修复BMC在该服务器发生重启前,最后一次记录的行故障。
[0005]上述BMC是根据预设的sPPR或hPPR处理目标行故障,将导致冗余存储区域中的存储资源的浪费和内存可靠性降低。

技术实现思路

[0006]本申请实施例提供一种确定内存故障修复方式的方法、装置及存储介质,能够提高内存可靠性。
[0007]为达到上述目的,本申请实施例采用如下技术方案:
[0008]第一方面,本申请实施例提供一种确定内存故障修复方式的方法,该方法包括:获取多个行故障的信息,其中,行故障的信息包括:该行故障的次序和该行故障的严重程度;行故障的发生次序为目标时间段内,内存发生的行故障的数量,该目标时间段是内存所在的服务器上一次重启的时间至行故障的发生时间;根据该多个行故障各自的严重程度该多个行故障中确定第一目标行故障;根据第一目标行故障的发生次序和该第一目标行故障的严重程度,确定第一目标行故障的修复方式。
[0009]本申请实施例提供的确定内存故障修复方式的方法是根据第一目标行故障的发生次序和第一目标行故障的严重程度,确定该第一目标行故障的修复方式;相比传统的根
据预设的sPPR或hPPR修复第一目标行故障的方式(简称:预设方式);本申请实施例的方案能够根据第一目标行故障的发生次序和第一目标行故障的严重程度自适应的选择PPR的修复方式,因此,解决了传统的预设方式中,因行故障实际需要的修复方式与预设的修复方式不一致,而导致的内存中冗余存储区域的资源浪费问题和内存可靠性降低的问题。
[0010]一种可能的实现方式中,上述根据第一目标行故障的发生次序和该第一目标行故障的严重程度,确定第一目标行故障的修复方式;包括:当第一目标行故障的发生次序大于数量阈值,且该第一目标行故障的严重程度高于第二严重程度;或者,第一目标行故障的发生次序等于数量阈值,且该第一目标行故障的严重程度高于第二严重程度,或者,第一目标行故障的发生次序大于数量阈值,且该第一目标行故障的严重程度高于或等于第二严重程度时:上述第一目标行故障的修复方式为硬件行替换的方法;或者,当第一目标行故障的发生次序等于数量阈值,且该第一目标行故障的严重程度等于第二严重程度时:上述第一目标行故障的修复方式为硬件行替换的方法或者软件行替换的方法中的一个;否则,上述第一目标行故障的修复方式为软件行替换的方法。
[0011]一种可能的实现方式中,行故障的信息具体包括:上述行故障的次序和上述行故障的健康分值,该健康分值用于标识行故障的严重程度。
[0012]一种可能的实现方式中,上述多个行故障的信息还包括:行故障中的Bit故障和/或Cell故障的地址信息和数量,将行故障中的Bit故障和/或Cell故障的地址信息和数量输入至评分模型,得到该多个行故障的严重程度;该评分模型用于评估行故障的严重程度。
[0013]一种可能的实现方式中,从上述多个行故障中确定第一目标行故障包括:根据上述多个行故障的行故障各自的严重程度,从该多个行故障中确定上述第一目标行故障;其中,该多个行故障是同一重启时间间隔内,上述内存发生的行故障;该重启时间间隔用于指示从上述服务器上一次重启的时间开始至该服务器本次重启的时间结束的时间段;上述第一目标行故障的严重程度大于或等于第一严重程度。
[0014]相比传统的修复一个重启时间间隔中最后发生的行故障的方式。本申请实施例是根据至少两个行故障各自的健康分值,将至少两个行故障中严重程度较高的行故障确定为第一目标行故障;然后,对该严重程度较高的第一目标行故障进行的修复;从而避免了对严重中程度较轻的行故障进行修复,而忽略严重程度较高的行故障,因此,从而了内存的稳定性,降低了业务中断的概率。
[0015]一种可能的实现方式中,当上述内存中的冗余存储区域中存在空闲行时,根据至少一个非目标行故障各自的严重程度,从该至少一个非目标行故障中确定第二目标行故障;其中,该至少一个非目标行故障是同一重启时间间隔内,上述内存发生的非目标行故障;该第二目标行故障的严重程度高于或等于第三严重程度,且该第二目标行故障的修复方式为软件行替换的方式;根据该第二目标行故障的修复方式修复第二目标行故障。
[0016]相比传统的只修复第一目标行故障的方式,本申请实施例提供的确定内存故障修复方式的方法,在修复第一目标行故障之后,如果内存的冗余存储区域中存在空闲行时;确定装置从至少一个非目标行故障中确定严重程度较高,且修复方式为sPPR的第二目标行故障,并对该第二目标行故障进行修复,从而不但提高了冗余存储区域的利用率,还提高了内存的可靠性。
[0017]第二方面,本申请实施例提供一种确定装置,该确定装置包括:获取模块和确定模
块;上述获取模块用于获取多个行故障的信息,其中,行故障的信息包括:行故障的次序和该行故障的严重程度;行故障的发生次序为目标时间段内,内存发生的行故障的数量,该目标时间段是内存所在的服务器上一次重启的时间至行故障的发生时间;上述确定模块用于根据上述多个行故障各自的严重程度从该多个行故障中确定第一目标行故障;上述确定模块还用于根据第一目标行故障的发生次序和该第一目标行故障的严重程度,确定上述第一目标行故障的修复方式。
[001本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种确定内存故障修复方式的方法,其特征在于,所述方法包括:获取多个行故障的信息,其中,行故障的信息包括:所述行故障的次序和所述行故障的严重程度;所述行故障的发生次序为目标时间段内,内存发生的行故障的数量,所述目标时间段是所述内存所在的服务器上一次重启的时间至所述行故障的发生时间;根据所述多个行故障各自的严重程度从所述多个行故障中确定第一目标行故障;根据所述第一目标行故障的发生次序和所述第一目标行故障的严重程度,确定所述第一目标行故障的修复方式。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一目标行故障的发生次序和所述第一目标行故障的严重程度,确定所述第一目标行故障的修复方式;包括:当所述第一目标行故障的发生次序大于数量阈值,且所述第一目标行故障的严重程度高于第二严重程度;或者,所述第一目标行故障的发生次序等于数量阈值,且所述第一目标行故障的严重程度高于第二严重程度,或者,所述第一目标行故障的发生次序大于数量阈值,且所述第一目标行故障的严重程度高于或等于第二严重程度时:所述第一目标行故障的修复方式为硬件行替换的方法;或者,当所述第一目标行故障的发生次序等于数量阈值,且所述第一目标行故障的严重程度等于第二严重程度时:所述第一目标行故障的修复方式为硬件行替换的方法或者软件行替换的方法中的一个;否则,所述第一目标行故障的修复方式为软件行替换的方法。3.根据权利要求1或2所述的方法,其特征在于,行故障的信息具体包括:所述行故障的次序和所述行故障的健康分值,所述健康分值用于标识所述行故障的严重程度。4.根据权利要求1

3任一项所述的方法,其特征在于,所述多个行故障的信息还包括:行故障中的Bit故障和/或Cell故障的地址信息和数量,所述方法还包括:将所述地址信息和数量输入至评分模型,得到所述多个行故障的严重程度;所述评分模型用于评估行故障的严重程度。5.根据权利要求1

4任一项所述的方法,其特征在于,所述从所述多个行故障中确定第一目标行故障包括:根据所述多个行故障的行故障各自的严重程度,从所述多个行故障中确定所述第一目标行故障;其中,所述多个行故障是同一重启时间间隔内,所述内存发生的行故障;所述重启时间间隔用于指示从所述服务器上一次重启的时间开始至所述服务器本次重启的时间结束的时间段;所述第一目标行故障的严重程度大于或等于第一严重程度。6.根据权利要求1

5任一项所述的方法,其特征在于,所述方法还包括:当所述内存中的冗余存储区域中存在空闲行时,根据至少一个非目标行故障各自的严重程度,从所述至少一个非目标行故障中确定第二目标行故障;其中,所述至少一个非目标行故障是同一重启时间间隔内,所述内存发生的非目标行故障;所述第二目标行故障的严重程度高于或等于第三严重程度,且所述第二目标行故障的修复方式为软件行替换的方式;根据所述第二目标行故障的修复方式修复所述第二目标行故障。7.一种确定装置,其特征在于,所述确定装置包括:获取模块和确定模块;
所述获取模块,用于获取多个行故障的信息,其中,行故障的信息包括:所述行故障的次序和所述行故障的严重程度;所述行故障的发生次序为目标时间段...

【专利技术属性】
技术研发人员:张光彪鲍全洋韦炜玮李胜甘延曹瑞
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1