一种故障修复方法、装置及存储介质制造方法及图纸

技术编号:35736740 阅读:14 留言:0更新日期:2022-11-26 18:39
本申请实施例提供一种故障修复方法、装置及存储介质,涉及计算机技术领域,能够提高内存的可靠性,该方法包括:获取内存的第一行故障地址和第二行故障地址,该第一行故障地址和第二行故障地址不同;上述第一行故障地址指示了内存中发生故障的第一行故障位置,上述第二行故障地址指示了内存中发生故障的第二行故障位置;确定第一行故障位置的故障严重程度和第二行故障位置的故障严重程度;依次对上述第一行故障位置和第二行故障位置进行修复,上述第一行故障位置的严重程度高于第二行故障位置的严重程度。置的严重程度。置的严重程度。

【技术实现步骤摘要】
一种故障修复方法、装置及存储介质


[0001]本申请实施例涉及计算机
,尤其涉及一种故障修复方法、装置及存储介质。

技术介绍

[0002]随着互联网技术的广泛应用,内存的可靠性已成为各大企业关注的重点。经数据统计发现,内存中的行(Row)故障是降低内存可靠性和引发服务器宕机的因素之一;一种处理行故障的方法是基于行替换(post

package repair,PPR)的方式。
[0003]然而,目前的基于PPR处理行故障的过程中,修复的行故障可能并不是引发服务器宕机的行故障,而由于内存中的冗余存储区域的可用资源量的限制,所以真正导致服务器宕机的行故障可能并未被修复,因此,降低了内存的可靠性。
[0004]因此,如何对行故障修复能提升内存的可靠性是本领域技术人员亟待解决的问题。

技术实现思路

[0005]本申请实施例提供一种故障修复方法、装置及存储介质,能够提高内存的可靠性。
[0006]为达到上述目的,本申请实施例采用如下技术方案:
[0007]第一方面,本申请实施例提供一种故障修复方法,该方法包括:获取内存的第一行故障地址和第二行故障地址,第一行故障地址和第二行故障地址不同;该第一行故障地址指示了内存中发生故障的第一行故障位置,该第二行故障地址指示了内存中发生故障的第二行故障位置;确定第一行故障位置的故障严重程度和第二行故障位置的故障严重程度;依次对该第一行故障位置和第二行故障位置进行修复,该第一行故障位置的严重程度高于第二行故障位置的严重程度
[0008]相比传统的按照多个行故障的发生时间依次对该多个行故障位置进行修复的方式,其中,发生时间越靠前的行故障位置,越先被修复;本申请实施例提供的故障修复方法是按照第一行故障位置和第二行故障位置的故障严重程度对该第一行故障位置和第二行故障位置进行修复的,其中,故障严重程度越高的行故障位置被优先进行修复;从而避免了因内存中严重程度较高的行故障位置被晚修复或不被修复,从导致的系统出现宕机的情况;因此提高了内存的可靠性。
[0009]一种可能的实现方式中,上述确定第一行故障位置的故障严重程度和第二行故障位置的故障严重程度,包括:获取在预设时间段内发生在上述第一行故障位置的故障次数,和发生在第二行故障位置的故障次数;将第一行故障位置的故障次数输入至评估模型,得到该第一行故障位置的评分;第一行故障的评分用于表征第一行故障位置的故障严重程度;将第二行故障地址的故障次数输入至上述评估模型,得到第二行故障地址的评分;第二行故障的评分用于表征第二行故障位置的故障严重程度。
[0010]一种可能的实现方式中,上述预设时间段是从内存所在的计算设备上一次重启的
时间开始至计算设备本次重启的时间结束的时间。
[0011]一种可能的实现方式中,在上述确定第一行故障位置的故障严重程度和第二行故障位置的故障严重程度之后,该方法还包括:基于第一行故障位置的故障严重程度和第二行故障位置的故障严重程度,确定目标故障列表;该目标故障列表中的行故障位置是按照行故障位置的故障严重程度大小进行排序的;上述依次对第一行故障位置和第二行故障位置进行修复,包括:按照上述目标故障列表中的行故障位置的排序,依次对目标故障列表中的行故障位置进行修复。
[0012]本申请实施例提供的故障修复方法,通过将第一行故障位置和第二行故障位置按照故障严重程度大小进行排序后得到目标故障列表;然后,在执行修复动作时,只需要根据目标故障列表中的行故障位置的排序,对该目标故障列表中的行故障位置按照故障严重程度由大到小的顺序依次进行修复,并不需要将每个行故障位置的故障严重程度与其他行故障位置的故障严重程度进行对比,因此,提高了行故障的修复效率。
[0013]一种可能的实现方式中,上述基于第一行故障位置的故障严重程度和第二行故障位置的故障严重程度,确定目标故障列表,包括:当服务器在运行阶段时,基于该第一行故障位置的故障严重程度和该第二行故障位置的故障严重程度,确定目标故障列表;上述按照目标故障列表中的行故障位置的排序,依次对上述目标故障列表中的行故障位置进行修复,包括:当上述服务器在重启阶段时,按照目标故障列表中的行故障位置的排序,依次对该目标故障列表中的行故障位置进行修复。
[0014]本申请实施例在服务器运行阶段确定目标故障列表,所以在服务器重启阶段只需要根据目标故障列表中的行故障位置的排序依次对目标故障列表中的行故障位置进行修复,并不需要对该多个行故障位置根据严重程度进行排序,因此,提高了服务器的重启效率。
[0015]一种可能的实现方式中,上述在基于第一行故障位置的故障严重程度和第二行故障位置的故障严重程度,确定目标故障列表之后,该方法还包括:根据第三行故障位置更新目标故障列表,得到更新后的目标故障列表;其中,第三行故障为上述预设时间段内发生的行故障,且第三行故障的发生时间在第一行故障和第二行故障的发生时间之后;该更新后的目标故障列表中的行故障位置是按照行故障位置的故障严重程度大小进行排序的;上述按照目标故障列表中的行故障位置的排序,依次对该目标故障列表中的行故障位置进行修复,包括:按照该更新后的目标故障列表中的行故障位置的排序,依次对更新后的目标故障列表中的行故障位置进行修复。
[0016]一种可能的实现方式中,上述根据第三行故障位置的故障严重程度更新目标故障列表,包括:当第三行故障位置与上述第一行故障位置和第二行故障位置均不同时,将该第三行故障位置添加进上述目标故障列表,得到更新后的目标故障列表;当该第三行故障位置与上述目标故障列表中的目标行故障位置相同时,更新该目标行故障位置的故障次数,并根据更新后的目标行故障位置的故障次数重新计算该目标行故障位置的故障严重程度;根据该目标行故障位置的故障严重程度和非目标行故障位置的故障严重程度,更新上述目标故障列表,得到更新后的目标故障列表,该非目标行故障位置为上述目标故障列表中除目标行故障位置以外的行故障位置。
[0017]第二方面,本申请实施例提供一种故障修复装置,该故障修复装置包括:获取模
块、确定模块和修复模块;上述获取模块用于获取内存的第一行故障地址和第二行故障地址,第一行故障地址和第二行故障地址不同;该第一行故障地址指示了内存中发生故障的第一行故障位置,该第二行故障地址指示了内存中发生故障的第二行故障位置;上述确定模块用于确定第一行故障位置的故障严重程度和第二行故障位置的故障严重程度;上述修复模块用于依次对上述第一行故障位置和第二行故障位置进行修复,该第一行故障位置的严重程度高于上述第二行故障位置的严重程度。
[0018]一种可能的实现方式中,获取模块用于获取在预设时间段内发生在第一行故障位置的故障次数,和发生在第二行故障位置的故障次数;上述确定模块用于将第一行故障位置的故障次数输入至评估模型,得到第一行故障位置的评分;第一行故障的评分用于表征第一行故障位置的故障严重程度;上述确定模块还用于将第二行故障地址的故障次数输入至评估模型,得到第二行故障地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障修复方法,其特征在于,所述方法包括:获取内存的第一行故障地址和第二行故障地址,所述第一行故障地址和所述第二行故障地址不同;所述第一行故障地址指示了所述内存中发生故障的第一行故障位置,所述第二行故障地址指示了所述内存中发生故障的第二行故障位置;确定所述第一行故障位置的故障严重程度和所述第二行故障位置的故障严重程度;依次对所述第一行故障位置和所述第二行故障位置进行修复,所述第一行故障位置的严重程度高于所述第二行故障位置的严重程度。2.根据权利要求1所述的方法,其特征在于,所述确定所述第一行故障位置的故障严重程度和所述第二行故障位置的故障严重程度,包括:获取在预设时间段内发生在所述第一行故障位置的故障次数,和发生在所述第二行故障位置的故障次数;将所述第一行故障位置的故障次数输入至评估模型,得到所述第一行故障位置的评分;所述第一行故障的评分用于表征所述第一行故障位置的故障严重程度;将所述第二行故障地址的故障次数输入至所述评估模型,得到所述第二行故障地址的评分;所述第二行故障的评分用于表征所述第二行故障位置的故障严重程度。3.根据权利要求2所述的方法,其特征在于,所述预设时间段是从所述内存所在的计算设备上一次重启的时间开始至所述计算设备本次重启的时间结束的时间。4.根据权利要求1

3任一项所述的方法,其特征在于,在所述确定所述第一行故障位置的故障严重程度和所述第二行故障位置的故障严重程度之后,所述方法还包括:基于所述第一行故障位置的故障严重程度和所述第二行故障位置的故障严重程度,确定目标故障列表;所述目标故障列表中的行故障位置是按照所述行故障位置的故障严重程度大小进行排序的;所述依次对所述第一行故障位置和所述第二行故障位置进行修复,包括:按照所述目标故障列表中的行故障位置的排序,依次对所述目标故障列表中的行故障位置进行修复。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一行故障位置的故障严重程度和所述第二行故障位置的故障严重程度,确定目标故障列表,包括:当服务器在运行阶段时,基于所述第一行故障位置的故障严重程度和所述第二行故障位置的故障严重程度,确定所述目标故障列表;所述按照所述目标故障列表中的行故...

【专利技术属性】
技术研发人员:李胜鲍全洋张光彪韦炜玮
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1