标记存储器的风险状态的方法、装置、设备及存储介质制造方法及图纸

技术编号:33127610 阅读:9 留言:0更新日期:2022-04-17 00:39
本公开的实施例提供了标记存储器的风险状态的方法、装置、设备及存储介质。该标记存储器的风险状态的方法包括:基于从存储器读取的对象数据的校验结果生成统计数据,其中统计数据与对象数据的校验结果包括的可纠正错误相关联;判定统计数据与对应的阈值之间的关系是否满足多个风险判定规则中的一个风险判定规则;以及响应于该关系满足该一个风险判定规则,将该存储器标记为与该一个风险判定规则相对应的风险状态。该标记存储器的风险状态的方法可以实现存储器的风险状态的标记,提高系统健壮性与稳定性。健壮性与稳定性。健壮性与稳定性。

【技术实现步骤摘要】
标记存储器的风险状态的方法、装置、设备及存储介质


[0001]本公开的实施例涉及存储器领域,并且更具体地,涉及一种标记存储器的风险状态的方法、装置、设备及存储介质。

技术介绍

[0002]存储器,例如双倍数据速率(Double Data Rate,DDR)存储器在工作过程中难免会受到诸如电磁等环境因素的干扰,从而导致DDR存储器出现错误。例如,对于服务器而言,其对DDR数据可靠性要求比较高,DDR存储器纠错技术就能提高服务器存储器的稳定性和纠错能力,例如支持错误检查和纠正(Error Correcting Code,ECC)的内存条可以提高服务器存储器的稳定性和纠错能力。
[0003]对于某种支持ECC的内存条而言,其用于ECC的冗余位是固定,其纠错的位数/位宽和位置往往存在限制,因而支持ECC的内存条的纠错能力存在限制。当内存颗粒的错误超出了该支持ECC的内存条的纠错能力,系统就会报出不可纠正错误(UCE错误)。在出现所采用的ECC算法的不可纠正错误的情况下,一般就会丢失数据并且数据无法被回复。数据的丢失将影响处理器或其他计算单元执行相应运算,导致相关功能或应用无法正常运行,甚至引起宕机。如此,影响了系统健壮性与稳定性。
[0004]存在提高系统健壮性与稳定性的需要。

技术实现思路

[0005]本公开的至少一实施例公开了标记存储器的风险状态的方法、装置、电子设备及存储介质,用于提高系统健壮性与稳定性。
[0006]本公开的第一方面提供了一种标记存储器的风险状态的方法,包括:基于从存储器读取的对象数据的校验结果生成统计数据,其中统计数据与对象数据的校验结果包括的可纠正错误相关联;确定统计数据与对应的阈值之间的关系是否满足多个风险判定规则中的一个风险判定规则;以及响应于该关系满足该一个风险判定规则,将存储器标记为与该一个风险判定规则相对应的风险状态。
[0007]例如,根据本公开的第一方面提供的方法,统计数据包括以下中的至少一种:可纠正错误出现的位置、存储器的可纠正错误连续出现的次数CE_con、存储器的可纠正错误出现的总次数CE_ALL、可纠正错误连续出现在相同位置的次数CE_Fix,并且其中可纠正错误阈值包括以下中的至少一种:存储器的可纠正错误连续出现的次数的阈值CE_con_Th、存储器的可纠正错误出现的总次数的阈值CE_ALL_Th、可纠正错误连续出现在相同位置的次数的阈值CE_con_Th。
[0008]例如,根据本公开的第一方面提供的方法,基于从存储器读取的对象数据的校验结果生成统计数据,包括:响应于在存储器中连续出现可纠正错误,对在存储器中连续出现可纠正错误的次数进行计数;以及响应于在存储器中未连续出现可纠正错误,对计数清零。
[0009]例如,根据本公开的第一方面提供的方法,基于从存储器读取的对象数据的校验
结果生成统计数据,包括:响应于可纠正错误连续出现在相同位置,对可纠正错误连续出现在相同位置的次数进行计数;以及响应于可纠正错误未连续出现在相同位置,对计数清零。
[0010]例如,根据本公开的第一方面提供的方法,存储器包括多个内存颗粒,位置包括内存颗粒位置或者内存颗粒中的比特位置。
[0011]例如,根据本公开的第一方面提供的方法,风险判定规则包括第一风险判定规则、第二风险判定规则以及第三风险判定规则,其中第一风险判定规则为:CE_ALL<70%CE_All_Th,且CE_Fix<70%CE_Fix_Th,且CE_con<CE_con_Th;第二风险判定规则为:CE_con>=CE_con_Th,或CE_All_Th>CE_ALL>=70%CE_All_Th,或CE_Fix_Th>CE_Fix>=70%CE_Fix_Th;第三风险判定规则为:已出现UE错误,或CE_ALL>=CE_All_Th,或CE_Fix>=CE_Fix_Th。
[0012]例如,根据本公开的第一方面提供的方法,使用绿色标记将存储器标记为与第一风险判定规则相对应的风险状态,以指示存储器无风险;使用黄色标记将存储器标记为与第二风险判定规则相对应的风险状态,以指示存储器存在风险;并且使用红色标记将存储器标记为与第三风险判定规则相对应的风险状态,以指示存储器已经坏掉。
[0013]本公开的第二方面提供了一种标记存储器的风险状态的装置,包括:统计单元,被配置为基于从存储器读取的对象数据的校验结果生成统计数据,其中统计数据与对象数据的校验结果包括的可纠正错误相关联;风险判定单元,被配置为判定统计数据与对应的阈值之间的关系是否满足多个风险判定规则中的一个风险判定规则;以及标记单元,被配置为响应于该关系满足该一个风险判定规则,将存储器标记为与该一个风险判定规则相对应的风险状态。
[0014]例如,根据本公开的第二方面提供的装置,统计数据包括以下中的至少一种:可纠正错误出现的位置、存储器的可纠正错误连续出现的次数CE_con、存储器的可纠正错误出现的总次数CE_ALL、可纠正错误连续出现在相同位置的次数CE_Fix,并且可纠正错误阈值包括以下中的至少一种:存储器的可纠正错误连续出现的次数的阈值CE_con_Th、存储器的可纠正错误出现的总次数的阈值CE_ALL_Th、可纠正错误连续出现在相同位置的次数的阈值CE_con_Th。
[0015]例如,根据本公开的第二方面提供的装置,基于从存储器读取的对象数据的校验结果生成统计数据,包括:响应于在存储器中连续出现可纠正错误,对在存储器中连续出现可纠正错误的次数进行计数;以及响应于在存储器中未连续出现可纠正错误,对计数清零。
[0016]例如,根据本公开的第二方面提供的装置,基于从存储器读取的对象数据的校验结果生成统计数据,包括:响应于可纠正错误连续出现在相同位置,对可纠正错误连续出现在相同位置的次数进行计数;以及响应于可纠正错误未连续出现在相同位置,对计数清零。
[0017]例如,根据本公开的第二方面提供的装置,存储器包括多个内存颗粒,位置包括内存颗粒位置或者多个内存颗粒中至少之一中的比特位置。
[0018]例如,根据本公开的第二方面提供的装置,风险判定规则包括第一风险判定规则、第二风险判定规则以及第三风险判定规则,其中第一风险判定规则为:CE_ALL<70%CE_All_Th,且CE_Fix<70%CE_Fix_Th,且CE_con<CE_con_Th;第二风险判定规则为:CE_con>=CE_con_Th,或CE_All_Th>CE_ALL>=70%CE_All_Th,或CE_Fix_Th>CE_Fix>=70%CE_Fix_Th;第三风险判定规则为:已出现UE错误,或CE_ALL>=CE_All_Th,或CE_Fix&本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标记存储器的风险状态的方法,包括:基于从所述存储器读取的对象数据的校验结果生成统计数据,其中所述统计数据与所述对象数据的校验结果包括的可纠正错误相关联;判定所述统计数据与对应的阈值之间的关系是否满足多个风险判定规则中的一个风险判定规则;以及响应于所述关系满足所述一个风险判定规则,将所述存储器标记为与所述一个风险判定规则相对应的风险状态。2.根据权利要求1所述的方法,其中,所述统计数据包括以下中的至少一种:所述可纠正错误出现的位置、所述存储器的可纠正错误连续出现的次数CE_con、所述存储器的可纠正错误出现的总次数CE_ALL、所述可纠正错误连续出现在相同位置的次数CE_Fix,并且其中所述可纠正错误阈值包括以下中的至少一种:所述存储器的可纠正错误连续出现的次数的阈值CE_con_Th、所述存储器的可纠正错误出现的总次数的阈值CE_ALL_Th、所述可纠正错误连续出现在相同位置的次数的阈值CE_con_Th。3.根据权利要求2所述的方法,其中,基于从所述存储器读取的对象数据的校验结果生成统计数据,包括:响应于在所述存储器中连续出现所述可纠正错误,对在所述存储器中连续出现所述可纠正错误的次数进行计数;以及响应于在所述存储器中未连续出现所述可纠正错误,对所述计数清零。4.根据权利要求2所述的方法,其中,基于从所述存储器读取的对象数据的校验结果生成统计数据,包括:响应于所述可纠正错误连续出现在相同位置,对所述可纠正错误连续出现在相同位置的次数进行计数;以及响应于所述可纠正错误未连续出现在相同位置,对所述计数清零。5.根据权利要求2所述的方法,其中,所述存储器包括多个内存颗粒,所述位置包括内存颗粒位置或者内存颗粒中的比特位置。6.根据权利要求2所述的方法,其中,所述风险判定规则包括第一风险判定规则、第二风险判定规则以及第三风险判定规则,其中所述第一风险判定规则为:CE_ALL<70%CE_All_Th,且CE_Fix<70%CE_Fix_Th,且CE_con<CE_con_Th;所述第二风险判定规则为:CE_con>=CE_con_Th,或CE_All_Th>CE_ALL>=70%CE_All_Th,或CE_Fix_Th>CE_Fix>=70%CE_Fix_Th;所述第三风险判定规则为:已出现UE错误,或CE_ALL>=CE_All_Th,或
CE_Fix>=CE_Fix_Th。7.根据权利要求6所述的方法,其中:使用绿色标记将所述存储器标记为与所述第一风险判定规则相对应的风险状态,以指示所述存储器无风险;使用黄色标记将所述存储器标记为与所述第二风险判定规则相对应的风险状态,以指示所述存储器存在风险;并且使用红色标记将所述存储器标记为与所述第三风险判定规则相对应的风险状态,以指示所述存储器已经坏掉。8.一种标记存储器的风险状态的装置,包括:统计单元,被配置为基于从所述存储器读取的对象数据的校验结果生成统计数据,其中所述统计数据与所述对象数据的校验结果包括的可纠正错误相关联;风险判定单元,被配置为判定所述统计数据与对应的阈值之间的关系是否满足多个风险判定规则中的一个...

【专利技术属性】
技术研发人员:周鹏谢飞曾峰
申请(专利权)人:海光信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1