内存故障定位方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:37206688 阅读:19 留言:0更新日期:2023-04-20 22:59
本申请提供了一种内存故障定位方法、装置、设备及计算机可读存储介质;方法包括:在当前检测周期中,根据槽位地址,对从目标设备采集到的内存报错信息进行地址分类统计,确定报错槽位信息;基于报错槽位信息,确定故障地址维度;根据故障地址维度对应的至少一级内存地址,基于报错槽位信息进行地址分类统计,在满足预设定位条件的情况下,得到内存故障级别;内存故障级别表征内存报错信息在内存地址维度上的分布情况;基于内存故障级别,得到内存故障定位结果。通过本申请,能够提高内存故障定位的准确性与效率。定位的准确性与效率。定位的准确性与效率。

【技术实现步骤摘要】
内存故障定位方法、装置、设备及计算机可读存储介质


[0001]本申请涉及计算机技术,尤其涉及一种内存故障定位方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]目前,很多主机设备如服务器都会部署大量的内存以支持服务器的业务运行或提供数据存储服务。在内存发生故障时,目前的内存故障定位方法容易受到如CPU等外部连接部件故障导致的内存报错、接触不良导致的内存报错、随机电噪声干扰&VRT特性造成的瞬时数据跳变等内存软失效问题的影响,导致内存故障定位的准确率较低。并且目前的内存故障定位方法需要较长的分析周期,往往需要两周以上时间,无法对内存故障进行快速定位,从而降低了内存故障定位的效率。

技术实现思路

[0003]本申请实施例提供一种内存故障定位方法、装置、设备及计算机可读存储介质,能够提高内存故障定位的准确性与效率。
[0004]本申请实施例的技术方案是这样实现的:
[0005]本申请实施例提供一种内存故障定位方法,包括:
[0006]在当前检测周期中,根据槽位地址,对从目标设备采集到的内存报错信息进行地址分类统计,确定报错槽位信息;
[0007]基于所述报错槽位信息,确定故障地址维度;
[0008]根据所述故障地址维度对应的至少一级内存地址,基于所述报错槽位信息进行地址分类统计,在满足预设定位条件的情况下,得到内存故障级别;所述内存故障级别表征所述内存报错信息在内存地址维度上的分布情况;
[0009]基于所述内存故障级别,得到内存故障定位结果。
[0010]本申请实施例提供一种内存故障定位装置,包括:
[0011]分类统计模块、确定模块与定位模块,其中,
[0012]所述分类统计模块,用于在当前检测周期中,根据槽位地址,对从目标设备采集到的内存报错信息进行地址分类统计,确定报错槽位信息;
[0013]所述确定模块,用于基于所述报错槽位信息,确定故障地址维度;
[0014]所述分类统计模块,还用于根据所述故障地址维度对应的至少一级内存地址,基于所述报错槽位信息进行地址分类统计,在满足预设定位条件的情况下,得到内存故障级别;所述内存故障级别表征所述内存报错信息在内存地址维度上的分布情况;
[0015]所述定位模块,用于基于所述内存故障级别,得到内存故障定位结果。
[0016]上述装置中,所述目标设备包含至少一个处理器,每个处理器连接有至少一个内存通道,每个内存通道包含至少一个槽位;所述外部地址维度对应的至少一级内存地址包括:内存通道地址;所述报错槽位信息包括:至少一个报错槽位;
[0017]所述分类统计模块,还用于通过所述内存通道地址,对所述至少一个报错槽位在所述至少一个内存通道中的数量分布进行分类统计,得到所述至少一个报错槽位对应的内存通道分布;在所述内存通道分布表征存在故障内存通道的情况下,确定满足所述预设定位条件,将所述内存故障级别确定为通道级别;所述故障内存通道为包含不同报错槽位的数量大于或等于预设通道阈值的内存通道。
[0018]上述装置中,所述外部地址维度对应的至少一级内存地址还包括:处理器地址;所述分类统计模块,还用于在通过内存通道地址进行地址分类统计,确定存在故障内存通道的情况下,基于所述处理器地址,对所述故障内存通道在所述至少一个处理器中的分布进行分类统计,得到故障内存通道对应的处理器分布;在所述处理器分布表征存在故障处理器的情况下,确定满足所述预设定位条件,将所述内存故障级别确定为处理器连接级别;所述故障处理器为所连接的故障内存通道的数量大于或等于预设处理器阈值的处理器。
[0019]上述装置中,所述确定模块,还用于在所述报错槽位数量小于预设槽位阈值的情况下,或者,在基于所述报错槽位信息,确定不存在故障内存通道的情况下,或者,在基于所述报错槽位信息,确定不存在故障处理器的情况下,将所述故障地址维度确定为内部地址维度;所述内部地址维度表征所述槽位地址下的次级内存单位对应的内存内部地址;其中,所述内部地址维度对应的至少一级内存地址包括:至少一级内存内部地址,所述至少一级内存内部地址按地址级别从低至高的顺序,包括:存储单元地址、行地址或列地址、存储区域地址、芯片地址以及芯片组地址。
[0020]上述装置中,所述报错槽位信息包括:至少一个报错槽位中每个报错槽位对应的至少一条报错信息;所述分类统计模块,还用于针对所述至少一个报错槽位中的每个报错槽位,根据所述至少一级内存内部地址中的每级内存内部地址,对所述每级内存内部地址对应的报错信息进行地址分类统计,得到所述每级内存内部地址对应的报错数量分布;在所述报错数量分布满足预设分布条件的情况下,根据所述每级内存内部地址确定当前内存故障级别;所述当前内存故障级别与所述每级内存内部地址的地址级别相对应;获取所述每个报错槽位对应的历史内存故障级别;所述历史内存故障级别为历史检测周期的内存故障级别;在所述历史内存故障级别低于所述当前内存故障级别的情况下,确定满足所述预设定位条件,将所述当前内存故障级别确定为所述每个报错槽位对应的内存故障级别。
[0021]上述装置中,所述预设分布条件包括以下至少之一:预设存储单元分布条件、预设行分布条件、预设列分布条件、预设存储区域分布条件、预设芯片分布条件、预设芯片组分布条件与预设槽位分布条件;其中,
[0022]所述预设存储单元分布条件,包括:在所述每级内存内部地址为存储单元地址的情况下,同一存储单元出现的报错信息的数量大于或等于预设存储单元阈值;
[0023]所述预设行分布条件,包括:在所述每级内存内部地址为行地址的情况下,同一行地址中出现报错信息的存储单元的数量大于或等于预设行阈值;
[0024]所述预设列分布条件,包括:在所述每级内存内部地址为列地址的情况下,同一列地址中出现报错信息的存储单元的数量大于或等于预设列阈值;
[0025]所述预设存储区域分布条件,包括:在所述每级内存内部地址为存储区域地址的情况下,同一存储区域地址中,出现报错信息的存储单元的数量大于或等于预设存储区域阈值,且所述出现报错信息的存储单元在该存储区域的行列中的分布超过预设行数阈值或
预设列数阈值;
[0026]所述预设芯片分布条件,包括:在所述每级内存内部地址为芯片地址的情况下,同一芯片地址中,满足所述预设存储区域分布条件的存储区域的数量大于或等于预设芯片阈值;
[0027]所述预设芯片组分布条件,包括:在所述每级内存内部地址为芯片组地址的情况下,同一芯片组地址中,满足所述预设存储区域分布条件的存储区域的数量大于或等于预设芯片组阈值;或者,满足所述预设芯片分布条件的芯片的数量大于或等于预设芯片组阈值;
[0028]所述预设槽位分布条件,包括:在所述每级内存内部地址为槽位地址的情况下,同一槽位地址中,满足所述预设芯片组分布条件的芯片组的数量大于或等于预设槽位定位阈值。
[0029]上述装置中,所述每个报错槽位包含至少一个芯片组;所述分类统计模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内存故障定位方法,其特征在于,包括:在当前检测周期中,根据槽位地址,对从目标设备采集到的内存报错信息进行地址分类统计,确定报错槽位信息;基于所述报错槽位信息,确定故障地址维度;根据所述故障地址维度对应的至少一级内存地址,基于所述报错槽位信息进行地址分类统计,在满足预设定位条件的情况下,得到内存故障级别;所述内存故障级别表征所述内存报错信息在内存地址维度上的分布情况;基于所述内存故障级别,得到内存故障定位结果。2.根据权利要求1所述的方法,其特征在于,所述报错槽位信息包括:报错槽位数量;所述基于所述报错槽位信息,确定故障地址维度,包括:在所述报错槽位数量大于或等于预设槽位阈值的情况下,将所述故障地址维度确定为外部地址维度;所述外部地址维度表征所述槽位地址在所述目标设备上对应的上级地址。3.根据权利要求2所述的方法,所述目标设备包含至少一个处理器,每个处理器连接有至少一个内存通道,每个内存通道包含至少一个槽位;所述外部地址维度对应的至少一级内存地址包括:内存通道地址;所述报错槽位信息包括:至少一个报错槽位;所述根据所述故障地址维度对应的至少一级内存地址,基于所述报错槽位信息进行地址分类统计,在满足预设定位条件的情况下,得到内存故障级别,包括:通过所述内存通道地址,对所述至少一个报错槽位在所述至少一个内存通道中的数量分布进行分类统计,得到所述至少一个报错槽位对应的内存通道分布;在所述内存通道分布表征存在故障内存通道的情况下,确定满足所述预设定位条件,将所述内存故障级别确定为通道级别;所述故障内存通道为包含不同报错槽位的数量大于或等于预设通道阈值的内存通道。4.根据权利要求2所述的方法,所述外部地址维度对应的至少一级内存地址还包括:处理器地址;所述根据所述故障地址维度对应的至少一级内存地址,基于所述报错槽位信息进行地址分类统计,在满足预设定位条件的情况下,得到内存故障级别,包括:在通过内存通道地址进行地址分类统计,确定存在故障内存通道的情况下,基于所述处理器地址,对所述故障内存通道在所述至少一个处理器中的分布进行分类统计,得到故障内存通道对应的处理器分布;在所述处理器分布表征存在故障处理器的情况下,确定满足所述预设定位条件,将所述内存故障级别确定为处理器连接级别;所述故障处理器为所连接的故障内存通道的数量大于或等于预设处理器阈值的处理器。5.根据权利要求1所述的方法,其特征在于,所述基于所述报错槽位信息,确定故障地址维度,包括:在所述报错槽位数量小于预设槽位阈值的情况下,或者,在基于所述报错槽位信息,确定不存在故障内存通道的情况下,或者,在基于所述报错槽位信息,确定不存在故障处理器的情况下,将所述故障地址维度确定为内部地址维度;所述内部地址维度表征所述槽位地址下的次级内存单位对应的内存内部地址;其中,所述内部地址维度对应的至少一级内存地址包括:至少一级内存内部地址,所述至少一级内存内部地址按地址级别从低至高的顺序,包括:存储单元地址、行地址或列地
址、存储区域地址、芯片地址以及芯片组地址。6.根据权利要求5所述的方法,其特征在于,所述报错槽位信息包括:至少一个报错槽位中每个报错槽位对应的至少一条报错信息;所述根据所述故障地址维度对应的至少一级内存地址,基于所述报错槽位信息进行地址分类统计,在满足预设定位条件的情况下,得到内存故障级别,包括:针对所述至少一个报错槽位中的每个报错槽位,根据所述至少一级内存内部地址中的每级内存内部地址,对所述每级内存内部地址对应的报错信息进行地址分类统计,得到所述每级内存内部地址对应的报错数量分布;在所述报错数量分布满足预设分布条件的情况下,根据所述每级内存内部地址确定当前内存故障级别;所述当前内存故障级别与所述每级内存内部地址的地址级别相对应;获取所述每个报错槽位对应的历史内存故障级别;所述历史内存故障级别为历史检测周期的内存故障级别;在所述历史内存故障级别低于所述当前内存故障级别的情况下,确定满足所述预设定位条件,将所述当前内存故障级别确定为所述每个报错槽位对应的内存故障级别。7.根据权利要求6所述的方法,其特征在于,所述预设分布条件包括以下至少之一:预设存储单元分布条件、预设行分布条件、预设列分布条件...

【专利技术属性】
技术研发人员:田康宗传涛牛犇曾令新倪婷
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1