内存链路故障检测方法,装置及相关设备制造方法及图纸

技术编号:36764633 阅读:10 留言:0更新日期:2023-03-08 21:16
本申请提供了一种内存链路故障检测的方法、装置及相关设备,该方法可包括以下步骤:处理器根据内存读写异常信息进行故障纠错,生成纠错信息,纠错信息包括读写异常的第一内存颗粒的故障地址信息,处理器根据纠错信息和历史纠错信息确定故障类型,其中,故障类型包括非内存链路故障和内存链路故障,历史纠错信息包括历史读写异常的第二内存颗粒的故障地址信息,从而避免多次故障检测,减少纠错成本,提高纠错效率。纠错效率。纠错效率。

【技术实现步骤摘要】
内存链路故障检测方法,装置及相关设备


[0001]本专利技术涉及计算机
,尤其涉及一种内存链路故障检测方法,装置及相关设备。

技术介绍

[0002]内存条是计算机必需的组成部分,一般指随机存取存储器(random access memory, RAM),也叫主存,是与处理器(central processing unit,CPU)直接交换数据的内部存储器。它可以随时读写(刷新时除外),而且速度很快,通常作为操作系统或其他正在运行中的程序的临时数据存储介质。在日常使用计算机时,可能会发生内存读取异常的情况,这是很正常的。
[0003]内存条插入内存插槽后,两者之间形成链路连接,处理器向内存条传输信号,读取内存信息。传输信号包括片选信号,命令、地址信号以及数据信号,不同信号传输出现故障产生的影响不同。内存读取异常,故障可能位于内存条上,如内存产生损坏,过热或者不稳定等情况,也有可能是由于处理器故障而产生的,但是最常见的故障是由内存条和链路接触不良,内存链路断开导致的。但是,人们通常会误解为是内存条的问题。
[0004]目前,维修人员一般采用排除法判断系统是否存在链路故障。为了判断链路故障,先猜测是链路存在灰尘等,致使内存读写异常,清理插槽后重新安装内存条。如果重新安装内存条之后仍然存在内存读写异常的情况,就进行内存交叉验证,看故障问题是否随内存条移动。若更换内存条后,故障消失就更换一个新的内存条,若故障没有消失,就说明内存插槽出现了链路故障,更换主板。排除法需要进行多次尝试才能够找到故障具体位置,无法直接判断故障所处位置,纠错效率低。

技术实现思路

[0005]本申请提供了一种内存链路故障检测的方法、装置及相关设备,用于解决内存读写异常后,故障排查成本高,需要进行多次检测,无法准确找到故障具体位置,纠错效率低的问题。
[0006]第一方面,提供了一种支持内存链路故障检测的方法,该方法包括以下步骤:当内存读写异常时,进行故障纠错,生成纠错信息,得到纠错信息之后,根据纠错信息和历史纠错信息进行诊断,确定故障类型。
[0007]纠错信息包括读写异常的第一内存颗粒的故障地址信息,故障错误的属性及时间,上述历史纠错信息包括历史读写异常的第二内存颗粒的故障地址信息,故障错误的属性及时间,历史纠错信息可以在纠错信息生成之前生成,也可以与纠错信息同时生成,并且第一内存颗粒与第二内存颗粒位于同一根内存条上。上述故障类型包括非内存链路故障和内存链路故障。在生成纠错信息后,将纠错信息存储在纠错信息寄存器中,当需要确定故障类型时,从寄存器中读取纠错信息和历史纠错信息。
[0008]实施第一方面描述的方法,可以在内存出现读写异常后,处理器执行故障纠错生
成纠错信息,再根据纠错信息进行故障定位诊断,得到本次内存读写异常的故障类型,故障类型包括链路故障和非链路故障,使得维系人员可以避免多次故障检测,减少纠错成本,提高纠错效率,直接判断得到准确的故障类型,提高修理效率。
[0009]在第一方面一种可能的实现方式中,第一内存颗粒的故障地址信息包括第一内存颗粒的颗粒编号和内存排编号,第二内存颗粒的故障地址信息包括所述第二内存颗粒的颗粒编号和内存排编号,第一内存颗粒和第二内存颗粒位于同一根内存条上。根据第一内存颗粒的颗粒编号与所述第二内存颗粒的颗粒编号进行诊断,在两个颗粒编号相同的情况下,确定上述第一内存颗粒的内存排编号和第二内存颗粒的内存排编号是否相同,在两个内存排编号不同的情况下,处理器确定故障类型为内存链路故障。
[0010]进一步地,在第一内存颗粒的颗粒编号与第二内存颗粒的颗粒编号不同的情况下,或者,在第一内存颗粒的内存排编号和第二内存颗粒的内存排编号相同的情况下,确定故障类型为非内存链路故障。
[0011]可选地,在存在次级内存排的情况下,确定第一内存颗粒的内存排编号和第二内存颗粒的内存排编号不同,或者,第一内存颗粒的次级内存排编号与第二内存颗粒的次级内存编号不同,则确定故障类型为内存链路故障。
[0012]实施上述实现方式,当处理器读写内存信息过程中传输链路存在故障,不同的颗粒受到影响,数据无法返回至处理器。链路故障影响到的颗粒都是位于同一通道中,不同内存排上,并且存在颗粒编号相同的内存排一一对应。因此当故障地址信息显示发生故障的两个颗粒是编号相同且在不同内存排上的两个颗粒,那么可判定本次内存读写异常的故障类型为链路故障。使得维系人员可以避免多次故障检测,减少纠错成本,提高纠错效率,直接判断得到准确的故障类型,提高修理效率。
[0013]在第一方面一种可能的实现方式中,故障错误属性包括可纠正错误CE或不可纠正错误 UCE,确定两个故障错误属性是否相同,在第一内存颗粒的故障错误的属性和第二内存颗粒的故障错误的属性相同的情况下,继续确定第一内存颗粒的颗粒编号与所述第二内存颗粒的颗粒编号是否相同。
[0014]实施上述实现方式,结合故障错误的属性进行故障类型的判定,可以提高故障类型判定时的准确率。应理解,第一内存颗粒的故障错误属性和第二内存颗粒的故障错误属性都是处理器使用纠错算法生成的,若两次故障的属性相同则表示其发生同类故障的可能性较大,因此对同类故障进行上述颗粒编号和内存排编号的判定,可以进一步提高故障类型判断的准确性,提高纠错效率。
[0015]在第一方面一种可能的实现方式中,纠错信息还包括第一内存颗粒的故障时间,历史纠错信息还包括第二内存颗粒的故障时间,在确定第一内存颗粒的故障时间和第二内存颗粒的故障时间的间隔不大于阈值的情况下,继续确定第一内存颗粒的颗粒编号与第二内存颗粒的颗粒编号是否相同。
[0016]实施上述实现方式,结合故障发生的时间进行故障类型的判定,可以进一步提高故障类型判定的准确率。应理解,若某链路发生故障,那么通过该链路进行信号和数据传输的内存颗粒会频繁出现读写失败,所以对于频繁出现读写失败的内存颗粒进行上述颗粒编号和内存排编号的判定,可以进一步提高故障类型判断的准确性,提高纠错效率。
[0017]在第一方面一种可能的实现方式中,可以根据纠错信息和历史纠错信息进行诊
断,确定故障类型,也可以结合机器学习的方法进行故障诊断。
[0018]具体地,机器学习方法步骤如下,使用样本集对故障诊断模型进行训练,获得训练好的故障诊断模型,该样本集中可包括样本输入数据以及对应的样本真实值,其中,样本输入数据包括已知纠错信息,样本真实值包括该已知纠错信息对应的已知故障类型。使用该样本集对故障诊断模型进行训练时,可以将样本输入数据输入该故障诊断模型,将模型的输出值与样本的真实值之间的均方差作为损失(loss),根据loss对上述故障诊断模型的参数进行调制直至收敛,从而获得训练好的故障诊断模型。
[0019]实施上述实现方式,结合机器学习的方法进行故障诊断,训练好的神经网络模型可以对更多情况进行故障诊断的预测,提高本申请提供的方案的普适性。
[0020]第二方面,提供了一种支持内存链路故障检测的计算设备。该计算设备本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内存链路故障检测方法,其特征在于,包括:处理器根据内存读写异常信息进行故障纠错,生成纠错信息,所述纠错信息包括读写异常的第一内存颗粒的故障地址信息;所述处理器根据所述纠错信息和历史纠错信息确定故障类型,其中,所述故障类型包括非内存链路故障和内存链路故障,所述历史纠错信息包括历史读写异常的第二内存颗粒的故障地址信息。2.根据权利要求1所述的方法,其特征在于,所述第一内存颗粒的故障地址信息包括所述第一内存颗粒的颗粒编号和内存排编号,所述第二内存颗粒的故障地址信息包括所述第二内存颗粒的颗粒编号和内存排编号,所述第一内存颗粒和所述第二内存颗粒位于同一根内存条上,所述处理器根据所述纠错信息和历史纠错信息确定故障类型包括:所述处理器确定所述第一内存颗粒的颗粒编号与所述第二内存颗粒的颗粒编号是否相同;在所述第一内存颗粒的颗粒编号与所述第二内存颗粒的颗粒编号相同的情况下,确定所述第一内存颗粒的内存排编号和第二内存颗粒的内存排编号是否相同;在所述第一内存颗粒的内存排编号和第二内存颗粒的内存排编号不同的情况下,所述处理器确定所述故障类型为内存链路故障。3.根据权利要求2所述的方法,其特征在于,所述处理器根据所述纠错信息和历史纠错信息确定故障类型包括:在所述第一内存颗粒的颗粒编号与所述第二内存颗粒的颗粒编号不同,或者,所述第一内存颗粒的内存排编号和第二内存颗粒的内存排编号相同的情况下,所述处理器确定所述故障类型为非内存链路故障。4.根据权利要求2或3所述的方法,其特征在于,所述纠错信息还包括第一内存颗粒的故障错误的属性,所述历史纠错信息还包括第二内存颗粒的故障错误的属性,其中,所述故障错误的属性包括可纠正错误CE或不可纠正错误UCE;所述确定所述第一内存颗粒的颗粒编号与所述第二内存颗粒的颗粒编号是否相同包括:确定所述第一内存颗粒的故障错误的属性和所述第二内存颗粒的故障错误的属性是否相同;在所述第一内存颗粒的故障错误的属性和所述第二内存颗粒的故障错误的属性相同的情况下,确定所述第一内存颗粒的颗粒编号与所述第二内存颗粒的颗粒编号是否相同。5.根据权利要求2至4任一权利要求所述的方法,其特征在于,所述纠错信息还包括第一内存颗粒的故障时间,所述历史纠错信息还包括第二内存颗粒的故障时间,所述确定所述第一内存颗粒的颗粒编号与所述第二内存颗粒的颗粒编号是否相同包括:在所述第一内存颗粒的故障时间和所述第二内存颗粒的故障时间不大于阈值的情况下,确定所述第一内存颗粒的颗粒编号与所述第二内存颗粒的颗粒编号是否相同。6.根据权利要求2至5任一权利要求所述的方法,其特征在于,所述在所述第一内存颗粒的内存排编号和第二内存颗粒的内存排编号不同的情况下,所述处理器确定所述故障类型为内存链路故障包括:在所述第一内存颗粒的内存排编号和所述第二内存颗粒的内存排编号不同,或者,所
述第一内存颗粒的次级内存排编号与所述第二内存颗粒的次级内存排编号不同的情况下,确定所述故障类型为内存链路故障。7.根据权利要求1至6任一权利要求所述的方法,其特征在于,所述处理器根据所述纠错信息和历史纠错信息确定故障类型包括:所述处理器将所述纠错信息和历史纠错信息输入故障诊断模型,获得故障类型,其中,所述故障诊断模型是使用样本集对神经网络进行训练...

【专利技术属性】
技术研发人员:鲍全洋董伟张文桂
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1