内存故障的检测方法、装置和服务器制造方法及图纸

技术编号:20332155 阅读:35 留言:0更新日期:2019-02-13 07:43
本申请提供了一种内存故障的检测方法、装置和服务器。该方法包括:接收服务器的第一漏斗计数器的计数值达到第一阈值时发送的第一中断信号;关闭第一漏斗计数器的中断开关;在关闭第一漏斗计数器的中断开关的时间达到预设时间后,对第一漏斗计数器的计数值清零后,开启第一漏斗计数器的中断开关;接收第二漏斗计数器的计数值达到第二阈值时发送的第二中断信号,第二漏斗计数器用于对第二漏斗计数器对应的第二RANK中发生的可纠正错误进行计数;在第二漏斗计数器与第一漏斗计数器为同一漏斗计数器,且第二RANK和第一RANK也为同一RANK的情况下,确定第一RANK发生硬件故障。本申请能更准确地确定发生硬件故障的内存。

【技术实现步骤摘要】
【国外来华专利技术】内存故障的检测方法、装置和服务器
本申请涉及服务器
,并且更具体地,涉及一种内存故障的检测方法、装置和服务器。
技术介绍
随着服务器技术的发展,服务器中配置的内存的容量越来越大,内存的运行速度越来越高。在服务器运行过程中,大量高速运行的内存成为服务器中最影响系统稳定性的故障高发地带,如果服务器的内存出现硬件故障,则无法保证服务器持续的正常运行。目前,识别服务器的内存故障的现有方案是在服务器中配置漏斗计数器,利用漏斗计数器对服务器中的内存发生的可纠正错误进行计数,当漏斗计数器的计数值达到一定的阈值后触发中断并发出内存故障预告警。然而,某些内存故障的类型并非硬件故障,而为软故障(例如,宇宙射线导致的比特翻转)或者瞬时故障(例如,数据线的串扰),这些非硬件故障发生时,也会产生可纠正错误。现有方案中利用漏斗计数器进行内存故障预告警的方式无法识别是由硬件故障还是非硬件故障导致的可纠正错误,从而无法准确识别内存是否发生了硬件故障,从而影响其他的以准确识别硬件故障为前提的操作的效率,例如故障维修或导致故障误告警等。
技术实现思路
本申请提供一种内存故障的检测方法、装置和服务器,以更准确地确定出发生硬件故障的内存。第一方面,提供了一种内存故障的检测方法,该方法包括:接收服务器的第一漏斗计数器的计数值达到第一阈值时发送的第一中断信号,其中,所述第一漏斗计数器用于对所述第一漏斗计数器对应的第一RANK中发生的可纠正错误进行计数;关闭所述第一漏斗计数器的中断开关;在关闭所述第一漏斗计数器的中断开关的时间达到预设时间后,对所述第一漏斗计数器的计数值清零后,开启所述第一漏斗计数器的中断开关;接收第二漏斗计数器的计数值达到所述第二阈值时发送的第二中断信号,所述第二漏斗计数器用于对所述第二漏斗计数器对应的第二RANK中发生的可纠正错误进行计数;在所述第二漏斗计数器与所述第一漏斗计数器为同一漏斗计数器,且所述第二RANK和所述第一RANK也为同一RANK的情况下,确定所述第一RANK发生硬件故障。本申请中,通过复判(两次接收中断信号)与间隔时间(第一次接收到中断信号之后将漏斗计数器的中断开关关闭)能够更准确地确定发生硬件故障的内存,具体地,在第一次接收到漏斗计数器的中断信号之后并不是直接确定该漏斗计数器对应的RANK发生了硬件故障,而是将该漏斗计数器的中断开关关闭一段时,并对计数值清零,然后再开启,如果再次接收到该漏斗计数器的中断信号,那么就确定该漏斗计数器对应的RANK发生了硬件故障。结合第一方面,在第一方面的某些实现方式中,在所述第二漏斗计数器与所述第一漏斗计数器为同一漏斗计数器,且所述第二RANK和所述第一RANK也为同一RANK的情况下,所述方法还包括:在接收到所述第一中断信号的情况下,记录所述第一RANK中发生可纠正错误的内存颗粒;在接收到所述第二中断信号的情况下,记录所述第一RANK中发生可纠正错误的内存颗粒;确定所述第一RANK中发生可纠正错误的内存颗粒的记录次数;在所述第一RANK中的第一内存颗粒的记录次数达到预定次数时,确定所述第一内存颗粒发生硬件故障。通过比较内存颗粒的记录次数与预定次数的关系,能够进一步的确定硬件故障发生的具体层级(是某个内存颗粒还是整个RANK),便于针对性的进行故障处理。结合第一方面,在第一方面的某些实现方式中,在所述第二漏斗计数器与所述第一漏斗计数器为同一漏斗计数器,且所述第二RANK和所述第一RANK也为同一RANK的情况下,所述方法还包括:在接收到所述第一中断信号的情况下,记录所述第一RANK;在接收到所述第二中断信号的情况下,记录所述第一RANK;确定所述第一RANK的记录次数;所述确定所述第一RANK发生硬件故障,包括:在所述第一RANK的记录次数达到预定次数的情况下,确定所述第一RANK发生硬件故障。通过比较RANK的记录次数与预定次数的关系,能够进一步确定某个RANK是否真正发生了硬件故障,便于更加准确地确定发生故障的内存。结合第一方面,在第一方面的某些实现方式中,在所述第二漏斗计数器与所述第一漏斗计数器为同一漏斗计数器,且所述第二RANK和所述第一RANK也为同一RANK的情况下,所述方法还包括:在接收到所述第一中断信号的情况下,记录第一内存条,其中,所述第一内存条包括所述第一RANK;在接收到所述第二中断信号的情况下,记录所述第一内存条;确定所述第一内存条的记录次数;在所述第一内存条的记录次数达到预定次数的情况下,确定所述第一内存条发生硬件故障。通过比较内存条的记录次数与预定次数的关系,能够确定某个内存条是否真正发生了硬件故障,能够更加准确地确定发生故障的内存。结合第一方面,在第一方面的某些实现方式中,所述第一漏斗计数器与所述第二漏斗计数器为不同漏斗计数器,所述方法还包括:在接收到所述第一中断信号的情况下,记录第一内存条,其中,所述第一内存条包括所述第一RANK和所述第二RANK;在接收到所述第二中断信号的情况下,记录所述第一内存条;确定所述第一内存条的记录次数;在所述第一内存条的记录次数达到预定次数的情况下,确定所述第一内存条发生硬件故障。当第一漏斗计数器和第二漏斗计数器为不同的漏斗计数器时,也可以通过比较内存条的记录次数与预定次数的关系,能够确定某个内存条是否真正发生了硬件故障,能够更加准确地确定发生故障的内存。结合第一方面,在第一方面的某些实现方式中,在确定所述第一内存颗粒发生硬件故障的情况下,所述方法还包括:对所述第一RANK中的所述内存颗粒进行在线替换。当第一内存颗粒出现硬件故障时,通过在线替换将发生硬件故障的第一内存颗粒替换掉,从而避免服务器由于第一RANK中的内存颗粒发生硬件故障而不能正常运行。结合第一方面,在第一方面的某些实现方式中,在对所述第一内存颗粒进行在线替换之前,所述方法还包括:确定所述第一RANK中存在冗余内存颗粒;所述对所述第一内存颗粒进行在线替换,包括:通过所述冗余内存颗粒对所述第一内存颗粒进行在线替换。结合第一方面,在第一方面的某些实现方式中,在确定所述第一RANK发生硬件故障的情况下,所述方法还包括:对所述第一RANK进行在线替换。当第一RANK出现硬件故障时,通过在线替换将发生硬件故障的第一RANK替换掉,从而保证服务器的正常运行。结合第一方面,在第一方面的某些实现方式中,在对所述第一RANK进行在线替换之前,所述方法还包括:确定所述第一RANK所在的内存条中存在冗余RANK;所述对所述第一RANK进行在线替换,包括:通过所述冗余RANK对所述第一RANK进行在线替换。结合第一方面,在第一方面的某些实现方式中,所述方法还包括:将所述第一漏斗计数器的计数值清零。通过将第一漏斗计数器的计数值清零,使得漏斗计数器重新开始对可纠正错误进行计数,从而继续进行内存故障的诊断。结合第一方面,在第一方面的某些实现方式中,在确定所述第一内存条发生硬件故障的情况下,所述方法还包括:发出故障告警,所述故障告警用于指示所述第一内存条发生硬件故障。通过故障告警能够提示技术人员对出现硬件故障的内存条进行替换或者其它处理,从而保证服务器的正常运行。结合第一方面,在第一方面的某些实现方式中,所述第一漏斗计数器或者第二漏斗计数器的漏斗频率是根据服务器中的内本文档来自技高网...

【技术保护点】
1.一种内存故障的检测方法,其特征在于,包括:接收服务器的第一漏斗计数器的计数值达到第一阈值时发送的第一中断信号,其中,所述第一漏斗计数器用于对所述第一漏斗计数器对应的第一内存模组RANK中发生的可纠正错误进行计数;关闭所述第一漏斗计数器的中断开关;在关闭所述第一漏斗计数器的中断开关的时间达到预设时间,对所述第一漏斗计数器的计数值清零后,开启所述第一漏斗计数器的中断开关;接收第二漏斗计数器的计数值达到所述第二阈值时发送的第二中断信号,所述第二漏斗计数器用于对所述第二漏斗计数器对应的第二RANK中发生的可纠正错误进行计数;在所述第二漏斗计数器与所述第一漏斗计数器为同一漏斗计数器,且所述第二RANK和所述第一RANK也为同一RANK的情况下,确定所述第一RANK发生硬件故障。

【技术特征摘要】
【国外来华专利技术】1.一种内存故障的检测方法,其特征在于,包括:接收服务器的第一漏斗计数器的计数值达到第一阈值时发送的第一中断信号,其中,所述第一漏斗计数器用于对所述第一漏斗计数器对应的第一内存模组RANK中发生的可纠正错误进行计数;关闭所述第一漏斗计数器的中断开关;在关闭所述第一漏斗计数器的中断开关的时间达到预设时间,对所述第一漏斗计数器的计数值清零后,开启所述第一漏斗计数器的中断开关;接收第二漏斗计数器的计数值达到所述第二阈值时发送的第二中断信号,所述第二漏斗计数器用于对所述第二漏斗计数器对应的第二RANK中发生的可纠正错误进行计数;在所述第二漏斗计数器与所述第一漏斗计数器为同一漏斗计数器,且所述第二RANK和所述第一RANK也为同一RANK的情况下,确定所述第一RANK发生硬件故障。2.如权利要求1所述的方法,其特征在于,在所述第二漏斗计数器与所述第一漏斗计数器为同一漏斗计数器,且所述第二RANK和所述第一RANK也为同一RANK的情况下,所述方法还包括:在接收到所述第一中断信号的情况下,记录所述第一RANK中发生可纠正错误的内存颗粒;在接收到所述第二中断信号的情况下,记录所述第一RANK中发生可纠正错误的内存颗粒;确定所述第一RANK中发生可纠正错误的内存颗粒的记录次数;在所述第一RANK中的第一内存颗粒的记录次数达到预定次数时,确定所述第一内存颗粒发生硬件故障。3.如权利要求1或2所述的方法,其特征在于,在所述第二漏斗计数器与所述第一漏斗计数器为同一漏斗计数器,且所述第二RANK和所述第一RANK也为同一RANK的情况下,所述方法还包括:在接收到所述第一中断信号的情况下,记录所述第一RANK;在接收到所述第二中断信号的情况下,记录所述第一RANK;确定所述第一RANK的记录次数;所述确定所述第一RANK发生硬件故障,包括:在所述第一RANK的记录次数达到预定次数的情况下,确定所述第一RANK发生硬件故障。4.如权利要求1-3中任一项所述的方法,其特征在于,在所述第二漏斗计数器与所述第一漏斗计数器为同一漏斗计数器,且所述第二RANK和所述第一RANK也为同一RANK的情况下,所述方法还包括:在接收到所述第一中断信号的情况下,记录第一内存条,其中,所述第一内存条包括所述第一RANK;在接收到所述第二中断信号的情况下,记录所述第一内存条;确定所述第一内存条的记录次数;在所述第一内存条的记录次数达到预定次数的情况下,确定所述第一内存条发生硬件故障。5.如权利要求1所述的方法,其特征在于,所述第一漏斗计数器与所述第二漏斗计数器为不同漏斗计数器,所述方法还包括:在接收到所述第一中断信号的情况下,记录第一内存条,其中,所述第一内存条包括所述第一RANK和所述第二RANK;在接收到所述第二中断信号的情况下,记录所述第一内存条;确定所述第一内存条的记录次数;在所述第一内存条的记录次数达到预定次数的情况下,确定所述第一内存条发生硬件故障。6.如权利要求2所述的方法,其特征在于,在确定所述第一内存颗粒发生硬件故障的情况下,所述方法还包括:对所述第一内存颗粒进行在线替换。7.如权利要求6所述的方法,其特征在于,在对所述第一内存颗粒进行在线替换之前,所述方法还包括:确定所述第一RANK中存在冗余内存颗粒;所述对所述第一内存颗粒进行在线替换,包括:通过所述冗余内存颗粒对所述第一内存颗粒进行在线替换。8.如权利要求1或3所述的方法,其特征在于,在确定所述第一RANK发生硬件故障的情况下,所述方法还包括:对所述第一RANK进行在线替换。9.如权利要求8所述的方法,其特征在于,在对所述第一RANK进行在线替换之前,所述方法还包括:确定所述第一RANK所在的内存条中存在冗余RANK;所述对所述第一RANK进行在线替换,包括:通过所述冗余RANK对所述第一RANK进行在线替换。10.如权利要求6-9中任一项所述的方法,其特征在于,所述方法还包括:将所述第一漏斗计数器的计数值清零。11.如权利要求4或5所述的方法,其特征在于,在确定所述第一内存条发生硬件故障的情况下,所述方法还包括:发出故障告警,所述故障告警用于指示所述第一内存条发生硬件故障。12.一种内存故障的检测装置,其特征在于,包括:接收单元,用于接收服务器的第一漏斗计数器的计数值达到第一阈值时发送的第一中断信号,其中,所...

【专利技术属性】
技术研发人员:宋刚丁成果张飞
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1