识别和隔离出现电源故障的DIMM的方法技术

技术编号:39142825 阅读:15 留言:0更新日期:2023-10-23 14:55
一种识别信息处理设备中出现电源故障的DIMM的方法。该方法包括以下步骤:确定在信息处理系统的多个组件中,出现电源故障的DIMM导致了电源故障;关闭所述信息处理设备,同时继续向所述多个组件提供待机电源;以及报告所述出现电源故障的DIMM的位置和故障类型。识别和隔离出现电源故障的DIMM的过程是完全自动的,不需要用户干预,因此它降低了信息处理设备的服务成本。服务成本。服务成本。

【技术实现步骤摘要】
识别和隔离出现电源故障的DIMM的方法


[0001]本专利技术涉及信息处理设备中的RAM(随机存取存储器),特别是识别出现电源故障的DIMM(双线内存模块)并将其与信息处理设备的其他部件隔离。

技术介绍

[0002]DDR5是DDR(双倍数据速率)内存的第五次和最新的迭代,它将在主流市场上接替DDR4,并提供更大的带宽、更多的容量和更好的电源效率。DDR5RDIMM(带寄存器的双列直插内存模块)和LRDIMM(低负载双列直插内存模块)模块支持VR(Voltage Regulator)

on

DIMM(VoD)电源架构,其中内存电源管理IC(PMIC)位于DIMM上,提供DDR5组件所需的电源轨(power rails)。
[0003]DDR5 PMIC芯片为DIMM进行电压控制,可以更有效地控制系统电源负载,提高电源转换效率。因此,PMIC提高了信号完整性和兼容性,甚至降低了主板设计的供电成本。作为电源管理IC,PMIC芯片具有寄存器,可以记录不同的电压故障和临界温度故障。
[0004]在传统的解决方案中,当服务器中的一个DDR5 DIMM出现PMIC故障时,它将触发平台级电源故障,然后整个服务器被关闭(shut down),其电源被阻断,以避免服务器主板的硬件被烧毁。另一方面,如果内存控制器的一个通道安装了两个DIMMs,将不可能确定这两个DIMM中的哪一个出现了故障,因为这两个DIMMs的PMIC相关硬件在主板设计上是绑定在一起的。为了找出出现电源故障的DIMM,用户必须拔掉服务器的电源线,然后再插上电源线重新启动系统,这时UEFI(统一可扩展固件接口)会检测到出现PMIC故障的DIMM,并找出故障类型。因此,当DDR5 DIMM出现PMIC故障时,传统的解决方案需要用户干预,并导致服务器长时间停运。另外,有些发生电源故障的DIMM在重插电源线上电,并尝试通过UEFI进行故障定位的时候,会发生DIMM上的电源短路,从而会导致DIMM的烧毁甚至会进一步导致服务器主板烧毁。

技术实现思路

[0005]因此,本专利技术在一个方面提供了一种识别信息处理设备中出现电源故障的DIMM的方法。该方法包括以下步骤:确定在信息处理系统的多个组件中,出现电源故障的DIMM导致了系统级别的电源故障;关闭所述信息处理设备,同时继续向所述多个组件提供待机电源;进一步定位到某一个实际发生电源故障的DIMM;以及报告所述出现电源故障的DIMM的位置和故障类型。
[0006]在一些实施例中,确定步骤是由不同于信息处理装置的CPU(中央处理单元)之外的信息处理装置中额外的第一协处理器执行。
[0007]在一些实施例中,上述第一协处理器是FPGA。
[0008]在一些实施例中,出现电源故障的DIMM的位置是由第一协处理器在确定步骤中获得的。
[0009]在一些实施例中,出现电源故障的DIMM的位置包括该DIMM相对于CPU的内存控制
器的通道和插槽信息。
[0010]在一些实施例中,报告步骤进一步包括以下步骤:由第一协处理器从出现电源故障的DIMM的管理IC读取出现电源故障的DIMM的故障类型;以及将出现电源故障的DIMM的位置和故障类型从第一协处理器传输到第二协处理器。
[0011]在一些实施例中,上述第二协处理器是基板管理控制器。
[0012]在一些实施例中,上述方法进一步包括由第二协处理器将出现电源故障的DIMM的位置和故障类型写入系统事件日志的步骤。
[0013]在一些实施例中,上述方法进一步包括在报告了出现电源故障的DIMM的位置和故障类型后,在信息处理设备的下一次重启中隔离出现电源故障的DIMM的步骤。
[0014]在一些实施例中,在信息处理设备的下一次重启中隔离出现电源故障的DIMM的步骤,进一步包括通过第二协处理器向信息处理设备的固件接口发送出现故障的DIMM的禁用配置;以及在下一次重启中根据DIMM禁用配置通过固件接口禁用出现电源故障的DIMM。
[0015]在一些实施例中,出现电源故障的DIMM是DDR5 DIMM。
[0016]根据本专利技术的另一个方面,提供了一种信息处理装置,该装置包括一个或多个处理器、一个存储器;以及一个或多个程序。该一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,该一个或多个程序包括指令以执行以下方法:确定在信息处理系统的多个组件中,出现电源故障的DIMM导致了系统级别的电源故障;关闭所述信息处理设备,同时继续向所述多个组件提供待机电源;进一步定位到某一个实际发生电源故障的DIMM;以及报告所述出现电源故障的DIMM的位置和故障类型。
[0017]在一些实施例中,上述一个或多个处理器包括CPU、第一协处理器和第二协处理器。上述一个或多个程序存储在存储器中并被配置为由第一协处理器协同第二协处理器和CPU一起执行。
[0018]在一些实施例中,第一协处理器是FPGA,而第二协处理器是BMC。
[0019]在一些实施例中,第一协处理器通过SMBus(系统管理总线)连接到出现电源故障的DIMM。
[0020]在本专利技术的另一个方面,提供了一种程序产品,包括计算机可读存储介质和程序代码,该程序代码被配置为可由处理器执行,以执行包括以下操作:确定在信息处理系统的多个组件中,出现电源故障的DIMM导致了系统级别的电源故障;关闭信息处理设备,同时继续向多个组件供电;进一步定位到某一个实际发生电源故障的DIMM;以及报告出现电源故障的DIMM的位置和故障类型。
[0021]因此,本专利技术的实施例提供了快速识别出现电源故障的DIMM的方法,例如具有PMIC故障的DDR5 DIMM。一旦识别了出现电源故障的DIMM,客户就可以尽快进行更换。此外,在一些实施例中,如果客户不更换出现电源故障的DIMM,则UEFI将自动禁用故障的DIMM,并继续使用剩余的良好DIMM启动系统。识别和隔离出现电源故障的DIMM的过程是完全自动的,不需要用户干预,因此它减少了信息处理设备的宕机时间和售后服务成本。
附图说明
[0022]本专利技术的上述和进一步的特征将从以下对优选实施例的描述中显而易见,这些实施例仅以举例的方式结合附图进行描述,其中:
[0023]图1展示了一个典型的DDR5 DIMM的外观。
[0024]图2是一幅方框图,显示了根据本专利技术的第一个实施例的具有识别和隔离出现电源故障的DIMM的能力的信息处理装置。
[0025]图3是一幅流程图,显示了在图2的信息处理装置中识别和隔离出现故障的一个或多个DIMM的步骤。
[0026]图4是一幅流程图,显示了根据本专利技术的另一个实施例的在信息处理设备中识别和隔离出现故障的一个或多个DIMM的步骤。
具体实施方式
[0027]本专利技术可以是系统、方法和/或计算机程序产品。该计算机程序产品可以包括计算机可读存储介质(或媒介),其上有计算机可读程序指令,用于使处理器执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别信息处理设备中出现电源故障的DIMM的方法,包括以下步骤:确定在信息处理系统的多个组件中,出现电源故障的DIMM导致了系统级别的电源故障;关闭所述信息处理设备,同时继续向所述多个组件提供待机电源;进一步定位到某一个实际发生电源故障的DIMM;以及报告所述出现电源故障的DIMM的位置和故障类型。2.根据权利要求1所述的方法,其中所述确定步骤是由不同于所述信息处理装置的CPU之外的信息处理装置中额外的第一协处理器执行的。3.根据权利要求2所述的方法,其中所述第一协处理器是FPGA。4.根据权利要求2所述的方法,其中所述出现电源故障的DIMM的位置由所述第一协处理器在所述确定步骤中获得。5.根据权利要求1

4中任一项所述的方法,其中所述位置包括所述出现电源故障的DIMM相对于CPU的内存控制器的通道和插槽信息。6.根据权利要求4所述的方法,其中所述报告步骤进一步包括:由所述第一协处理器从所述出现电源故障的DIMM的管理IC中读取所述出现电源故障的DIMM的所述故障类型;和将所述出现电源故障的DIMM的所述位置和所述故障类型从所述第一协处理器传输到第二协处理器。7.根据权利要求6所述的方法,其中所述第二协处理器是基板管理控制器。8.根据权利要求6所述的方法,还包括以下步骤:由所述第二协处理器将所述出现电源故障的DIMM的所述位置和所述故障类型写入系统事件日志。9.根据权利要求1所述的方法,还包括在所述报...

【专利技术属性】
技术研发人员:刘志君克里夫顿E
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1