故障内存条的处理方法及装置、电子设备及存储介质制造方法及图纸

技术编号:38320851 阅读:9 留言:0更新日期:2023-07-29 09:02
本申请实施例提供了一种故障内存条的处理方法及装置、电子设备及存储介质,属于计算机技术领域,其中,该故障内存条的处理方法包括:获取第一下电命令,其中,第一下电命令用于指示内存资源池的基板管理控制器对内存资源池中的故障内存条进行下电处理;响应于第一下电命令,在内存资源池中的第一内存条处于故障状态、且第一内存条允许下电的情况下,向第一内存条所属的目标内存扩展控制器发送第二下电命令,其中,第二下电命令用于指示目标内存扩展控制器对第一内存条进行下电处理。通过本申请,解决了相关技术中的故障内存条的处理方法存在由于对内存资源池进行整机下电导致的资源浪费的问题。资源浪费的问题。资源浪费的问题。

【技术实现步骤摘要】
故障内存条的处理方法及装置、电子设备及存储介质


[0001]本申请实施例涉及计算机
,具体而言,涉及一种故障内存条的处理方法及装置、电子设备及存储介质。

技术介绍

[0002]人工智能和机器学习、高性能计算、云和边缘计算环境边缘计算场景复杂多样,为满足所有的场景需求,需要庞大且昂贵的资源组合。为了满足越来越大的资源需求,需要在传统服务器硬件架构的基础上重新规划服务器资源管理架构,以在传统服务器架构的基础上进行优化和重构。对此,可以采用服务器资源池化的硬件重组架构方案,该服务器资源池化主要包括:CPU(Central Processing Unit Processor,中央处理器)计算资源池,内存池,存储池,I/O(input/output,输入输出端口)池。
[0003]在服务器资源池中,内存资源池为其中不可或缺的一部分。在池化内存环境下,故障内存的识别和定位以及故障后的应急处置是内存资源维护的要点。相关技术中,在内存资源池中的内存条出现故障时,通常是在整机下电之后,对出现故障的内存条进行更换。
[0004]然而,对于上述故障内存条的处理方法,由于更换故障内存条需要对内存资源池进行整机下电,会影响所有使用内存资源池中的内存资源的Host(主机)端服务器,从而造成内存资源的浪费。由此可见,相关技术中的故障内存条的处理方法,存在由于对内存资源池进行整机下电导致的资源浪费的问题。

技术实现思路

[0005]本申请实施例提供了一种故障内存条的处理方法及装置、电子设备及存储介质,以至少解决相关技术中的故障内存条的处理方法存在由于对内存资源池进行整机下电导致的资源浪费的问题。
[0006]根据本申请的一个实施例,提供了一种故障内存条的处理方法,包括:获取第一下电命令,其中,所述第一下电命令用于指示内存资源池的基板管理控制器对所述内存资源池中的故障内存条进行下电处理;响应于所述第一下电命令,在所述内存资源池中的第一内存条处于故障状态、且所述第一内存条允许下电的情况下,向所述第一内存条所属的目标内存扩展控制器发送第二下电命令,其中,所述第二下电命令用于指示所述目标内存扩展控制器对所述第一内存条进行下电处理。
[0007]根据本申请的又一个实施例,提供了一种故障内存条的处理装置,包括:获取单元,用于获取第一下电命令,其中,所述第一下电命令用于指示内存资源池的基板管理控制器对所述内存资源池中的故障内存条进行下电处理;第一发送单元,用于响应于所述第一下电命令,在所述内存资源池中的第一内存条处于故障状态、且所述第一内存条允许下电的情况下,向所述第一内存条所属的目标内存扩展控制器发送第二下电命令,其中,所述第二下电命令用于指示所述目标内存扩展控制器对所述第一内存条进行下电处理。
[0008]根据本申请的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可
读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0009]根据本申请的又一个实施例,还提供了一种电子设备,包括基板管理控制器、至少一个内存扩展控制器、所述至少一个内存扩展控制器中的每个内存扩展控制器下属的至少一个内存条、存储器以及存储在所述基板管理控制器上并可在所述处理器上运行的计算机程序,其特征在于,所述基板管理控制器执行所述计算机程序被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
[0010]通过本申请实施例,采用单节点控制内存条进行下电并更换的方式,获取第一下电命令,其中,第一下电命令用于指示内存资源池的基板管理控制器对内存资源池中的故障内存条进行下电处理;响应于第一下电命令,在内存资源池中的第一内存条处于故障状态、且第一内存条允许下电的情况下,向第一内存条所属的目标内存扩展控制器发送第二下电命令,其中,第二下电命令用于指示目标内存扩展控制器对第一内存条进行下电处理,由于单节点控制故障内存条进行下电,通过内存资源池的基板管理控制器接收下电命令后,获取第一内存条的位置信息,再通过下发命令的方式下发给目标内存扩展控制器,再对该故障内存条进行下电处理,从而达到提高识别故障内存准确率的目的,实现了减轻运维人员操作压力的技术效果,解决了相关技术中的故障内存条的处理方法存在的由于对内存资源池进行整机下电导致的资源浪费的问题。
附图说明
[0011]图1是本申请实施例的一种故障内存条的处理的计算机终端的硬件结构框图;
[0012]图2是根据本申请实施例的一种故障内存条的处理方法的流程示意图;
[0013]图3是根据本申请实施例的一种可选的内存资源池的示意图;
[0014]图4是根据本申请实施例的一种可选的网络架构的示意图;
[0015]图5是根据本申请实施例的另一种可选的网络架构的示意图;
[0016]图6是根据本申请实施例的一种可选的故障内存条的处理方法的示意图;
[0017]图7是根据本申请实施例的另一种可选的故障内存条的处理方法的示意图;
[0018]图8是根据本申请实施例的一种故障内存条的处理装置的结构框图;
[0019]图9是根据本申请实施例的一种可选的电子设备的结构框图。
具体实施方式
[0020]下文中将参考附图并结合实施例来详细说明本申请的实施例。
[0021]需要说明的是,本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0022]本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本申请实施例的一种故障内存条的处理的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于基板管理控制器、微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1
所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
[0023]存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的故障内存条的处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0024]传输设备106用于经由一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障内存条的处理方法,其特征在于,包括:获取第一下电命令,其中,所述第一下电命令用于指示内存资源池的基板管理控制器对所述内存资源池中的故障内存条进行下电处理;响应于所述第一下电命令,在所述内存资源池中的第一内存条处于故障状态、且所述第一内存条允许下电的情况下,向所述第一内存条所属的目标内存扩展控制器发送第二下电命令,其中,所述第二下电命令用于指示所述目标内存扩展控制器对所述第一内存条进行下电处理。2.根据权利要求1所述的方法,其特征在于,所述获取第一下电命令,包括:接收控制设备发送的所述第一下电命令,其中,所述第一下电命令中携带有所述第一内存条的位置信息,所述第一内存条的位置信息用于指示所述第一内存条在所述内存资源池中所在的位置,所述第一下电命令用于指示所述内存资源池的基板管理控制器对所述第一内存条进行下电处理。3.根据权利要求2所述的方法,其特征在于,在所述获取第一下电命令之后,所述方法还包括:从所述第一下电命令中提取出所述第一内存条的位置信息,其中,所述第一内存条的位置信息包括第一位置信息和第二位置信息,所述第一位置信息用于指示所述目标内存扩展控制器在所述内存资源池的基板管理控制器所连接的多个内存扩展控制器中的位置,所述第二位置信息用于指示所述第一内存条在所述目标内存扩展控制器中的位置;根据所述第一位置信息和所述第二位置信息,确定出待下电的所述第一内存条。4.根据权利要求2所述的方法,其特征在于,所述获取第一下电命令之后,所述方法还包括:响应于所述第一下电命令,在所述第一内存条处于故障状态、但所述第一内存条不允许下电的情况下,向所述控制设备发送第一下电异常指示信息,其中,所述第一下电异常指示信息用于指示由于所述第一内存条不允许下电导致所述第一内存条下电失败;在所述第一内存条处于正常状态的情况下,向所述控制设备发送第二下电异常指示信息,其中,所述第二下电异常指示信息用于指示由于所述第一内存条处于正常状态导致所述第一内存条下电失败。5.根据权利要求1所述的方法,其特征在于,在所述获取第一下电命令之后,所述方法还包括:根据所述内存资源池的基板管理控制器所记录的内存条故障信息,确定所述内存资源池中处于故障状态的内存条,其中,所述内存条故障信息是在检测到所述处于故障状态的内存条的情况下所记录的、与所述处于故障状态的内存条对应的故障信息。6.根据权利要求1所述的方法,其特征在于,在所述获取第一下电命令之后,所述方法还包括:向所述目标内存扩展控制器发送状态验证命令,其中,所述状态验证命令用于指示所述目标内存扩展控制器验证所述第一内存条的故障状态;接收所述目标内存扩展控制器响应于所述状态验证命令发送的第一响应消息,其中,所述第一响应消息用于指示所述第一内存条是否处于故障状态。7.根据权利要求1所述的方法,其特征在于,在所述获取第一下电命令之后,所述方法
还包括:向与所述第一内存条对应的目标主机端服务器的基板管理控制器发送状态获取命令,其中,所述状态获取命令用于获取所述目标主机端服务器的开关机状态;接收所述目标主机端服务器的基板管理控制器响应于所述状态获取命令返回的第二响应消息,其中,所述第二响应消息用于指示所述目标主机端服务器的开关机状态;在根据所述第二响应消息确定所述目标主机端服务器的关机状态的情况下,确定所述第一内存条允许下电。8.根据权利要求7所述的方法,其特征在于,所述内存资源池的基板管理控制器和与所述内存资源池中的每个内存条对应的主机端服务器的基板管理控制器连接到同一网络交换机上。9.根据权利要求7所述的方法,其特征在于,所述内存资源池位于内存资源池服务器上,所述内存资源池服务器通过计算快速链接CXL交换服务器和与所述内存资源池中的每个内存条对应的主机端服务器的基板管理控制器进行连接,所述CXL交换服务器用于为与所述每个内存条对应的主机端服务器分配内存资源。10.根据权利要求9所述的方法,其特征在于,所述响应于所述第一下电命令,在所述内存资源池中的第一内存条处于故障状态、且所述第一内存条允许下电的情况下,向所述第一内存条所属的目标内存扩展控制器发送第二下电命令,包括:响应于所述第一下电命令,在所述内存资源池中的第一内存条处于故障状态、且所述第一内存条允许下电的情况下,向所述第一内存条所属的所述目标内存扩展控制器发送第二下电命令,并向与所述第一内存条位于同一内存组中的同组内存条所属的内存扩展控制器发送第三下电命令,其中,所述内存资源池中的内存条以内存组的方式被分配给主机端服务器,所述第三下电命令用于指示所述同组内存条所属的内存扩展控制器对所述同组内存条进行下电处理。11.根据权利要求1所述的方法,其特征在于,在对所述第一内存条进行下电处理之前,与所述第一内存条对应的目标主机端服务器处于关机状态;在所述向所述第一内存条所属的目标内存扩展控制器发送第二下电命令之后,所述方法还包括:接收第一上电命令,其中,所述第一上电命令用于指示对已完成替换的所述第一内存条进行上电处理;响应于所述第一上电命令,对所述第一内存条和所述目标主机端服务器进行协同上电处理。12.根据权利要求11所述的方法,其特征在于,所述响应于所述第一上电命令,对所述第一内存条和所述目标主机端服务器进行协同上电处理,包括:响...

【专利技术属性】
技术研发人员:马晓宇郭平王兴隆
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1