【技术实现步骤摘要】
故障内存条的处理方法及装置、电子设备及存储介质
[0001]本申请实施例涉及计算机
,具体而言,涉及一种故障内存条的处理方法及装置、电子设备及存储介质。
技术介绍
[0002]人工智能和机器学习、高性能计算、云和边缘计算环境边缘计算场景复杂多样,为满足所有的场景需求,需要庞大且昂贵的资源组合。为了满足越来越大的资源需求,需要在传统服务器硬件架构的基础上重新规划服务器资源管理架构,以在传统服务器架构的基础上进行优化和重构。对此,可以采用服务器资源池化的硬件重组架构方案,该服务器资源池化主要包括:CPU(Central Processing Unit Processor,中央处理器)计算资源池,内存池,存储池,I/O(input/output,输入输出端口)池。
[0003]在服务器资源池中,内存资源池为其中不可或缺的一部分。在池化内存环境下,故障内存的识别和定位以及故障后的应急处置是内存资源维护的要点。相关技术中,在内存资源池中的内存条出现故障时,通常是在整机下电之后,对出现故障的内存条进行更换。
[0004]然而,对于上述故障内存条的处理方法,由于更换故障内存条需要对内存资源池进行整机下电,会影响所有使用内存资源池中的内存资源的Host(主机)端服务器,从而造成内存资源的浪费。由此可见,相关技术中的故障内存条的处理方法,存在由于对内存资源池进行整机下电导致的资源浪费的问题。
技术实现思路
[0005]本申请实施例提供了一种故障内存条的处理方法及装置、电子设备及存储介质,以至少解决 ...
【技术保护点】
【技术特征摘要】
1.一种故障内存条的处理方法,其特征在于,包括:获取第一下电命令,其中,所述第一下电命令用于指示内存资源池的基板管理控制器对所述内存资源池中的故障内存条进行下电处理;响应于所述第一下电命令,在所述内存资源池中的第一内存条处于故障状态、且所述第一内存条允许下电的情况下,向所述第一内存条所属的目标内存扩展控制器发送第二下电命令,其中,所述第二下电命令用于指示所述目标内存扩展控制器对所述第一内存条进行下电处理。2.根据权利要求1所述的方法,其特征在于,所述获取第一下电命令,包括:接收控制设备发送的所述第一下电命令,其中,所述第一下电命令中携带有所述第一内存条的位置信息,所述第一内存条的位置信息用于指示所述第一内存条在所述内存资源池中所在的位置,所述第一下电命令用于指示所述内存资源池的基板管理控制器对所述第一内存条进行下电处理。3.根据权利要求2所述的方法,其特征在于,在所述获取第一下电命令之后,所述方法还包括:从所述第一下电命令中提取出所述第一内存条的位置信息,其中,所述第一内存条的位置信息包括第一位置信息和第二位置信息,所述第一位置信息用于指示所述目标内存扩展控制器在所述内存资源池的基板管理控制器所连接的多个内存扩展控制器中的位置,所述第二位置信息用于指示所述第一内存条在所述目标内存扩展控制器中的位置;根据所述第一位置信息和所述第二位置信息,确定出待下电的所述第一内存条。4.根据权利要求2所述的方法,其特征在于,所述获取第一下电命令之后,所述方法还包括:响应于所述第一下电命令,在所述第一内存条处于故障状态、但所述第一内存条不允许下电的情况下,向所述控制设备发送第一下电异常指示信息,其中,所述第一下电异常指示信息用于指示由于所述第一内存条不允许下电导致所述第一内存条下电失败;在所述第一内存条处于正常状态的情况下,向所述控制设备发送第二下电异常指示信息,其中,所述第二下电异常指示信息用于指示由于所述第一内存条处于正常状态导致所述第一内存条下电失败。5.根据权利要求1所述的方法,其特征在于,在所述获取第一下电命令之后,所述方法还包括:根据所述内存资源池的基板管理控制器所记录的内存条故障信息,确定所述内存资源池中处于故障状态的内存条,其中,所述内存条故障信息是在检测到所述处于故障状态的内存条的情况下所记录的、与所述处于故障状态的内存条对应的故障信息。6.根据权利要求1所述的方法,其特征在于,在所述获取第一下电命令之后,所述方法还包括:向所述目标内存扩展控制器发送状态验证命令,其中,所述状态验证命令用于指示所述目标内存扩展控制器验证所述第一内存条的故障状态;接收所述目标内存扩展控制器响应于所述状态验证命令发送的第一响应消息,其中,所述第一响应消息用于指示所述第一内存条是否处于故障状态。7.根据权利要求1所述的方法,其特征在于,在所述获取第一下电命令之后,所述方法
还包括:向与所述第一内存条对应的目标主机端服务器的基板管理控制器发送状态获取命令,其中,所述状态获取命令用于获取所述目标主机端服务器的开关机状态;接收所述目标主机端服务器的基板管理控制器响应于所述状态获取命令返回的第二响应消息,其中,所述第二响应消息用于指示所述目标主机端服务器的开关机状态;在根据所述第二响应消息确定所述目标主机端服务器的关机状态的情况下,确定所述第一内存条允许下电。8.根据权利要求7所述的方法,其特征在于,所述内存资源池的基板管理控制器和与所述内存资源池中的每个内存条对应的主机端服务器的基板管理控制器连接到同一网络交换机上。9.根据权利要求7所述的方法,其特征在于,所述内存资源池位于内存资源池服务器上,所述内存资源池服务器通过计算快速链接CXL交换服务器和与所述内存资源池中的每个内存条对应的主机端服务器的基板管理控制器进行连接,所述CXL交换服务器用于为与所述每个内存条对应的主机端服务器分配内存资源。10.根据权利要求9所述的方法,其特征在于,所述响应于所述第一下电命令,在所述内存资源池中的第一内存条处于故障状态、且所述第一内存条允许下电的情况下,向所述第一内存条所属的目标内存扩展控制器发送第二下电命令,包括:响应于所述第一下电命令,在所述内存资源池中的第一内存条处于故障状态、且所述第一内存条允许下电的情况下,向所述第一内存条所属的所述目标内存扩展控制器发送第二下电命令,并向与所述第一内存条位于同一内存组中的同组内存条所属的内存扩展控制器发送第三下电命令,其中,所述内存资源池中的内存条以内存组的方式被分配给主机端服务器,所述第三下电命令用于指示所述同组内存条所属的内存扩展控制器对所述同组内存条进行下电处理。11.根据权利要求1所述的方法,其特征在于,在对所述第一内存条进行下电处理之前,与所述第一内存条对应的目标主机端服务器处于关机状态;在所述向所述第一内存条所属的目标内存扩展控制器发送第二下电命令之后,所述方法还包括:接收第一上电命令,其中,所述第一上电命令用于指示对已完成替换的所述第一内存条进行上电处理;响应于所述第一上电命令,对所述第一内存条和所述目标主机端服务器进行协同上电处理。12.根据权利要求11所述的方法,其特征在于,所述响应于所述第一上电命令,对所述第一内存条和所述目标主机端服务器进行协同上电处理,包括:响...
【专利技术属性】
技术研发人员:马晓宇,郭平,王兴隆,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。