故障处理方法、装置及服务器制造方法及图纸

技术编号:24888446 阅读:55 留言:0更新日期:2020-07-14 18:15
本申请提供一种故障处理方法、装置及服务器,该方法包括:基板管理控制器BMC接收第一故障信息,根据第一故障信息确定故障会干扰到服务器正常运行时,BMC主动获取出现故障的目标PCIe设备对应的第二故障信息,该第二故障信息包括目标PCIe设备内部以及与目标PCIe设备连接的模块的故障信息,然后BMC根据第一故障信息和第二故障信息定位目标PCIe设备所在的服务器的故障。BMC根据初步获取的故障信息确定故障会干扰到服务器正常运行时,BMC可以进一步收集目标PCIe设备的故障信息,对故障信息的收集更加全面,故障定位更加精确,并在主机处于宕机状态时,可以通过带外BMC采集故障信息并对故障进行准确定位。

【技术实现步骤摘要】
故障处理方法、装置及服务器
本申请涉及计算机
,尤其涉及一种故障处理方法、装置及服务器。
技术介绍
在人工智能(artificialintelligence,AI)领域的AI计算中,服务器对算力的需求不断增加,同时对服务器的可靠性、可用性及可服务性(reliabilityavailabilityandserviceability,RAS)的要求也越来越高。为了提供足够的算力,集成多个AI芯片(例如图像处理单元(graphicsprocessingunit,GPU)、神经处理单元(neuralprocessingunit,NPU)以及张量处理单元(tensorprocessingunit,TPU)等)的服务器应运而生。通过多个AI芯片互联形成多P系统,为AI计算提供更强的算力。在包括多个AI芯片的服务器中,从主机管理系统来看,AI芯片是快捷外围部件互连标准(peripheralcomponentinterconnectexpress,PCIe)设备,当AI芯片出现故障时,主机管理系统对AI芯片的故障定位依赖于高级错误报告(advan本文档来自技高网...

【技术保护点】
1.一种故障处理方法,其特征在于,所述方法包括:/n接收第一故障信息,所述第一故障信息指示目标快捷外围部件互连标准PCIe设备发生故障;/n根据所述第一故障信息确定所述目标PCIe设备的故障类型;/n在所述故障类型为预设故障类型的情况下,获取所述目标PCIe设备对应的故障寄存器中的第二故障信息;/n根据所述第一故障信息和所述第二故障信息定位包含所述目标PCIe设备的服务器的故障。/n

【技术特征摘要】
1.一种故障处理方法,其特征在于,所述方法包括:
接收第一故障信息,所述第一故障信息指示目标快捷外围部件互连标准PCIe设备发生故障;
根据所述第一故障信息确定所述目标PCIe设备的故障类型;
在所述故障类型为预设故障类型的情况下,获取所述目标PCIe设备对应的故障寄存器中的第二故障信息;
根据所述第一故障信息和所述第二故障信息定位包含所述目标PCIe设备的服务器的故障。


2.根据权利要求1所述的方法,其特征在于,所述目标PCIe设备为所述服务器内的人工智能AI芯片,所述服务器包括一个或者多个所述AI芯片。


3.根据权利要求1或2所述的方法,其特征在于,所述获取所述目标PCIe设备对应的故障寄存器中的第二故障信息,包括:
生成第一指令,所述第一指令指示接收到所述第一指令的目标管理模块获取所述目标PCIe设备对应的故障寄存器中的所述第二故障信息;
将所述第一指令发送给所述目标管理模块;
接收所述目标管理模块发送的所述第二故障信息。


4.根据权利要求1至3任一项所述的方法,其特征在于,所述预设故障类型包括可校正错误风暴、非致命性不可校正错误风暴以及致命性不可校正错误中的任意一种或者多种。


5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
接收通知消息,所述通知消息指示所述服务器出现宕机;
生成第二指令,所述第二指令指示接收到的所述第二指令的管理模块获取各自对应的故障寄存器中的故障信息,其中,所述服务器包括至少一个PCIe设备和至少一个处理器,每个PCIe设备和每个处理器均对应有管理模块和故障寄存器;
将所述第二指令发送给所述服务器内每个PCIe设备对应的管理模块和每个处理器对应的管理模块;
接收所述每个PCIe设备对应的管理模块发送的故障信息和所述每个处理器对应的管理模块发送的故障信息;
根据所述每个PCIe设备对应的管理模块发送的故障信息和所述每个处理器对应的管理模块发送的故障信息,定位所述服务器的故障。


6.一种服务器,其特征在于,所述服务器包括:处理器、基本输入输出系统BIOS、基板管理控制器BMC以及至少一个快捷外围部件互连标准PCIe设备,所述处理器与所述BIOS、所述BMC以及每个PCIe设备均建立有通信连接,所述BMC与所述BIOS以及所述每个PCIe设备均建立有通信连接;
所述BMC,用于:接收所述BIOS发送的第一故障信息,所述第一故障信息指示目标PCIe设备发生故障,所述目标PCIe设备为所述至少一个PCIe设备中的任意一个;
根据所述第一故障信息确定所述目标PCIe设备的故障类型;
在所述故障类型为预设故障类型的情况下,获取所述目标PCIe设备对应的故障寄存器中的第二故障信息;
根据所述第一故障信息和所述第二故障信息定位包含所述目标PCIe设备的服务器的故障。


7.根据权利要求6所述的服务器,其特征在于,所述目标PCIe设备为所述服务器内的人工智能AI芯片,所述服务器包括一个或者多个所述AI芯片。


8.根据权利要求6或7所述的服务器,其特征在于,所述服务器还包括多个管理模块,所述服务器内的每个PCIe设备和每个处理器均各自对应有所述管理模块,所述BMC具体用于:
生成第一指令,所述第一指令指示接收到所述第一指令的目标管理模块获取所述目标PCIe设备对应的故障寄存器中的所述第二故障信息;
将所述第一指令发送给所述目标管理模块;
接收所述目标管理模块发送的所述第二故障信息。


9.根据权利要求6至8任一项所述的服务器,其特征在于,所述预设故障类型包括可校正错误风暴、非致命性不可校正错误风暴以及致命性不可校正错误中的任意一种或者多种。


10.根据权利要求6至9任一项所述的服务器,其特征在于,
所述处理器,用于向所述BIOS发送的第一通知消息,所述第一通知消息指示所述目标PCIe设备出现故障,所述第一通知消息包括所述目标PCIe设备的设备标...

【专利技术属性】
技术研发人员:李钟宋刚
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1