一种外设组件高速互联设备故障检测方法、装置及服务器制造方法及图纸

技术编号:31709438 阅读:61 留言:0更新日期:2022-01-01 11:12
本申请提供一种PCIE设备故障检测方法、装置及服务器,服务器包括CPU和BMC,BMC接收CPU获取的在位的PCIE设备的设备信息;并获得PCIE总线上支持MCTP的PCIE设备的设备信息;依据已获得的在位的PCIE设备的设备信息和支持MCTP的PCIE设备的设备信息确定待检测的PCIE设备;对待检测的PCIE设备进行故障检测,确定处于故障状态的故障PCIE设备。本申请中,BMC不再仅依赖BIOS中断服务程序检测PCIE设备故障,BMC可主动确定待检测PCIE设备,并对待检测PCIE设备进行故障检测,从而拓展了对PCIE设备的故障检测手段,可有效提升系统故障诊断率。可有效提升系统故障诊断率。可有效提升系统故障诊断率。

【技术实现步骤摘要】
一种外设组件高速互联设备故障检测方法、装置及服务器


[0001]本申请涉及故障诊断技术,特别涉及一种PCIE设备故障检测方法、装置及服务器。

技术介绍

[0002]BMC(Baseboard Management Controller,基板管理控制器)主要是实现对服务器各部件故障的及时监控和上报,以保障服务器的可靠运行。当前BMC对PCIE(Peripheral Component Interconnect Express,外设组件高速互联)设备如网卡,GPU(graphics processing unit,图形处理单元)卡的故障检测,主要依赖服务器上处理器通过BIOS(Basic Input Output System,基本输入输出系统)的中断服务程序对PCIE设备进行中断故障检测以将PCIE设备故障中断上报,并通过BIOS传递到BMC,BMC自身对PCIE设备的检测仅限于通过I2C总线获取PCIE设备温感等传感器信息。
[0003]然而,在实际应用中,由于PCIE设备的故障种类多种多样,有些故障可能通过服务器上处理器对PCIE设备本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种外设组件高速互联PCIE设备故障检测方法,该方法应用于服务器上的基板管理控制器BMC,所述服务器至少还包括中央处理器CPU,所述CPU通过PCIE总线连接PCIE设备,其特征在于,该方法包括:接收所述CPU启动时,所述CPU获取的、在位的PCIE设备的设备信息;获得所述PCIE总线上支持管理器件传输协议MCTP的PCIE设备的设备信息;依据已获得的在位的PCIE设备的设备信息和支持MCTP的PCIE设备的设备信息确定待检测的PCIE设备;对所述待检测的PCIE设备进行故障检测,确定处于故障状态的故障PCIE设备。2.根据权利要求1所述的方法,其特征在于,在所述接收所述CPU启动时,所述CPU获取的、在位的PCIE设备的设备信息之后,该方法进一步还包括:向管理设备输出接收的设备信息,以使所述管理设备显示所述服务器中在位的PCIE设备的设备信息;所述确定处于故障状态的故障PCIE设备之后,该方法进一步还包括:向所述管理设备输出所述故障PCIE设备的设备信息,以使所述管理设备将所显示的、在位的故障PCIE设备的状态更新为故障状态。3.根据权利要求1或2所述的方法,其特征在于,所述获得所述PCIE总线上支持MCTP的PCIE设备的设备信息之前,所述方法还包括:针对通过PCIE总线连接在CPU上的每一个PCIE设备,向该PCIE设备发送用于确定该PCIE设备是否支持MCTP的检测请求,以使该PCIE设备在依据接收的检测请求确定自身支持MCTP时向本BMC发送应答;若收到该PCIE设备针对所述检测请求的应答,则确定该PCIE设备支持MCTP。4.根据权利要求1所述的方法,其特征在于,所述对所述待检测的PCIE设备进行故障检测,包括:针对每一个待检测的PCIE设备,向该待检测的PCIE设备发送发现请求,若存在连续发送预设次数的发现请求后均未收到应答,则判定该待检测的PCIE设备存在故障。5.根据权利要求2所述的方法,其特征在于,所述确定处于故障状态的故障PCIE设备之后,所述方法还包括:针对每一个故障PCIE设备,向所述管理设备输出该故障PCIE设备的故障信息,以使所述...

【专利技术属性】
技术研发人员:张俊
申请(专利权)人:新华三技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1