【技术实现步骤摘要】
一种外设组件高速互联设备故障检测方法、装置及服务器
[0001]本申请涉及故障诊断技术,特别涉及一种PCIE设备故障检测方法、装置及服务器。
技术介绍
[0002]BMC(Baseboard Management Controller,基板管理控制器)主要是实现对服务器各部件故障的及时监控和上报,以保障服务器的可靠运行。当前BMC对PCIE(Peripheral Component Interconnect Express,外设组件高速互联)设备如网卡,GPU(graphics processing unit,图形处理单元)卡的故障检测,主要依赖服务器上处理器通过BIOS(Basic Input Output System,基本输入输出系统)的中断服务程序对PCIE设备进行中断故障检测以将PCIE设备故障中断上报,并通过BIOS传递到BMC,BMC自身对PCIE设备的检测仅限于通过I2C总线获取PCIE设备温感等传感器信息。
[0003]然而,在实际应用中,由于PCIE设备的故障种类多种多样,有些故障可能通过服务器上 ...
【技术保护点】
【技术特征摘要】
1.一种外设组件高速互联PCIE设备故障检测方法,该方法应用于服务器上的基板管理控制器BMC,所述服务器至少还包括中央处理器CPU,所述CPU通过PCIE总线连接PCIE设备,其特征在于,该方法包括:接收所述CPU启动时,所述CPU获取的、在位的PCIE设备的设备信息;获得所述PCIE总线上支持管理器件传输协议MCTP的PCIE设备的设备信息;依据已获得的在位的PCIE设备的设备信息和支持MCTP的PCIE设备的设备信息确定待检测的PCIE设备;对所述待检测的PCIE设备进行故障检测,确定处于故障状态的故障PCIE设备。2.根据权利要求1所述的方法,其特征在于,在所述接收所述CPU启动时,所述CPU获取的、在位的PCIE设备的设备信息之后,该方法进一步还包括:向管理设备输出接收的设备信息,以使所述管理设备显示所述服务器中在位的PCIE设备的设备信息;所述确定处于故障状态的故障PCIE设备之后,该方法进一步还包括:向所述管理设备输出所述故障PCIE设备的设备信息,以使所述管理设备将所显示的、在位的故障PCIE设备的状态更新为故障状态。3.根据权利要求1或2所述的方法,其特征在于,所述获得所述PCIE总线上支持MCTP的PCIE设备的设备信息之前,所述方法还包括:针对通过PCIE总线连接在CPU上的每一个PCIE设备,向该PCIE设备发送用于确定该PCIE设备是否支持MCTP的检测请求,以使该PCIE设备在依据接收的检测请求确定自身支持MCTP时向本BMC发送应答;若收到该PCIE设备针对所述检测请求的应答,则确定该PCIE设备支持MCTP。4.根据权利要求1所述的方法,其特征在于,所述对所述待检测的PCIE设备进行故障检测,包括:针对每一个待检测的PCIE设备,向该待检测的PCIE设备发送发现请求,若存在连续发送预设次数的发现请求后均未收到应答,则判定该待检测的PCIE设备存在故障。5.根据权利要求2所述的方法,其特征在于,所述确定处于故障状态的故障PCIE设备之后,所述方法还包括:针对每一个故障PCIE设备,向所述管理设备输出该故障PCIE设备的故障信息,以使所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。