PCIE设备故障处理方法和装置制造方法及图纸

技术编号:33119783 阅读:14 留言:0更新日期:2022-04-17 00:16
本申请公开了PCIE设备故障处理方法和装置。其中所述方法包括:在BIOS初始化时获取PCIE插槽上的PCIE设备类型信息;根据PCIE设备类型信息,将PCIE插槽对应的IIO端口的DPC功能设置为开启或者关闭;通过DPC处理PCIE设备故障,在PCIE故障出现时,通过BIOS和操作系统的共同作用,使得PCIE链路迅速地断开再重连,由此完成故障的快速恢复,降低PCIE故障导致的宕机,在PCIE故障时仍能保持服务器的正常使用,增强服务器的稳定性。采用这种处理方式,使得有针对性的设置不同PCIE设备对应的IIO端口的DPC功能,避免出现因采用统一设置选项导致的部分PCIE设备断开后无法重连的情况,可以满足不同PCIE设备的故障处理需求。不同PCIE设备的故障处理需求。不同PCIE设备的故障处理需求。

【技术实现步骤摘要】
PCIE设备故障处理方法和装置


[0001]本申请涉及服务器
,具体涉及PCIE设备故障处理方法和装置,基本输入输出系统,以及主板管理控制器。

技术介绍

[0002]随着云计算的普遍推广和应用,需要建立越来越多的数据中心,服务器作为数据中心中重要的基础设施,其稳定性直接影响着云服务的体验和价值。PCIE(高速串行计算机扩展总线标准)设备是服务器的重要组件,每台服务器上均有配置,当PCIE设备出现不可纠正故障时,会直接影响到服务器的操作系统OS,导致服务器出现宕机。
[0003]目前,服务器主要采用标准的PCIE高级错误报告(Advanced Error Reporting,AER)机制来处理PCIE故障。在该机制下可以有两种实施方式:降低PCIE故障的错误等级,屏蔽PCIE故障的中断上报。其中,降低PCIE故障的错误等级的方式为:通过设置PCIE的Uncorrectable Error Severity Register的值,将PCIE故障的错误等级定义为可纠正的故障,这样在产生SMI中断中到BIOS后,PCIE AER error handler按照可纠正故障处理并上报OS,OS感知到此为可纠正的故障,可以在一定程度上,保持系统的可用性。屏蔽PCIE故障的中断上报的方式为:通过设置PCIE的Uncorrectable Error Mask Register的值,屏蔽指定的PCIE故障,当此故障出现时,不会触发SMI中断,BIOS不处理,OS也感知不到此故障,可以在一定程度上,保持系统的可用性。
>[0004]然而,在实现本专利技术过程中,专利技术人发现上述技术方案至少存在如下问题:1)上述降低PCIE故障的错误等级的方式是通过降低故障等级达到一定的稳定性提升,但是故障时的数据或者事务依然会扩散到系统中的使用者,存在很大的风险,最终仍然会导致系统的紊乱异常;2)上述屏蔽PCIE故障的中断上报的方式是将PCIE故障屏蔽,不触发SMI中断,做到“掩耳盗铃”,但是故障数据在进一步使用时,仍然会导致系统紊乱异常;或者PCIE故障出现surprise down error时,虽然可以不让系统宕机,但是PCIE设备会断开连接,使得PCIE设备丢失。可见,上述两种技术方案均无法中断PCIE故障信息的传播,使得故障信息继续使用,最终仍然会给系统带来风险甚至宕机。

技术实现思路

[0005]本申请提供PCIE设备故障处理方法,以解决现有技术存在的无法中断PCIE故障信息传播的问题。本申请另外提供PCIE设备故障处理装置,基本输入输出系统,以及主板管理控制器。
[0006]本申请提供一种PCIE设备故障处理方法,包括:基本输入输出系统BIOS获取PCIE插槽使用情况信息,所述PCIE插槽使用情况信息包括PCIE设备类型;根据所述PCIE设备类型,设置所述PCIE插槽对应的集成输入输出模组IIO端口的下行端口抑制DPC功能的开启或者关闭;
通过DPC处理PCIE设备故障,以使得将发生故障的PCIE设备断链,再将PCIE设备重新建链。
[0007]可选的,所述根据所述PCIE设备类型,设置所述PCIE插槽对应的集成输入输出模组IIO端口的下行端口抑制DPC功能的开启或者关闭,包括:若所述PCIE设备类型为第一预设类型,则设置所述PCIE插槽对应的集成输入输出模组IIO端口的下行端口抑制DPC功能为关闭;若所述PCIE设备类型为第二预设类型,则设置所述PCIE插槽对应的集成输入输出模组IIO端口的下行端口抑制DPC功能为开启。
[0008]可选的,所述第一预设类型包括:NVME存储器;所述第二预设类型包括:图像处理器GPU,网卡。
[0009]可选的,还包括:通过主板管理控制器BMC,获取所述PCIE插槽使用情况信息;根据所述PCIE插槽使用情况信息,构建PCIE信息结构体;所述BIOS获取PCIE插槽使用情况信息,包括:BIOS从BMC获取所述PCIE信息结构体;从所述PCIE信息结构体中获取PCIE插槽使用情况信息。
[0010]可选的,所述通过主板管理控制器BMC,获取所述PCIE插槽使用情况信息,包括:BMC通过双向二线制同步串行总线I2C通道获取所述PCIE插槽使用情况信息。
[0011]可选的,所述BIOS从BMC获取所述PCIE信息结构体,包括:BIOS通过智能平台管理接口IPMI命令,从BMC获取所述PCIE信息结构体。
[0012]可选的,所述通过DPC处理PCIE设备故障,包括:DPC向BIOS上报PCIE设备故障错误;BIOS错误处理器生成PCIE IIO端口故障信息;BIOS向主板管理控制器BMC上报所述PCIE IIO端口故障信息;BMC将所述PCIE IIO端口故障信息存储至系统事件日志;根据系统事件日志,展示所述PCIE IIO端口故障信息。
[0013]可选的,所述PCIE IIO端口故障信息包括:段信息,总线信息,PCIE设备信息,功能信息,错误类型信息。
[0014]可选的,还包括:设置用于上报PCIE IIO 端口故障信息的结构体的智能平台管理接口IPMI命令;BIOS通过所述IPMI命令,根据PCIE IIO端口故障信息,构建PCIE IIO 端口故障信息的结构体;BIOS向BMC上报所述PCIE IIO 端口故障信息的结构体;BMC从所述PCIE IIO 端口故障信息的结构体中获取PCIE IIO端口故障信息。
[0015]本申请还提供一种PCIE设备故障处理装置,包括:PCIE信息获取单元,用于基本输入输出系统BIOS初始化时获取PCIE插槽使用情况信息,所述PCIE插槽使用情况信息包括PCIE设备类型;动态使能DPC单元,用于根据所述PCIE设备类型,设置所述PCIE插槽对应的集成输入输出模组IIO端口的下行端口抑制DPC功能的开启或者关闭;
DPC处理单元,用于通过DPC处理PCIE设备故障,以使得将发生故障的PCIE设备断链,再将PCIE设备重新建链。
[0016]本申请还提供一种基本输入输出系统,包括:初始化模块,用于获取PCIE插槽使用情况信息,所述PCIE插槽使用情况信息包括PCIE设备类型;根据所述PCIE设备类型,设置所述PCIE插槽对应的集成输入输出模组IIO端口的下行端口抑制DPC功能的开启或者关闭,以使得通过DPC处理PCIE设备故障。
[0017]可选的,还包括:错误处理器,用于根据DPC上报的PCIE设备故障错误,生成PCIE IIO端口故障信息;向主板管理控制器BMC上报所述PCIE IIO端口故障信息,以使得BMC将所述PCIE IIO端口故障信息存储至系统事件日志;根据系统事件日志,展示所述PCIE IIO端口故障信息。
[0018]本申请还提供一种主板管理控制器,包括:PCIE信息获取单元,用于获取PCIE插槽使用情况信息,所述PCIE插槽使用情况信息包括:PCIE插槽标识、PCIE在位信息、PCIE设备类型;PCIE信息结构体构建单元,用于根据所述P本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种PCIE设备故障处理方法,其特征在于,包括:基本输入输出系统BIOS获取PCIE插槽使用情况信息,所述PCIE插槽使用情况信息包括PCIE设备类型;根据所述PCIE设备类型,设置所述PCIE插槽对应的集成输入输出模组IIO端口的下行端口抑制DPC功能的开启或者关闭;通过DPC处理PCIE设备故障。2.根据权利要求1所述的方法,其特征在于,所述根据所述PCIE设备类型,设置所述PCIE插槽对应的集成输入输出模组IIO端口的下行端口抑制DPC功能的开启或者关闭,包括:若所述PCIE设备类型为第一预设类型,则设置所述PCIE插槽对应的集成输入输出模组IIO端口的下行端口抑制DPC功能为关闭;若所述PCIE设备类型为第二预设类型,则设置所述PCIE插槽对应的集成输入输出模组IIO端口的下行端口抑制DPC功能为开启。3.根据权利要求2所述的方法,其特征在于,所述第一预设类型包括:NVME存储器;所述第二预设类型包括:图像处理器GPU,网卡。4.根据权利要求1所述的方法,其特征在于,还包括:通过主板管理控制器BMC,获取所述PCIE插槽使用情况信息;根据所述PCIE插槽使用情况信息,构建PCIE信息结构体;所述BIOS获取PCIE插槽使用情况信息,包括:BIOS从BMC获取所述PCIE信息结构体;从所述PCIE信息结构体中获取PCIE插槽使用情况信息。5.根据权利要求4所述的方法,其特征在于,所述通过主板管理控制器BMC,获取所述PCIE插槽使用情况信息,包括:BMC通过双向二线制同步串行总线I2C通道获取所述PCIE插槽使用情况信息。6.根据权利要求4所述的方法,其特征在于,所述BIOS从BMC获取所述PCIE信息结构体,包括:BIOS通过智能平台管理接口IPMI命令,从BMC获取所述PCIE信息结构体。7.根据权利要求1所述的方法,其特征在于,所述通过DPC处理PCIE设备故障,包括:DPC向BIOS上报PCIE设备故障错误;BIOS错误处理器生成PCIE IIO端口故障信息;BIOS向主板管理控制器BMC上报所述PCIE IIO端口故障信息;BMC将所述PCIE IIO端口故障信息存储至系统事件日志;根据系统事件日志,展示所述PCIE IIO端口故障信息。8.根据权利要求7所述的方法,其特征在于,所述PCIE IIO端口故障信息包括:段信息,总线信息,PCIE设备信息,功能信息,错误类...

【专利技术属性】
技术研发人员:薛荀
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1