高速串行计算机扩展总线设备故障的识别方法及装置制造方法及图纸

技术编号:37277991 阅读:17 留言:0更新日期:2023-04-20 23:44
本发明专利技术提供了高速串行计算机扩展总线设备故障的识别方法及装置,该识别方法包括:接收通过基本输入输出系统上传的故障信息,故障信息包括转接板连接的高速串行计算机扩展总线设备的标识符信息;根据标识符信息,从设备描述文件中查找到与标识符信息相对应的设备槽位信息;设备描述文件中存储有多个标识符信息以及与多个标识符信息一一对应的多个设备槽位信息。本发明专利技术的基板管理控制器可快速确定故障信息对应的设备槽位信息,从而能够满足维护人员快速定位发生故障的设备的需求,有效地节省人力和物力。节省人力和物力。节省人力和物力。

【技术实现步骤摘要】
高速串行计算机扩展总线设备故障的识别方法及装置


[0001]本专利技术涉及服务器
,更为具体地,本专利技术能够提供一种高速串行计算机扩展总线设备故障的识别方法及装置。

技术介绍

[0002]随着信息安全及网络技术的高速发展,各行各业对服务器的安全性和可维护性要求都日益增长。所以对于服务器厂商来说,在保证服务器稳定运行的同时还要尽可能避免服务器出现故障,即使服务器发生了故障,也应该满足高效且准确地上报故障的要求,并可提供恢复机制,保证服务器的可维护性。
[0003]目前,受限于服务器CPU(Central Processing Unit,中央处理器)的Root Port(根端口)的端口数量,则经常使用PCIe(Peripheral Component Interconnect express,高速串行计算机扩展总线)Switch(转接板)对端口数量进行扩展,以实现PCIe设备与CPU的高效互联。PCIe Switch作为连接CPU和PCIe设备之间的桥接设备,以用于扩展CPU的PCIe IO(Input Output,输入输出)资源。
[0004]相关技术中,对于CPU直连的PCIe设备和CPU通过Switch下挂PCIe设备,服务器对于PCIe设备故障的识别方法也存在一些差异。对于CPU直连的PCIe设备,CPU与PCIe设备之间的通信如果发生故障,则当前故障数据主要记录在CPU端,根据CPU端的寄存器信息判断出发生故障的PCIe设备的槽位,从而处理故障;对于CPU通过Switch下挂PCIe设备,CPU与Switch下挂的PCIe设备之间是非直连的,Switch用于转发CPU与PCIe设备之间的通信数据,在PCIe设备出现故障后,则CPU端只能确定Switch下挂的PCIe设备或Switch发生了故障,而无法具体确定Switch上哪个槽位的PCIe设备发生了故障。

技术实现思路

[0005]为解决Switch下挂PCIe设备情况下PCIe设备故障后无法确定Switch上哪个槽位的PCIe设备发生故障的问题,本专利技术提供了高速串行计算机扩展总线设备故障的识别方法及装置,以精准锁定发生故障的PCIe设备。
[0006]为实现上述技术目的,本专利技术能够提供一种高速串行计算机扩展总线设备故障的识别方法,所述识别方法应用于基板管理控制器,所述识别方法包括:接收通过基本输入输出系统上传的故障信息,所述故障信息包括转接板连接的高速串行计算机扩展总线设备的标识符信息;根据所述标识符信息,从设备描述文件中查找到与所述标识符信息相对应的设备槽位信息;所述设备描述文件中存储有多个标识符信息以及与所述多个标识符信息一一对应的多个设备槽位信息。
[0007]为实现上述技术目的,本专利技术还能够提供一种高速串行计算机扩展总线设备故障的识别装置,所述识别装置包括:信息接收模块,用于接收通过基本输入输出系统上传的故障信息,所述故障信息包括转接板连接的高速串行计算机扩展总线设备的标识符信息;信息查找模块,用于根据所述标识符信息,从设备描述文件中查找到与所述标识符信息相对
应的设备槽位信息;所述设备描述文件中存储有多个标识符信息以及与所述多个标识符信息一一对应的多个设备槽位信息。
[0008]本专利技术的有益效果包括:根据基本输入输出系统上传的故障信息中的标识符信息,从设备描述文件中查找到与上述标识符信息对应的设备槽位信息,可见本专利技术的基板管理控制器可快速确定故障信息对应的设备槽位信息,实现在Switch下挂PCIe设备发生故障时能够精确地确定具体PCIe设备的槽位,以能够满足维护人员快速定位发生故障的PCIe设备的需求,即确定具体哪个PCIe设备发生了故障,可见本专利技术不仅能够有效地节省人力和物力,还能够有效地节省PCIe设备故障的识别过程花费的时间。
附图说明
[0009]图1示出了本专利技术一个或多个实施例中的高速串行计算机扩展总线设备故障的识别方法的一种流程示意图。
[0010]图2示出了本专利技术一个或多个实施例中根据标识符信息从设备描述文件中查找到与标识符信息相对应的设备槽位信息的流程示意图。
[0011]图3示出了本专利技术一个或多个实施例中的高速串行计算机扩展总线设备故障的识别方法的另一种流程示意图。
[0012]图4示出了本专利技术一个或多个实施例中服务器CPU通过转接板下挂n个PCIe设备的示意图。
[0013]图5示出了本专利技术一个或多个实施例中的高速串行计算机扩展总线设备故障的识别方法的再一种流程示意图。
[0014]图6示出了本专利技术一个或多个实施例中的高速串行计算机扩展总线设备故障的识别装置结构的示意图。
具体实施方式
[0015]下面结合说明书附图对本专利技术提供的高速串行计算机扩展总线设备故障的识别方法及装置进行详细的解释和说明。
[0016]相关技术中,对于CPU直连的PCIe设备发生故障时,例如不可纠正错误时,CPU会直接重启,并在重启后扫描根端口下的所有PCIe设备的高级错误报告寄存器,从而找到报错的具体PCIe设备;其中,CPU重启后与CPU直连的PCIe设备的寄存器仍然会保存出错时的状态值,所以与CPU直连的PCIe设备发生故障时可直接找到并上报具体故障设备信息。如果CPU通过Switch下挂的PCIe设备发生故障,例如,不可纠正错误,PCIe设备会将出现错误时产生的错误消息(error message)上报到根端口,根端口上报给CPU处理,随后CPU会直接触发重启,但是Switch发生重启后会清空所有相关寄存器,全部恢复为默认值(default),所以Switch及其下挂PCIe设备的相关寄存器均不能保存发生不可纠正错误时的高级错误报告寄存器的状态值,在CPU重启后无法从下挂的PCIe设备中获取错误的详细信息,导致无法确定具体的故障设备的槽位,所以只能将故障关联到Switch上,而无法确定具体的故障设备,存在很大的不确定性,即现有技术无法锁定到底哪个或哪些PCIe设备发生了故障,只能依赖维护人员手动地逐一进行查找;这种情况给PCIe设备维护人员和服务器厂商都造成了人力和物力浪费,特别在Switch下挂的PCIe设备较多情况下,维护人员手动地逐一进行排
查的过程导致PCIe设备维护效率非常低。
[0017]鉴于此,本专利技术提供了一种高速串行计算机扩展总线设备故障的识别方法,包括但不限于如下的步骤:接收通过基本输入输出系统上传的故障信息,故障信息包括转接板连接的高速串行计算机扩展总线设备的标识符信息;根据标识符信息,从设备描述文件中查找到与标识符信息相对应的设备槽位信息;设备描述文件中存储有多个标识符信息以及与多个标识符信息一一对应的多个设备槽位信息。本专利技术实施例根据基本输入输出系统上传的故障信息中的标识符信息,从设备描述文件中查找到与上述标识符信息对应的设备槽位信息,可见本专利技术的基板管理控制器可快速确定故障信息对应的设备槽位信息,实现在Switch下挂PCIe设备发生故障时能够精确地确定具体PCIe设备的槽位,从而能够满足维本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高速串行计算机扩展总线设备故障的识别方法,其特征在于,所述识别方法应用于基板管理控制器,所述识别方法包括:接收通过基本输入输出系统上传的故障信息,所述故障信息包括转接板连接的高速串行计算机扩展总线设备的标识符信息;根据所述标识符信息,从设备描述文件中查找到与所述标识符信息相对应的设备槽位信息;所述设备描述文件中存储有多个标识符信息以及与所述多个标识符信息一一对应的多个设备槽位信息。2.根据权利要求1所述的高速串行计算机扩展总线设备故障的识别方法,其特征在于,所述根据所述标识符信息,从设备描述文件中查找到与所述标识符信息相对应的设备槽位信息,包括:从所述设备描述文件中筛选出与所述标识符信息匹配的设备唯一标识信息,所述设备描述文件中还存储有与所述多个设备槽位信息一一对应的多个设备唯一标识信息;确定与所述标识符信息匹配的设备唯一标识信息相对应的设备槽位信息。3.根据权利要求2所述的高速串行计算机扩展总线设备故障的识别方法,其特征在于,所述识别方法还包括:在服务器开机之后,将所述转接板连接的所有高速串行计算机扩展总线设备的标识符信息、设备唯一标识信息及设备槽位信息均保存至所述设备描述文件中。4.根据权利要求1至3中任一权利要求所述的高速串行计算机扩展总线设备故障的识别方法,其特征在于,所述识别方法还包括:将所述与所述标识符信息相匹配的设备槽位信息进行展示。5.根据权利要求1至3中任一权利要求所述的高速串行计算机扩展总线设备故障的识别方法,其特征在于,所述标识符信息包括总线号信息、设备号信息及功能号信息。6.根据权利要求1至3中任一权利要求所述的高速串行计算机扩展总线设备故障的识别方法,其特征在于,所述基本输入输出系统还用于对多个目标寄存器进行遍历;所述接收通过基本输入输出系统上传的故障信息,包括:接收通过所述基本输入输出系统对所述多个目标寄存器进行遍历后得到并上传的故障信息。7.根据权利要求6所述的高速串行计算机扩展总线设备故障的识别方法,其特征在于,所述故障信息还包括寄存器信息,所述识别方法还包括:根据所述寄存器信息确定所述高速串行计算机扩展总线设备故障的类型。8.根据权利要求6所述的高速串行计算机扩展总线设备故障的识别方法,其特征在于,所述基本输入输出系统还用于根据发生故障的高速串行计算机扩展总线设备触发的中断信号对所述多个目标寄存器进行遍历。9.根据权利要求8所述的高速串行计算机扩展总线设备故障的识别方法,其特征在于,所述基本输入输出系统还用于在服务器开机之后关闭同步泛滥机制的运行。10.一种高速串行计算机扩展总...

【专利技术属性】
技术研发人员:周晓雨高晓琪
申请(专利权)人:新华三信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1