System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种计算设备以及故障处理方法技术_技高网

一种计算设备以及故障处理方法技术

技术编号:41403732 阅读:4 留言:0更新日期:2024-05-20 19:29
一种计算设备,包括主板和第一PCI E设备,主板上设置有中央处理器CPU,CPU还与第一PCIE设备电连接,计算设备上还设置有检测单元,检测单元分别与第一PCIE设备以及CPU电连接;第一PCI E设备与CPU经PCI E通信链路进行信息交互;检测单元用于检测第一PCI E设备是否存在故障,并在第一PCI E设备存在故障的情况下,对第一PCI E设备进行物理隔离操作,从而避免第一PCI E设备的故障影响到其他PCI E设备的正常运行。检测单元还用于向CPU发送故障报错信息,CPU用于在接收到故障报错信息的情况下,断开第一PCI E设备与CPU之间的PCI E通信链路,从而可以避免计算设备掉电以及操作系统宕机,保持操作系统的正常运行。

【技术实现步骤摘要】

本申请涉及通信,尤其涉及一种计算设备以及故障处理方法


技术介绍

1、外围组件快速互连(peripheral component interconnect express,pcie)通信协议是一种高速串行计算机扩展总线标准,已广泛应用在计算设备(例如服务器)中。

2、计算设备的主板可以与pcie设备电连接。例如,计算设备上可以设置有pcie插槽,pcie设备可以插置于pcie插槽中。例如,pcie设备可以为网卡、图形处理器(graphicsprocessing unit,gpu)或者磁盘阵列卡。当pcie设备在工作过程中发生故障时,会产生故障报错信息。并且,当某一pcie设备发生故障时,还可能影响其他pcie设备的正常运行,从而使得其他pcie设备也产生故障报错信息。这些故障报错信息将引发计算设备掉电以及操作系统宕机,影响操作系统的正常运行。

3、因此,在pcie设备发生故障时,如何保持操作系统的正常运行成为了本领域亟待解决的技术问题。


技术实现思路

1、本申请提供了一种计算设备以及故障处理方法,可以避免pcie设备的故障引发的计算设备掉电以及操作系统宕机,进而可以保持操作系统的正常运行。

2、第一方面,本申请提供一种计算设备,计算设备包括主板和第一pcie设备,主板上设置有中央处理器cpu,cpu还与第一pcie设备电连接,计算设备上还设置有检测单元,检测单元分别与第一pcie设备以及中央处理器cpu电连接;第一pcie设备与cpu经pcie通信链路进行信息交互;检测单元用于检测第一pcie设备是否存在故障,并在第一pcie设备存在故障的情况下,对第一pcie设备进行物理隔离操作以及向中央处理器cpu发送故障报错信息;中央处理器cpu用于在接收到故障报错信息的情况下,断开第一pcie设备与cpu之间的pcie通信链路。

3、这样一来,检测单元可以检测第一pcie设备是否存在故障,若存在,则对第一pcie设备进行物理隔离操作,从而避免该第一pcie设备的故障影响其他pcie设备的正常运行,进而避免了其他pcie设备产生故障报错信息。此外,控制模块还可以生成故障报错信息,并将故障报错信息向cpu发送,cpu在接收到故障报错信息时,可以断开第一pcie设备与cpu之间的pcie通信链路,从而使得第一pcie设备产生的故障报错信息无法向cpu发送,因此不会引发操作系统宕机以及计算设备掉电。因而在第一pcie设备出现故障时,可以保持操作系统的正常运行。

4、在一种可能的实现方式中,检测单元包括控制模块和第一电路模块,第一pcie设备通过第一电路模块与主板电连接;第一电路模块具有使能控制端,使能控制端与控制模块电连接;在执行对第一pcie设备进行物理隔离操作时,控制模块具体用于,向第一电路模块的使能控制端发送第一控制信号,以对第一pcie设备进行物理隔离操作。这样,控制模块通过向第一电路模块的使能控制端发送第一控制信号,从而可以实现对第一pcie设备进行物理隔离。

5、在一种可能的实现方式中,第一电路模块包括第一开关模块、第二开关模块以及时钟驱动模块;第一pcie设备上的电源模块通过第一开关模块与主板上的供电电源模块电连接;第一pcie设备通过第二开关模块与主板上的通信线路以及复位线路电连接;第一pcie设备与时钟驱动模块电连接;在执行向第一电路模块的使能控制端发送第一控制信号,以对第一pcie设备进行物理隔离操作时,控制模块具体用于:向第二开关模块的使能控制端发送第一控制信号,以断开第一pcie设备与主板之间的通信线路以及复位线路;向时钟驱动模块的使能控制端发送第一控制信号,以断开第一pcie设备与时钟驱动模块之间的时钟线路;向第一开关模块的使能控制端发送第一控制信号,以断开第一pcie设备与供电电源模块模块之间的供电线路。这样,控制模块通过发送第一控制信号,可以依次断开第一pcie设备的通信线路以及复位线路、时钟线路以及供电线路,从而可以实现对第一pcie设备的物理隔离。

6、在一种可能的实现方式中,cpu还用于在接收到故障报错信息的情况下,对第一pcie设备的驱动程序进行卸载,以便于在后续过程中更新驱动程序。

7、在一种可能的实现方式中,计算设备中还设置有pcie插槽,第一pcie设备插置于pcie插槽中,并且通过pcie插槽与cpu电连接;对pcie设备进行物理隔离操作,包括:对pcie插槽与cpu之间的线路进行隔离;检测单元还用于在第一pcie设备存在故障的情况下,检测是否已完成对第一pcie设备的更换操作;若已完成,则解除对pcie插槽的隔离,以使得更换后的pcie设备与cpu之间的线路恢复。这样,可以使得更换后的pcie设备与cpu电连接,从而便于两者进行通信。

8、在一种可能的实现方式中,计算设备中还设置有pcie插槽,第一pcie设备插置于pcie插槽中,并且通过pcie插槽与cpu电连接;控制模块还用于:在第一pcie设备存在故障的情况下,检测是否已完成对第一pcie设备的更换操作;若已完成,则向第一开关模块的使能控制端发送第二控制信号,以连通pcie插槽与供电电源模块之间的供电线路;向时钟驱动模块的使能控制端发送第二控制信号,以连通pcie插槽与主板之间的时钟线路;向第二开关模块的使能控制端发送第二控制信号,以连通pcie插槽与主板之间的通信线路以及复位线路。这样,控制模块通过发送第二控制信号,可以依次连通第一pcie设备的供电线路、时钟线路、通信线路以及复位线路。

9、在一种可能的实现方式中,检测单元还用于检测更换后的pcie设备是否存在故障;若不存在故障,则向cpu发送故障修复信息;cpu还用于在接收到故障修复信息的情况下,建立更换后的pcie设备与cpu之间的pcie通信链路。这样,在更换后的pcie设备不存在故障的情况下,cpu可以建立更换后的pcie设备与cpu之间的pcie通信链路。

10、在一种可能的实现方式中,cpu还用于在接收到故障修复信息的情况下,安装更换后的pcie设备对应的驱动程序。这样,在更换后的pcie设备不存在故障的情况下,cpu可以建立更换后的pcie设备与cpu之间的pcie通信链路,以便于两者进行通信。

11、在一种可能的实现方式中,主板上设置有基板管理控制器bmc,bmc分别与检测单元以及cpu通信连接;bmc用于在接收到检测单元发送的故障报错信息时,对故障报错信息进行显示,并将故障报错信息发送给cpu。这样,当检测单元通过bmc与cpu电连接时,bmc可以在接收到检测单元发送的故障报错信息时,对故障报错信息进行显示,以提示用户。且bmc还可以将故障报错信息向cpu发送,以便于cpu及时获得故障报错信息。

12、在一种可能的实现方式中,第一pcie设备上设置有通用输入输出端口gpio扩展芯片,gpio扩展芯片与控制模块通信连接;在执行检测第一pcie设备是否存在故障时,控制模块具体用于读取gpio扩展芯片中本文档来自技高网...

【技术保护点】

1.一种计算设备,其特征在于,所述计算设备包括主板和第一PCIE设备,所述主板上设置有中央处理器CPU,所述计算设备上还设置有检测单元,所述检测单元分别与第一PCIE设备以及所述中央处理器CPU电连接;所述第一PCIE设备与所述CPU经PCIE通信链路进行信息交互;

2.根据权利要求1所述的计算设备,其特征在于,所述检测单元包括控制模块和第一电路模块,所述第一PCIE设备通过所述第一电路模块与所述主板电连接;所述第一电路模块具有使能控制端,所述使能控制端与所述控制模块电连接;

3.根据权利要求2所述的计算设备,其特征在于,所述第一电路模块包括第一开关模块、第二开关模块以及时钟驱动模块;所述第一PCIE设备上的电源模块通过所述第一开关模块与所述主板上的供电电源模块电连接;所述第一PCIE设备通过所述第二开关模块与所述主板上的通信线路以及复位线路电连接;所述第一PCIE设备与所述时钟驱动模块电连接;

4.根据权利要求1至3中任一项述的计算设备,其特征在于,所述CPU还用于在接收到所述故障报错信息的情况下,对所述第一PCIE设备的驱动程序进行卸载。</p>

5.根据权利要求1至4中任一项所述的计算设备,其特征在于,所述计算设备中还设置有PCIE插槽,所述第一PCIE设备插置于所述PCIE插槽中,并且通过所述PCIE插槽与所述CPU电连接;所述对所述PCIE设备进行物理隔离操作,包括:对所述PCIE插槽与所述CPU之间的线路进行隔离;

6.根据权利要求2或者3所述的计算设备,其特征在于,所述计算设备中还设置有PCIE插槽,所述第一PCIE设备插置于所述PCIE插槽中,并且通过所述PCIE插槽与所述CPU电连接;

7.根据权利要求5所述的计算设备,其特征在于,

8.根据权利要求7所述的计算设备,其特征在于,所述CPU还用于在接收到所述故障修复信息的情况下,安装所述更换后的PCIE设备对应的驱动程序。

9.根据权利要求1所述的计算设备,其特征在于,所述主板上设置有基板管理控制器BMC,所述BMC分别与所述检测单元以及所述CPU通信连接;

10.根据权利要求2-9中任意一项所述的计算设备,其特征在于,所述第一PCIE设备上设置有通用输入输出端口GPIO扩展芯片,所述GPIO扩展芯片与所述控制模块通信连接;

...

【技术特征摘要】

1.一种计算设备,其特征在于,所述计算设备包括主板和第一pcie设备,所述主板上设置有中央处理器cpu,所述计算设备上还设置有检测单元,所述检测单元分别与第一pcie设备以及所述中央处理器cpu电连接;所述第一pcie设备与所述cpu经pcie通信链路进行信息交互;

2.根据权利要求1所述的计算设备,其特征在于,所述检测单元包括控制模块和第一电路模块,所述第一pcie设备通过所述第一电路模块与所述主板电连接;所述第一电路模块具有使能控制端,所述使能控制端与所述控制模块电连接;

3.根据权利要求2所述的计算设备,其特征在于,所述第一电路模块包括第一开关模块、第二开关模块以及时钟驱动模块;所述第一pcie设备上的电源模块通过所述第一开关模块与所述主板上的供电电源模块电连接;所述第一pcie设备通过所述第二开关模块与所述主板上的通信线路以及复位线路电连接;所述第一pcie设备与所述时钟驱动模块电连接;

4.根据权利要求1至3中任一项述的计算设备,其特征在于,所述cpu还用于在接收到所述故障报错信息的情况下,对所述第一pcie设备的驱动程序进行卸载。

5.根...

【专利技术属性】
技术研发人员:李天涵
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1