服务器专用的GPU故障保护装置、方法、设备及介质制造方法及图纸

技术编号:24852830 阅读:34 留言:0更新日期:2020-07-10 19:06
本申请公开了一种服务器专用的GPU故障保护装置、方法、设备及介质,包括:监控管理模块,用于接收GPU的在位信号,当检测到某个GPU发生故障时,将故障信息发送至CPLD模块的寄存器,并控制服务器关机并重启,还用于向可控开关电路发送相应的开关控制信号;CPLD模块,用于在重启时,控制各个模块相关的上电时序;可控开关电路,用于通过不同的配置电阻配置OCP的设置参数;电源模块,用于向对应的GPU供电。这样通过设置的各个模块的相互作用来保护GPU和服务器,确保GPU故障时,可以通过监控管理模块及时能够做出相应的应对,解决电源过流保护无法正常工作的问题,确保GPU及主板不会进一步损坏,具有可靠性和安全性。

【技术实现步骤摘要】
服务器专用的GPU故障保护装置、方法、设备及介质
本专利技术涉及服务器
,特别是涉及一种服务器专用的GPU故障保护装置、方法、设备及介质。
技术介绍
目前,服务器中经常会配置图形处理器(GraphicsProcessingUnit,GPU)来进行图形化计算,企业级服务器所对应的企业级GPU价格昂贵,现有的情况下,在装有GPU设备的服务器正常工作时,监控管理芯片会监控GPU在位状态,当GPU发生故障时,监控管理芯片会告知GPU设备丢失,并不会做相关的处理,同时GPU的供电依旧会持续,这种处理方式有一定的风险,一旦GPU设备出现短路或者电子元器件损坏等问题时,电源供电电流会超过正常值,从而引起GPU故障进而导致服务器故障。同时,在服务器主板的设计中,会对为GPU供电的电源模块设置过流保护(Overcurrentprotection,OCP)保护参数。当前的主板设计,这个OCP保护的参数是固定的,并不会随着设备的增减而变化,但是设置这个保护参数时,应该考虑到GPU满配的情况。当多个GPU插入主板时,单个故障的GPU不断电的话,会影响电流OCP参数,比如4个GPU的正常工作电流约为300A,相关的OCP保护参数的设置应该为440A左右。但是当一个GPU故障时,这种情况下,即使板卡发生过流问题,也不会达到OCP参数的设置的值,电源模块的保护功能也不会被触发,从而导致板卡的损坏。因此,如何解决当单个GPU故障时,主板仍会对其供电,从而可能引起GPU过流故障,以及服务器的OCP功能随着单个GPU故障失效的问题,是本领域技术人员亟待解决的技术问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种服务器专用的GPU故障保护装置、方法、设备及介质,可以在GPU故障时,确保GPU以及主板不会进一步的损坏,具有更高的可靠性和安全性。其具体方案如下:一种服务器专用的GPU故障保护装置,包括:监控管理模块,分别与所述监控管理模块电性连接的CPLD模块和具有多个不同的配置电阻的可控开关电路,以及与所述可控开关电路电性连接的电源模块;其中,所述监控管理模块,用于接收GPU的在位信号,当检测到某个GPU发生故障时,将故障信息发送至所述CPLD模块的寄存器,并控制服务器关机并重启,还用于向所述可控开关电路发送相应的开关控制信号;所述CPLD模块,用于在读取到自身寄存器中的信息后,在所述服务器重启时,控制各个模块相关的上电时序,以阻止故障GPU的上电;所述可控开关电路,用于根据接收的所述开关控制信号,通过不同的配置电阻来配置OCP的设置参数;所述电源模块,用于根据配置的所述OCP的设置参数,向对应的GPU供电。优选地,在本专利技术实施例提供的上述服务器专用的GPU故障保护装置中,所述监控管理模块,具体用于在检测到GPU在位数量减少后,向所述可控开关电路发送相应的开关控制信号以改变OCP的设置参数,同时熄灭故障GPU的在位指示灯,以通知工程师故障GPU的位置。优选地,在本专利技术实施例提供的上述服务器专用的GPU故障保护装置中,还包括:与所述监控管理模块电性连接的Flash芯片;所述监控管理模块,具体还用于将所述故障信息记录到Flash芯片的寄存器中;所述Flash芯片,用于存储所述故障信息。优选地,在本专利技术实施例提供的上述服务器专用的GPU故障保护装置中,所述Flash芯片通过SPI信号与所述监控管理模块通信。优选地,在本专利技术实施例提供的上述服务器专用的GPU故障保护装置中,所述CPLD模块通过I2C与所述监控管理模块通信。本专利技术实施例还提供了一种服务器专用的GPU故障保护方法,包括:监控管理模块接收GPU的在位信号,当检测到某个GPU发生故障时,将故障信息发送至CPLD模块的寄存器,并控制服务器关机并重启;所述CPLD模块在读取到自身寄存器中的信息后,在所述服务器重启时,控制各个模块相关的上电时序,以阻止故障GPU的上电;所述监控管理模块向可控开关电路发送相应的开关控制信号;所述可控开关电路根据接收的所述开关控制信号,通过不同的配置电阻来配置OCP的设置参数;电源模块根据配置的所述OCP的设置参数,向对应的GPU供电。优选地,在本专利技术实施例提供的上述服务器专用的GPU故障保护方法中,所述监控管理模块向可控开关电路发送相应的开关控制信号,包括:所述监控管理模块在检测到GPU在位数量减少后,向所述可控开关电路发送相应的开关控制信号以改变OCP的设置参数,同时熄灭故障GPU的在位指示灯,以通知工程师故障GPU的位置。优选地,在本专利技术实施例提供的上述服务器专用的GPU故障保护方法中,在所述将故障信息发送至CPLD模块的寄存器之前,还包括:所述监控管理模块将所述故障信息记录到Flash芯片的寄存器中;所述Flash芯片存储所述故障信息。本专利技术实施例还提供了一种服务器专用的GPU故障保护设备,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如本专利技术实施例提供的上述服务器专用的GPU故障保护方法。本专利技术实施例还提供了一种计算机可读存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如本专利技术实施例提供的上述服务器专用的GPU故障保护方法。从上述技术方案可以看出,本专利技术所提供的一种服务器专用的GPU故障保护装置、方法、设备及介质,包括:监控管理模块,分别与监控管理模块电性连接的CPLD模块和具有多个不同的配置电阻的可控开关电路,以及与可控开关电路电性连接的电源模块;其中,监控管理模块,用于接收GPU的在位信号,当检测到某个GPU发生故障时,将故障信息发送至CPLD模块的寄存器,并控制服务器关机并重启,还用于向可控开关电路发送相应的开关控制信号;CPLD模块,用于在读取到自身寄存器中的信息后,在服务器重启时,控制各个模块相关的上电时序,以阻止故障GPU的上电;可控开关电路,用于根据接收的开关控制信号,通过不同的配置电阻来配置OCP的设置参数;电源模块,用于根据配置的OCP的设置参数,向对应的GPU供电。本专利技术针对现有的监控管理模块对故障GPU不作处理造成的风险加以处理,通过设置的监控管理模块、可控开关电路、电源模块和CPLD的相互作用来保护GPU和服务器,处理GPU故障问题,确保GPU故障时,可以通过监控管理模块及时能够做出相应的应对,同时可控开关电路可以保证主板OCP功能实现,解决出现的电源过流保护无法正常工作的问题,进而确保GPU以及主板不会进一步的损坏,具有更高的可靠性和安全性。附图说明为了更清楚地说明本专利技术实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的服务器专用的GPU故障保护装置本文档来自技高网
...

【技术保护点】
1.一种服务器专用的GPU故障保护装置,其特征在于,包括:监控管理模块,分别与所述监控管理模块电性连接的CPLD模块和具有多个不同的配置电阻的可控开关电路,以及与所述可控开关电路电性连接的电源模块;其中,/n所述监控管理模块,用于接收GPU的在位信号,当检测到某个GPU发生故障时,将故障信息发送至所述CPLD模块的寄存器,并控制服务器关机并重启,还用于向所述可控开关电路发送相应的开关控制信号;/n所述CPLD模块,用于在读取到自身寄存器中的信息后,在所述服务器重启时,控制各个模块相关的上电时序,以阻止故障GPU的上电;/n所述可控开关电路,用于根据接收的所述开关控制信号,通过不同的配置电阻来配置OCP的设置参数;/n所述电源模块,用于根据配置的所述OCP的设置参数,向对应的GPU供电。/n

【技术特征摘要】
1.一种服务器专用的GPU故障保护装置,其特征在于,包括:监控管理模块,分别与所述监控管理模块电性连接的CPLD模块和具有多个不同的配置电阻的可控开关电路,以及与所述可控开关电路电性连接的电源模块;其中,
所述监控管理模块,用于接收GPU的在位信号,当检测到某个GPU发生故障时,将故障信息发送至所述CPLD模块的寄存器,并控制服务器关机并重启,还用于向所述可控开关电路发送相应的开关控制信号;
所述CPLD模块,用于在读取到自身寄存器中的信息后,在所述服务器重启时,控制各个模块相关的上电时序,以阻止故障GPU的上电;
所述可控开关电路,用于根据接收的所述开关控制信号,通过不同的配置电阻来配置OCP的设置参数;
所述电源模块,用于根据配置的所述OCP的设置参数,向对应的GPU供电。


2.根据权利要求1所述的服务器专用的GPU故障保护装置,其特征在于,所述监控管理模块,具体用于在检测到GPU在位数量减少后,向所述可控开关电路发送相应的开关控制信号以改变OCP的设置参数,同时熄灭故障GPU的在位指示灯,以通知工程师故障GPU的位置。


3.根据权利要求2所述的服务器专用的GPU故障保护装置,其特征在于,还包括:与所述监控管理模块电性连接的Flash芯片;
所述监控管理模块,具体还用于将所述故障信息记录到Flash芯片的寄存器中;
所述Flash芯片,用于存储所述故障信息。


4.根据权利要求4所述的服务器专用的GPU故障保护装置,其特征在于,所述Flash芯片通过SPI信号与所述监控管理模块通信。


5.根据权利要求1所述的服务器专用的GPU故障保护装置,其特征在于,所述CPLD模块通过I2C与所述监控管理模块通信。<...

【专利技术属性】
技术研发人员:李昌嵩
申请(专利权)人:浪潮商用机器有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1