【技术实现步骤摘要】
服务器专用的GPU故障保护装置、方法、设备及介质
本专利技术涉及服务器
,特别是涉及一种服务器专用的GPU故障保护装置、方法、设备及介质。
技术介绍
目前,服务器中经常会配置图形处理器(GraphicsProcessingUnit,GPU)来进行图形化计算,企业级服务器所对应的企业级GPU价格昂贵,现有的情况下,在装有GPU设备的服务器正常工作时,监控管理芯片会监控GPU在位状态,当GPU发生故障时,监控管理芯片会告知GPU设备丢失,并不会做相关的处理,同时GPU的供电依旧会持续,这种处理方式有一定的风险,一旦GPU设备出现短路或者电子元器件损坏等问题时,电源供电电流会超过正常值,从而引起GPU故障进而导致服务器故障。同时,在服务器主板的设计中,会对为GPU供电的电源模块设置过流保护(Overcurrentprotection,OCP)保护参数。当前的主板设计,这个OCP保护的参数是固定的,并不会随着设备的增减而变化,但是设置这个保护参数时,应该考虑到GPU满配的情况。当多个GPU插入主板时,单个故障的GPU不 ...
【技术保护点】
1.一种服务器专用的GPU故障保护装置,其特征在于,包括:监控管理模块,分别与所述监控管理模块电性连接的CPLD模块和具有多个不同的配置电阻的可控开关电路,以及与所述可控开关电路电性连接的电源模块;其中,/n所述监控管理模块,用于接收GPU的在位信号,当检测到某个GPU发生故障时,将故障信息发送至所述CPLD模块的寄存器,并控制服务器关机并重启,还用于向所述可控开关电路发送相应的开关控制信号;/n所述CPLD模块,用于在读取到自身寄存器中的信息后,在所述服务器重启时,控制各个模块相关的上电时序,以阻止故障GPU的上电;/n所述可控开关电路,用于根据接收的所述开关控制信号,通 ...
【技术特征摘要】
1.一种服务器专用的GPU故障保护装置,其特征在于,包括:监控管理模块,分别与所述监控管理模块电性连接的CPLD模块和具有多个不同的配置电阻的可控开关电路,以及与所述可控开关电路电性连接的电源模块;其中,
所述监控管理模块,用于接收GPU的在位信号,当检测到某个GPU发生故障时,将故障信息发送至所述CPLD模块的寄存器,并控制服务器关机并重启,还用于向所述可控开关电路发送相应的开关控制信号;
所述CPLD模块,用于在读取到自身寄存器中的信息后,在所述服务器重启时,控制各个模块相关的上电时序,以阻止故障GPU的上电;
所述可控开关电路,用于根据接收的所述开关控制信号,通过不同的配置电阻来配置OCP的设置参数;
所述电源模块,用于根据配置的所述OCP的设置参数,向对应的GPU供电。
2.根据权利要求1所述的服务器专用的GPU故障保护装置,其特征在于,所述监控管理模块,具体用于在检测到GPU在位数量减少后,向所述可控开关电路发送相应的开关控制信号以改变OCP的设置参数,同时熄灭故障GPU的在位指示灯,以通知工程师故障GPU的位置。
3.根据权利要求2所述的服务器专用的GPU故障保护装置,其特征在于,还包括:与所述监控管理模块电性连接的Flash芯片;
所述监控管理模块,具体还用于将所述故障信息记录到Flash芯片的寄存器中;
所述Flash芯片,用于存储所述故障信息。
4.根据权利要求4所述的服务器专用的GPU故障保护装置,其特征在于,所述Flash芯片通过SPI信号与所述监控管理模块通信。
5.根据权利要求1所述的服务器专用的GPU故障保护装置,其特征在于,所述CPLD模块通过I2C与所述监控管理模块通信。<...
【专利技术属性】
技术研发人员:李昌嵩,
申请(专利权)人:浪潮商用机器有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。