一种GPU热插拔方法和服务器系统技术方案

技术编号:41187445 阅读:23 留言:0更新日期:2024-05-07 22:19
本申请提供一种GPU热插拔方法和服务器系统。本申请提供的服务器系统,基于主板和扩展板,在收到移除GPU的移除指令后,通过IO扩展器向PCIE交换机发送移除通知,进而基于PCIE交换机在确定待移除的目标GPU在位且通电时,通过该目标GPU连接的电压调压器使目标GPU下电并移除该目标GPU。可以在不影响整个系统和其他GPU正常工作的情况下,通过下电停止服务。本申请提供的GPU热插拔方法和服务器系统,基于硬件配置和相应的逻辑控制原理,在需要移除目标GPU时,可以有针对性的移除目标GPU,可以在不停机的状态下进行系统维护和故障排除,防止了业务中断的风险,便于更便捷、更高效的进行GPU移除。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种gpu热插拔方法和服务器系统。


技术介绍

1、数据中心是一个用于集中管理和处理大量计算任务、存储数据、以及提供网络服务的专门设施。它承载了大量工作负载,给现有基础设施带来了压力,并加速了升级需求。为了满足这种需求,分解和可组合架构的发展日益受到推动。这些架构利用计算、内存、存储和硬件加速的池化资源,以更高效地满足各种需求。人工智能服务器是基于先进池化理念,采用业界领先的pcie架构,搭载gpu扩展板的高端服务器。

2、人工智能服务器整机通常由机箱、pcba板、电源、风扇、gpu卡、网卡、nvme盘等多个部件组成。在维护过程中,通常要求不下架服务器。为此,人工智能服务器采用了模组化设计,使得模组能够快速拆卸和替换,从而提高了维护的效率和便捷性。

3、但是,现有技术中,在人工智能服务器中的个别gpu槽位发生故障时,为对其进行维修,需要在整机断电、中断业务的情况下才能维修发生故障的槽位,这不仅导致业务中断,还增加了维护工作的难度,效率较低。


技术实现思路

1、有本文档来自技高网...

【技术保护点】

1.一种服务器系统,其特征在于,所述服务器系统包括主板、以及与所述主板连接的扩展板;所述扩展板包括BMC、PCIE交换机、CPLD、电源组件、N个GPU、N个电压调节器和N个IO扩展器;其中,

2.根据权利要求1所述的服务器系统,其特征在于,所述CPLD,还用于在通过所述BMC接收到针对插入GPU的插入指令时,根据所述插入指令,确定与所述插入GPU连接的第二目标IO扩展器,并通过所述第二目标IO扩展器向所述PCIE交换机发送插入通知;

3.根据权利要求2所述的服务器系统,其特征在于,所述第二目标IO扩展器,还用于在使所述插入GPU上电后,通过所述复位信号线向所述插...

【技术特征摘要】

1.一种服务器系统,其特征在于,所述服务器系统包括主板、以及与所述主板连接的扩展板;所述扩展板包括bmc、pcie交换机、cpld、电源组件、n个gpu、n个电压调节器和n个io扩展器;其中,

2.根据权利要求1所述的服务器系统,其特征在于,所述cpld,还用于在通过所述bmc接收到针对插入gpu的插入指令时,根据所述插入指令,确定与所述插入gpu连接的第二目标io扩展器,并通过所述第二目标io扩展器向所述pcie交换机发送插入通知;

3.根据权利要求2所述的服务器系统,其特征在于,所述第二目标io扩展器,还用于在使所述插入gpu上电后,通过所述复位信号线向所述插入gpu发送复位信号,以使得所述插入gpu复位;

4.根据权利要求1所述的服务器系统,其特征在于,所述n个io扩展器中的每个io扩展器...

【专利技术属性】
技术研发人员:邱多何立权尹吉达林韦成万大炎俞跃渊
申请(专利权)人:安擎计算机信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1