一种GPU卡集群配置控制系统及方法技术方案

技术编号:21089036 阅读:38 留言:0更新日期:2019-05-11 09:46
本发明专利技术公开了一种GPU卡集群配置控制系统,包括至少一个GPU节点、与GPU节点的网络通信端连接的网络扩展单元;所述GPU节点包括BMC控制模块、与BMC控制模块分别连接的管理网络接口模块和至少一个GPU卡扩展模块,所述GPU卡扩展模块与GPU卡连接。本发明专利技术还提供了一种GPU卡集群配置控制方法。本发明专利技术通过整合管理资源,对GPU节点内部的冗余资源进行整合,合理利用系统资源,节省开发成本。

【技术实现步骤摘要】
一种GPU卡集群配置控制系统及方法
本专利技术涉及融合架构
,尤其是一种GPU卡集群配置控制系统及方法。
技术介绍
目前AI技术飞速发展,高运算性能的计算机架构也出现了空前的研发高涨。而目前NVIDIA发布的高计算性能的GPU卡,在计算性能上占据了领先的地位。将多个GPU卡进行并行设计,组成一个GPU卡计算集群,并且搭配计算服务器成了业界不断提高计算性能的计算系统。GPU卡以GPU节点为部署单元,通过将多个GPU节点整合起来,集成大规模的GPU集群。为实现GPU卡的资源池化,可以将GPU卡可分配给任何一台上行主机,每个GPU卡的节点都配备本地的CPU,通过PCIE总线来设置分配信息,BMC管理散热策略。目前在GPU集群设计中,管理系统单独设计在每个GPU卡节点内,每个GPU卡节点都配备一颗CPU用于配置管理,而同时GPU节点上也存在BMC控制模块,对节点进行散热控制。这种双控制芯片的管理模块在设计上出现资源冗余,对整个项目资源造成了浪费,不利于产品成本优化。
技术实现思路
本专利技术的目的是提供一种GPU卡集群配置控制系统及方法,简化了GPU节点的管理架构,将BMC通过管理网络进行本文档来自技高网...

【技术保护点】
1.一种GPU卡集群配置控制系统,其特征是,包括至少一个GPU节点、与GPU节点的网络通信端连接的网络扩展单元;所述GPU节点包括BMC控制模块、与BMC控制模块分别连接的管理网络接口模块和至少一个GPU卡扩展模块,所述GPU卡扩展模块与GPU卡连接。

【技术特征摘要】
1.一种GPU卡集群配置控制系统,其特征是,包括至少一个GPU节点、与GPU节点的网络通信端连接的网络扩展单元;所述GPU节点包括BMC控制模块、与BMC控制模块分别连接的管理网络接口模块和至少一个GPU卡扩展模块,所述GPU卡扩展模块与GPU卡连接。2.如权利要求1所述的GPU卡集群配置控制系统,其特征是,所述网络扩展单元包括交换机模块和控制总机模块,GPU节点的网络通信端与交换机模块的网络接口连接,控制总机的交换机模块的网络接口与交换机模块的网络接口连接。3.如权利要求1所述的GPU卡集群配置控制系统,其特征是,所述GPU卡扩展模块包括扩展芯片,所述扩展芯片的I2C接口与BMC控制模块的I2C接口连接;扩展芯片分别与两只GPU卡连接。4...

【专利技术属性】
技术研发人员:王玲燕
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1