【技术实现步骤摘要】
一种GPU卡集群配置控制系统及方法
本专利技术涉及融合架构
,尤其是一种GPU卡集群配置控制系统及方法。
技术介绍
目前AI技术飞速发展,高运算性能的计算机架构也出现了空前的研发高涨。而目前NVIDIA发布的高计算性能的GPU卡,在计算性能上占据了领先的地位。将多个GPU卡进行并行设计,组成一个GPU卡计算集群,并且搭配计算服务器成了业界不断提高计算性能的计算系统。GPU卡以GPU节点为部署单元,通过将多个GPU节点整合起来,集成大规模的GPU集群。为实现GPU卡的资源池化,可以将GPU卡可分配给任何一台上行主机,每个GPU卡的节点都配备本地的CPU,通过PCIE总线来设置分配信息,BMC管理散热策略。目前在GPU集群设计中,管理系统单独设计在每个GPU卡节点内,每个GPU卡节点都配备一颗CPU用于配置管理,而同时GPU节点上也存在BMC控制模块,对节点进行散热控制。这种双控制芯片的管理模块在设计上出现资源冗余,对整个项目资源造成了浪费,不利于产品成本优化。
技术实现思路
本专利技术的目的是提供一种GPU卡集群配置控制系统及方法,简化了GPU节点的管理架构,将B ...
【技术保护点】
1.一种GPU卡集群配置控制系统,其特征是,包括至少一个GPU节点、与GPU节点的网络通信端连接的网络扩展单元;所述GPU节点包括BMC控制模块、与BMC控制模块分别连接的管理网络接口模块和至少一个GPU卡扩展模块,所述GPU卡扩展模块与GPU卡连接。
【技术特征摘要】
1.一种GPU卡集群配置控制系统,其特征是,包括至少一个GPU节点、与GPU节点的网络通信端连接的网络扩展单元;所述GPU节点包括BMC控制模块、与BMC控制模块分别连接的管理网络接口模块和至少一个GPU卡扩展模块,所述GPU卡扩展模块与GPU卡连接。2.如权利要求1所述的GPU卡集群配置控制系统,其特征是,所述网络扩展单元包括交换机模块和控制总机模块,GPU节点的网络通信端与交换机模块的网络接口连接,控制总机的交换机模块的网络接口与交换机模块的网络接口连接。3.如权利要求1所述的GPU卡集群配置控制系统,其特征是,所述GPU卡扩展模块包括扩展芯片,所述扩展芯片的I2C接口与BMC控制模块的I2C接口连接;扩展芯片分别与两只GPU卡连接。4...
【专利技术属性】
技术研发人员:王玲燕,
申请(专利权)人:郑州云海信息技术有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。