基于GPU网络拓扑的大模型容量编排方法、系统及介质技术方案

技术编号：40095123 阅读：24 留言：0更新日期：2024-01-23 16:49

本发明专利技术公开了基于GPU网络拓扑的大模型容量编排方法、系统及介质，方法包括检测多个设备之间的网络带宽信息，设备包括GPU和第一设备，根据网络带宽信息，以GPU和第一设备作为节点，以连接两个设备的通道作为初始链路，以每条初始链路的网络带宽信息和类型作为边，构建设备网络拓扑；获取训练请求，根据设备网络拓扑选择与训练请求对应的训练网络拓扑；根据训练网络拓扑创建大模型容器，通过配置大模型容器执行与训练请求对应的训练任务。本发明专利技术通过设备网络拓扑能够发现GPU之间的网络带宽，使得容器的编排能够满足GPU之间的带宽需求，提高了大模型训练的训练性能和训练效率及训练资源的利用率。本发明专利技术应用于大模型训练技术领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大模型训练，尤其是基于gpu网络拓扑的大模型容量编排方法、系统及介质。

技术介绍

1、在大规模深度学习训练中，图形处理器(graphics processing unit，gpu)扮演关键的角色，负责处理庞大的计算量和数据量，常见的图形处理器的配置方式有单机多卡方式和多机多卡方式。随着模型的数据量的增加，单机多卡之间的带宽需求和多机多卡之间的带宽需求也随着增加，相关技术通过如pcie互联、nvlink、nvswitch等通信方式来满足图形处理器之间的带宽需求。此外，在大规模深度学习训练中，相关技术通常以容器化部署的形式来部署大模型的训练节点。容器化部署是指在一台物理机上运行多个虚拟机，多个虚拟机共享操作系统，每个虚拟机都是独立的一个环境，容器化部署使得多个环境之间不会相互影响的同时提高环境运行的安全性。

2、然而，相关技术所采用的通信方式使得真实的生产集群产生了复杂的图形处理器网络拓扑和层次结构，在这种情况下，相关技术以如以太网交换机等物理机器作为最低的颗粒度来构建物理节点的网络拓扑，这种网络拓扑无法发现图形处...

【技术保护点】

1.基于GPU网络拓扑的大模型容量编排方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于GPU网络拓扑的大模型容量编排方法，其特征在于，所述检测多个设备之间的网络带宽信息，包括：

3.根据权利要求1所述的基于GPU网络拓扑的大模型容量编排方法，其特征在于，所述根据所述设备网络拓扑确定与所述训练请求对应的训练网络拓扑，包括：

4.根据权利要求3所述的基于GPU网络拓扑的大模型容量编排方法，其特征在于，所述根据所述训练网络拓扑，创建大模型容器，包括：

5.根据权利要求4所述的基于GPU网络拓扑的大模型容量编排方法，其特征在于，所述通...

【技术特征摘要】

1.基于gpu网络拓扑的大模型容量编排方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于gpu网络拓扑的大模型容量编排方法，其特征在于，所述检测多个设备之间的网络带宽信息，包括：

3.根据权利要求1所述的基于gpu网络拓扑的大模型容量编排方法，其特征在于，所述根据所述设备网络拓扑确定与所述训练请求对应的训练网络拓扑，包括：

4.根据权利要求3所述的基于gpu网络拓扑的大模型容量编排方法，其特征在于，所述根据所述训练网络拓扑，创建大模型容器，包括：

5.根据权利要求4所述的基于gpu网络拓扑的大模型容量编排方法，其特征在于，所述通过配置所述大模型容器，执行与所述训练请求对应的训练任务，包括：

6.根据权利要求1所述...

【专利技术属性】
技术研发人员：魏鹏，阮宜龙，
申请(专利权)人：中国电信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人