【技术实现步骤摘要】
本专利技术涉及大模型训练,尤其是基于gpu网络拓扑的大模型容量编排方法、系统及介质。
技术介绍
1、在大规模深度学习训练中,图形处理器(graphics processing unit,gpu)扮演关键的角色,负责处理庞大的计算量和数据量,常见的图形处理器的配置方式有单机多卡方式和多机多卡方式。随着模型的数据量的增加,单机多卡之间的带宽需求和多机多卡之间的带宽需求也随着增加,相关技术通过如pcie互联、nvlink、nvswitch等通信方式来满足图形处理器之间的带宽需求。此外,在大规模深度学习训练中,相关技术通常以容器化部署的形式来部署大模型的训练节点。容器化部署是指在一台物理机上运行多个虚拟机,多个虚拟机共享操作系统,每个虚拟机都是独立的一个环境,容器化部署使得多个环境之间不会相互影响的同时提高环境运行的安全性。
2、然而,相关技术所采用的通信方式使得真实的生产集群产生了复杂的图形处理器网络拓扑和层次结构,在这种情况下,相关技术以如以太网交换机等物理机器作为最低的颗粒度来构建物理节点的网络拓扑,这种网络拓扑无法发现图形处
...【技术保护点】
1.基于GPU网络拓扑的大模型容量编排方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于GPU网络拓扑的大模型容量编排方法,其特征在于,所述检测多个设备之间的网络带宽信息,包括:
3.根据权利要求1所述的基于GPU网络拓扑的大模型容量编排方法,其特征在于,所述根据所述设备网络拓扑确定与所述训练请求对应的训练网络拓扑,包括:
4.根据权利要求3所述的基于GPU网络拓扑的大模型容量编排方法,其特征在于,所述根据所述训练网络拓扑,创建大模型容器,包括:
5.根据权利要求4所述的基于GPU网络拓扑的大模型容量编排方法
...【技术特征摘要】
1.基于gpu网络拓扑的大模型容量编排方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于gpu网络拓扑的大模型容量编排方法,其特征在于,所述检测多个设备之间的网络带宽信息,包括:
3.根据权利要求1所述的基于gpu网络拓扑的大模型容量编排方法,其特征在于,所述根据所述设备网络拓扑确定与所述训练请求对应的训练网络拓扑,包括:
4.根据权利要求3所述的基于gpu网络拓扑的大模型容量编排方法,其特征在于,所述根据所述训练网络拓扑,创建大模型容器,包括:
5.根据权利要求4所述的基于gpu网络拓扑的大模型容量编排方法,其特征在于,所述通过配置所述大模型容器,执行与所述训练请求对应的训练任务,包括:
6.根据权利要求1所述...
【专利技术属性】
技术研发人员:魏鹏,阮宜龙,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。