数据搬运方法、分布式训练系统、电子设备和存储介质技术方案

技术编号:41508966 阅读:21 留言:0更新日期:2024-05-30 14:48
一种数据搬运方法、分布式训练系统、电子设备和存储介质。分布式训练系统包括至少一个计算节点,每个计算节点包括至少一个主机和至少一个设备。该数据搬运方法包括:获取待训练的目标模型的模型结构和目标模型在分布式训练系统中的并行策略;根据模型结构和并行策略获取主机内存仿真结果、设备内存仿真结果和运行时信息;根据主机内存仿真结果、设备内存仿真结果和运行时信息生成目标数据的搬移策略;基于搬移策略发送目标数据对应的转移指令和预取指令到分布式训练系统中。转移指令用于在每个计算节点中将目标数据从设备中搬运到主机中,预取指令用于在每个计算节点中将目标数据从主机中搬运到设备中。该数据搬运方法能有效降低显存占用。

【技术实现步骤摘要】

本公开的实施例涉及人工智能,尤其涉及一种数据搬运方法、分布式训练系统、电子设备和存储介质


技术介绍

1、随着技术的发展,人工智能(artificial intelligence,ai)技术在多个领域得到了广泛的应用。深度学习(deep learning)是人工智能技术的重要技术之一,基于人工神经网络的深度学习技术已经在诸如物体分类、文本处理、图像搜索以及人机对话等领域取得了巨大进展。

2、随着问题复杂性的增加,神经网络的深度和规模也不断提升。然而,图形处理器(graphics processing unit,gpu)、张量处理器(tensor processing unit,tpu)、现场可编程门阵列(field programmable gate array,fpga)等ai加速器的存储容量的增速远低于神经网络规模的增长,导致其难以满足大规模深度神经网络模型的训练需求。


技术实现思路

1、本公开至少一实施例提供一种数据搬运方法,所述数据搬运方法包括:获取待训练的目标模型的模型结构和所述目标模型本文档来自技高网...

【技术保护点】

1.一种数据搬运方法,包括:

2.根据权利要求1所述的数据搬运方法,其中,所述获取主机内存仿真结果、设备内存仿真结果,包括:

3.根据权利要求1所述的数据搬运方法,其中,所述运行时信息包括所述目标模型中的多个算子的执行时间。

4.根据权利要求3所述的数据搬运方法,其中,所述根据所述主机内存仿真结果、所述设备内存仿真结果和所述运行时信息生成目标数据的搬移策略,包括:

5.根据权利要求1所述的数据搬运方法,其中,所述目标模型的多个层被拆分为多个阶段,所述多个阶段分别分布在所述至少一个计算节点的多个设备中,所述多个阶段中的每个阶段包括多个微批次数...

【技术特征摘要】

1.一种数据搬运方法,包括:

2.根据权利要求1所述的数据搬运方法,其中,所述获取主机内存仿真结果、设备内存仿真结果,包括:

3.根据权利要求1所述的数据搬运方法,其中,所述运行时信息包括所述目标模型中的多个算子的执行时间。

4.根据权利要求3所述的数据搬运方法,其中,所述根据所述主机内存仿真结果、所述设备内存仿真结果和所述运行时信息生成目标数据的搬移策略,包括:

5.根据权利要求1所述的数据搬运方法,其中,所述目标模型的多个层被拆分为多个阶段,所述多个阶段分别分布在所述至少一个计算节点的多个设备中,所述多个阶段中的每个阶段包括多个微批次数据,每个阶段中的所述多个微批次数据按照前向计算和反向计算交叉执行的方式参与训练。

6. 根据权利要求5所述的数据搬运方法,其中,所述搬移策略包括对所述多个微批次数据对应的目标数据的异步搬移策略,其中,所述异步搬移策略包括:

7. 根据权利要求5所述的数据...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:北京壁仞科技开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1