【技术实现步骤摘要】
计算资源分配方法、电子设备、存储介质及程序产品
[0001]本申请一般涉及人工智能
,具体涉及模型训练
,尤其涉及一种计算资源分配方法、电子设备、存储介质及程序产品。
技术介绍
[0002]随着深度学习技术不断发展,神经网络模型的参数量也逐步提高。参数量的提高需要使用多个计算设备进行分布式训练模型,即:使用模型并行的分布式训练技术,利用多个计算设备的存储和计算资源完成模型的训练。
[0003]相关技术中,主要有张量模型并行和流水线模型并行的分布式训练技术,这两种并行技术把整个模型计算任务拆分成子任务,分配给不同设备执行。张量模型并行把单个算子拆分到不同设备上,而流水线模型并行把模型不同的层拆分到不同设备上,通过通信算子交换各自计算的结果,多个设备合作完成大模型训练所需的计算任务。张量模型并行方案对于设备间的通信带宽要求相对较高,带宽不足的情况下训练效率低,流水线模型并行方案较张量模型并行方案虽然通信量低一些,但由于通信占比仍然很高,且不能将计算和通信过程并行,因此通信开销仍然很高而影响模型的训练效率。r/>
技术实现思路
<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种计算资源分配方法,其特征在于,所述计算资源分配方法用于神经网络模型的训练,所述神经网络模型包括多个子模型,所述多个子模型一一对应地部署在多个训练节点上,所述方法包括:获得训练节点上子模型执行计算任务的计算时间和执行通信任务的通信时间;根据所述计算时间和所述通信时间得到延迟步数;根据所述延迟步数、数据样本的大小和所述多个训练节点的数量,获得所述训练节点上执行的多个计算任务和多个通信任务的调度方案,其中,所述数据样本的大小包括所述数据样本的总大小和由所述数据样本拆分的子数据的大小;根据所述调度方案为所述多个计算任务和多个通信任务生成调度指令序列;根据所述调度指令序列控制所述训练节点依据所述数据样本对部署在所述训练节点上的子模型进行训练。2.根据权利要求1所述的计算资源分配方法,其特征在于,所述根据所述计算时间和所述通信时间得到延迟步数,包括:比较所述计算时间和所述通信时间;如果所述通信时间小于所述计算时间,将所述延迟步数设为第一延迟步数,否则,将所述延迟步数设为第二延迟步数,其中,所述第一延迟步数小于所述第二延迟步数。3.根据权利要求2所述的计算资源分配方法,其特征在于,所述第一延迟步数为2,所述第二延迟步数为3。4.根据权利要求1
‑
3任一项所述的计算资源分配方法,其特征在于,所述根据所述延迟步数、数据样本的大小和所述多个训练节点的数量,获得所述训练节点上执行的多个计算任务和多个通信任务的调度方案,包括:根据所述延迟步数、数据样本的大小和所述多个训练节点的数量,获得所述训练节点上执行的多个计算任务,对所述多个计算任务进行排序;为所述多个计算任务中每个计算任务设置通信任务,得到所述多个计算任务和所述多个通信任务的排序;根据所述多个计算任务和所述多个通信任务的排序得到所述多个计算任务和多个通信任务的调度方案。5.根...
【专利技术属性】
技术研发人员:高华佐,丁劭华,王彪,许欣然,
申请(专利权)人:北京旷视科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。