【技术实现步骤摘要】
分布式模型训练的负载均衡方法和装置
[0001]本公开涉及人工智能领域,尤其涉及深度学习领域,具体为一种分布式模型训练的负载均衡方法和装置。
技术介绍
[0002]在近年来的深度学习模型训练中,使用更多的训练数据和更大的模型趋势未改。更大的模型和数据量意味着更多的计算量和存储需求,也意味着更久的训练时间。那么如何将计算和存储需求分布到多个训练设备来提升训练速度,是关键问题。
[0003]数据并行(data parallelism)是解决上述问题的一种并行策略,在数据并行的模型训练中,训练任务被切分到多个进程(设备)上,每个进程维护相同的模型参数和相同的计算任务,但是处理不同的数据(batch data)。通过这种方式,同一全局数据(global batch)下的数据和计算被切分到了不同的进程,从而减轻了单个设备上的计算和存储压力。
[0004]分布式模型训练(例如,MoE(Mixure
‑
of
‑
Experts,混合专家模型))是实现超大规模模型训练的技术路径之一。该模型的 ...
【技术保护点】
【技术特征摘要】
1.一种分布式模型训练的负载均衡方法,包括:统计分布式模型的各个计算节点上的负载量;根据各个计算节点上的负载量之间的比值确定所述分布式模型是否负载均衡;若负载不均衡且有空闲的计算节点,则为所述分布式模型增加与负载量最大的目标计算节点的模型参数相同的同类计算节点;在各个计算节点上进行梯度反向计算后,将所述同类计算节点上的网络参数的梯度与所述目标计算节点上的网络参数的梯度进行同步。2.根据权利要求1所述的方法,其中,所述方法还包括:若负载不均衡且没有空闲的计算节点,则将负载量最小的至少2个计算节点合并成1个计算节点。3.根据权利要求1所述的方法,其中,所述分布式模型为混合专家模型,每个计算节点包括:骨干网络、门控网络和专家网络。4.根据权利要求2所述的方法,其中,分布式模型为混合专家模型,每个计算节点包括:骨干网络、门控网络和专家网络;以及所述将负载量最小的至少2个计算节点合并成1个计算节点,包括:将负载量最小的至少2个计算节点的骨干网络和门控网络的参数分别合并后作为公共骨干网络和公共门控网络;将所述公共门控网络的输出结果分别作为所述负载量最小的至少2个计算节点的专家网络的输入。5.根据权利要求3所述的方法,其中,所述统计分布式模型的各个计算节点上的负载量,包括:统计分布式模型的各个计算节点上的专家网络的负载量。6.根据权利要求3所述的方法,其中,所述将所述同类计算节点上的网络参数的梯度与所述目标计算节点上的网络参数的梯度进行同步,包括:将所述同类计算节点上的专家网络的参数的梯度与所述目标计算节点上的专家网络的参数的梯度进行同步。7.根据权利要求2所述的方法,其中,所述方法还包括:在将负载量最小的至少2个计算节点合并成1个计算节点后空出的计算节点中,加载与负载量最大的目标计算节点的模型参数相同的模型。8.一种分布式模型训练的负载均衡装置,包括:统计单元,被配置成统计分布式模型的各个计算节点上的负载量;确定单元,被配置成根据各个计算节点上的负载量之间的比值确定所述分布式模型是否负载均衡;增加单元,被配置成若负载不均衡且有空闲的计算节点,则为所述分布式模型增加与负载量最大的目标计算节点的模型参数...
【专利技术属性】
技术研发人员:沈亮,吴志华,于佃海,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。