梯度的通信控制方法、装置、电子设备及存储介质制造方法及图纸

技术编号:46620021 阅读:0 留言:0更新日期:2025-10-14 21:15
本公开提供了梯度的通信控制方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及人工智能、大模型、深度学习、分布式训练等技术领域。具体实现方案为:识别本地节点的目标参数组的梯度变化;所述本地节点为对目标模型进行分布式训练的多个计算节点中的任意节点;所述本地节点存储有所述目标模型的多个参数组;所述目标参数组为所述多个参数组中的任意参数组;在所述目标参数组的梯度变化满足通信条件的情况下,将所述目标参数组的梯度同步给所述多个计算节点中的目标节点。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及人工智能、大模型、深度学习、分布式训练等。


技术介绍

1、随着深度学习模型的规模和复杂度不断增长,训练神经网络模型需要消耗大量的计算资源和内存。

2、由于单机设备的计算资源、内存难以满足大模型的训练需求,因此需要分布式训练方式来完成模型的训练。其中,分布式训练方式中需要不同的计算节点之间进行梯度同步,以完成对模型参数的更新。


技术实现思路

1、本公开提供了一种梯度的通信控制方法、装置、电子设备及存储介质

2、根据本公开的一方面,提供了一种梯度的通信控制方法,包括:

3、识别本地节点的目标参数组的梯度变化;所述本地节点为对目标模型进行分布式训练的多个计算节点中的任意节点;所述本地节点存储有所述目标模型的多个参数组;所述目标参数组为所述多个参数组中的任意参数组;

4、在所述目标参数组的梯度变化满足通信条件的情况下,将所述目标参数组的梯度同步给所述多个计算节点中的目标节点。

5、根据本公开的另一方面,提供了一种梯度的通信控制装置本文档来自技高网...

【技术保护点】

1.一种梯度的通信控制方法,包括:

2.根据权利要求1所述的方法,还包括基于以下方法确定所述多个参数组:

3.根据权利要求2所述的方法,其中,对所述多个模型参数进行分组的分组规则包括以下至少一种:

4.根据权利要求1-3中任一项所述的方法,其中,所述识别本地节点的目标参数组的梯度变化,包括:

5.根据权利要求4所述的方法,其中,所述确定所述目标参数组对应的梯度缓存中的待统计信息,包括:

6.根据权利要求4所述的方法,其中:

7.根据权利要求6所述的方法,其中,在所述目标参数组内的多个参数张量的梯度更新频率相同的情况下...

【技术特征摘要】

1.一种梯度的通信控制方法,包括:

2.根据权利要求1所述的方法,还包括基于以下方法确定所述多个参数组:

3.根据权利要求2所述的方法,其中,对所述多个模型参数进行分组的分组规则包括以下至少一种:

4.根据权利要求1-3中任一项所述的方法,其中,所述识别本地节点的目标参数组的梯度变化,包括:

5.根据权利要求4所述的方法,其中,所述确定所述目标参数组对应的梯度缓存中的待统计信息,包括:

6.根据权利要求4所述的方法,其中:

7.根据权利要求6所述的方法,其中,在所述目标参数组内的多个参数张量的梯度更新频率相同的情况下,所述第一通信阈值和/或所述第二通信阈值为所述目标参数组的梯度更新频率。

...

【专利技术属性】
技术研发人员:沈亮于佃海马艳军
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1