分布式训练方法、梯度通信方法、装置及电子设备制造方法及图纸

技术编号：37158356 阅读：29 留言：0更新日期：2023-04-06 22:21

本公开公开了一种分布式训练方法、梯度通信方法、装置及电子设备，涉及人工智能领域，尤其涉及深度学习领域。具体实现方案为：利用第一通信方式，与其他计算节点交换各自的有效参数，其中，有效参数为计算节点对应稀疏梯度中有效梯度的行数，有效梯度为计算节点对应稀疏梯度中有效部分的梯度数据；基于所有计算节点的有效参数，确定与其他计算节点交换各自的有效行参数和有效梯度的第二通信方式，其中，有效行参数是表示稀疏梯度与有效梯度映射关系的数组；利用第二通信方式，与其他计算节点交换各自的有效行参数和有效梯度。本公开实施例节约了通信资源，提升了深度神经网络分布式训练的通信性能。练的通信性能。练的通信性能。

全部详细技术资料下载

【技术实现步骤摘要】
分布式训练方法、梯度通信方法、装置及电子设备

[0001]本公开涉及人工智能领域，尤其涉及深度学习

技术介绍

[0002]随着深度神经网络(deep neural networks，DNNs)的规模及训练数据集的日趋变大，在DNNs中引入了分布式训练框架，利用多个计算节点进行分布式训练，以减少深度神经网络的训练时间。
[0003]在分布式训练框架中，每个计算节点具有相同的模型副本，然后每次迭代读取数据集中不同批次的数据来训练本地的模型参数，并在每次更新模型参数之前，所有计算节点都需要进行通信，以实现不同计算节点之间的梯度同步。但是，当计算节点的梯度为稀疏梯度时，稀疏梯度中只有部分梯度数据为有效值，其余数据均为无效值，此时若依然按照稠密梯度的通信方式传输稀疏梯度，则会传输稀疏梯度中包括无效值的所有数据，从而会产生大量的无用通信，消耗了大量的通信资源，进而影响深度神经网络分布式训练的通信性能。

技术实现思路

[0004]本公开提供了一种用于深度神经网络的分布式训练方法、梯度通信方法、装置、设备以及存储介质。
[0005]根据本公开的一方面，提供了一种梯度通信方法，应用于深度神经网络的分布式训练框架中，所述分布式训练框架包括多个计算节点，所述方法由每个计算节点执行，所述方法包括：利用第一通信方式，与其他计算节点交换各自的有效参数，其中，所述有效参数为所述计算节点对应稀疏梯度中有效梯度的行数，所述有效梯度为所述计算节点对应稀疏梯度中有效部分的梯度数据；基于所有计算节点的有效参数，确定...

【技术保护点】

【技术特征摘要】
1.一种梯度通信方法，应用于深度神经网络的分布式训练框架中，所述分布式训练框架包括多个计算节点，所述方法由每个计算节点执行，所述方法包括：利用第一通信方式，与其他计算节点交换各自的有效参数，其中，所述有效参数为所述计算节点对应稀疏梯度中有效梯度的行数，所述有效梯度为所述计算节点对应稀疏梯度中有效部分的梯度数据；基于所有计算节点的有效参数，确定与其他计算节点交换各自的有效行参数和有效梯度的第二通信方式，其中，所述有效行参数是表示所述稀疏梯度与所述有效梯度映射关系的数组；利用所述第二通信方式，与其他计算节点交换各自的有效行参数和有效梯度。2.如权利要求1所述的方法，其中，所述利用第一通信方式，与其他计算节点交换各自的有效参数之前，还包括确定所述有效参数；所述确定所述有效参数，包括：确定所述计算节点的稀疏梯度；利用三元组对所述稀疏梯度进行表示，其中，所述三元组为<有效行参数，行数，有效梯度>，所述行数表示所述稀疏梯度中的总行数；基于所述有效行参数中的数据元素个数，确定所述有效参数。3.如权利要求1所述的方法，其中，所述基于所有计算节点的有效参数，确定向所述其他计算节点发送有效行参数和有效梯度的第二通信方式，包括：判断所述所有计算节点的有效参数是否相同；若所述所有计算节点的有效参数相同，则确定与其他计算节点交换各自的有效行参数和有效梯度的第二通信方式为所述第一通信方式；若所述所有计算节点的有效参数不相同，则确定与其他计算节点交换各自的有效行参数和有效梯度的第二通信方式为第三通信方式。4.如权利要求1所述的方法，其中，还包括：基于所述所有计算节点的有效参数，确定存储所述所有计算节点的有效行参数和有效梯度所需的存储空间。5.一种分布式训练方法，应用于深度神经网络的分布式训练框架中，所述分布式训练框架包括多个计算节点，所述方法由每个计算节点执行，所述方法包括：利用第一通信方式，与其他计算节点交换各自的有效参数，其中，所述有效参数为所述计算节点对应稀疏梯度中有效梯度的行数，所述有效梯度为所述计算节点对应稀疏梯度中有效部分的梯度数据；基于所有计算节点的有效参数，确定与其他计算节点交换各自的有效行参数和有效梯度的第二通信方式，其中，所述有效行参数是表示所述稀疏梯度与所述有效梯度映射关系的数组；利用所述第二通信方式，与其他计算节点交换各自的有效行参数和有效梯度，得到所有计算节点的有效行参数和汇聚后的有效梯度；基于所有计算节点的有效行参数和所述汇聚后的有效梯度，确定目标稀疏梯度；基于所述目标稀疏梯度对所述深度神经网络的网络参数进行更新。6.如权利要求5所述的方法，其中，所述利用第一通信方式，与其他计算节点交换各自
的有效参数之前，还包括确定所述有效参数；所述确定所述有效参数，包括：确定所述计算节点的稀疏梯度；利用三元组对所述稀疏梯度进行表示，其中，所述三元组为<有效行参数，行数，有效梯度>，所述行数表示所述稀疏梯度中的总行数；基于所述有效行参数中的数据元素个数，确定所述有效参数。7.如权利要求5所述的方法，其中，所述基于所有计算节点的有效参数，确定与其他计算节点交换各自的有效行参数和有效梯度的第二通信方式，包括...

【专利技术属性】
技术研发人员：沈亮，于佃海，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人