一种数据传输方法、装置、电子设备和介质制造方法及图纸

技术编号：33083762 阅读：51 留言：0更新日期：2022-04-15 10:42

本申请实施例公开了一种数据传输方法、装置、电子设备和计算机可读存储介质，将待处理数据的梯度矩阵划分为多个固定长度的数据集；按照设定的筛选粒度，从每个数据集中筛选出预设个数的梯度数值。将筛选出的梯度数值组合为目标数据集；基于梯度数值在梯度矩阵中的位置，确定出每个目标数据集对应的梯度掩码。将目标数据集及其对应的梯度掩码传输至对端设备，对端设备可以根据梯度掩码将目标数据集还原至对应的位置，从而可以重构出梯度矩阵。通过设置筛选粒度实现对梯度矩阵的压缩，以及基于梯度掩码实现对目标数据集的还原，既降低压缩后的梯度矩阵的稀疏度，又能够保证压缩后的梯度矩阵是原始梯度矩阵的有效近似。梯度矩阵是原始梯度矩阵的有效近似。梯度矩阵是原始梯度矩阵的有效近似。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据传输方法、装置、电子设备和介质

[0001]本申请涉及设备通信
，特别是涉及一种数据传输方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]分布式深度学习的模型训练通常依赖图形处理器(Graphics Processing Unit，GPU)集群加速，具体的并行算法又可分为数据并行和模型并行两种，其中最常用的是数据并行。在数据并行中，每个GPU上都有完整的模型，训练数据分发到不同的GPU上，每个GPU均独立执行前向处理计算损失函数，再执行反向传播计算梯度矩阵，最后多个GPU执行AllReduce集合通信同步梯度，使用平均梯度更新权重矩阵，重复上述过程直到模型训练完成。
[0003]多个GPU执行AllReduce集合通信最常用的实现方式是Ring
‑
AllReduce算法。该算法采用环形拓扑连接多个GPU，将数据切分为小块并在环内循环传递。每个GPU均从环形拓扑的上一个GPU接收一块数据，同时也向环形拓扑的下一个GPU发送大小相同的一块数据，这种方式可以平衡利用每条链路的发送和接收带宽。假设GPU数量是N，数据大小是K，链路带宽是B，可以得出整体通信时间是2*(N
‑
1)*K/(N*B)。当GPU数量N足够大时，整体通信时间只依赖于数据大小K和链路带宽B。链路带宽B取决于现有外部总线和网络互联技术，短期内无法快速提升，数据大小K却可以通过算法优化来有效降低。
[0004]深度学习模型的梯度矩阵非常庞大，其中很多梯度的绝对值都比较小，对更新...

【技术保护点】

【技术特征摘要】
1.一种数据传输方法，其特征在于，包括：将待处理数据的梯度矩阵划分为多个固定长度的数据集；按照设定的筛选粒度，从每个所述数据集中筛选出预设个数的梯度数值；将筛选出的所述梯度数值组合为目标数据集；基于所述梯度数值在所述梯度矩阵中的位置，确定出每个所述目标数据集对应的梯度掩码；将所述目标数据集及其对应的梯度掩码传输至对端设备。2.根据权利要求1所述的数据传输方法，其特征在于，所述按照设定的筛选粒度，从每个所述数据集中筛选出预设个数的梯度数值包括：所述数据集的各线程按照设定的掩码计算方式，确定出其所在数据集中剩余数据的源线程编号；基于所述源线程编号，获取到对应的梯度数值；依据每个所述数据集包含的所有所述梯度数值，选取出取值最大的预设个数的梯度数值。3.根据权利要求2所述的数据传输方法，其特征在于，所述设定的筛选粒度包括从相邻的四个梯度数值中筛选两个梯度数值；相应的，所述依据每个所述数据集包含的所有所述梯度数值，选取出取值最大的预设个数的梯度数值包括：将每相邻的四个梯度数值作为一个数据集，从所述四个梯度数值中筛选出取值最大的两个梯度数值。4.根据权利要求1所述的数据传输方法，其特征在于，所述基于所述梯度数值在所述梯度矩阵中的位置，确定出每个所述目标数据集对应的梯度掩码包括：按照二进制形式，将筛选出的所述梯度数值在所述梯度矩阵中的位置置一，将所述梯度矩阵中的剩余位置置零。5.根据权利要求1所述的数据传输方法，其特征在于，所述将所述目标数据集及其对应的梯度掩码传输至对端设备包括：按照设定的数...

【专利技术属性】
技术研发人员：赵谦谦，阚宏伟，王彦伟，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人