梯度融合的方法、装置及计算机可读存储介质制造方法及图纸

技术编号：19747309 阅读：39 留言：0更新日期：2018-12-12 05:05

本发明专利技术公开了一种梯度融合的方法，确定深度学习分布式训练架构中各个节点上的输入张量，然后将输入张量逐个转移到融合缓冲区，判断融合缓冲区的输入张量的数量是否大于预设张量数量，若大于，则对融合缓冲区内的输入张量进行allreduce算法处理，得到输出张量。可见，本发明专利技术根据融合缓冲区内张量数量与预设张量数量的大小来决定是否继续转移张量，相较于根据缓冲区内全部张量的大小进行梯度融合的方法，解决了张量大小差异较大导致阈值难以选取的问题，避免了计算融合缓冲区内各个张量大小并累加的过程，因而简化了梯度融合的过程并提高了效率。本发明专利技术还提供了一种梯度融合的装置及计算机可读存储介质，其作用与上述方法的作用相对应。

全部详细技术资料下载

【技术实现步骤摘要】
梯度融合的方法、装置及计算机可读存储介质
本专利技术涉及深度学习领域，特别涉及一种梯度融合的方法、装置及计算机可读存储介质。
技术介绍
深度学习在过去几年中取得了长足的发展，尤其在语音、图像、机器翻译、自然语言处理等领域更是取得了飞跃式的提升，深度学习训练需要海量的数据，这就需要超大规模参数的网络模型拟合。如果训练数据不足，如果网络模型参数太少，会造成欠拟合，模型精度较低。目前常见网络模型参数已经上亿，参数大小达到数GB。数据并行训练方式要求每个GPU节点拥有一份完整的模型参数副本，并在融合梯度时发送和接收完整的梯度数据，巨大的通信数据量给多机多卡并行训练带来了极大的网络通信压力。分布式节点可以通过参数服务器架构通信。这种架构下，在每个迭代中，每个worker从mini-batch中读取自己的那部分，计算属于自己的梯度，并将这些梯度发送到一个或多个参数服务器。参数服务器会聚合来自设备的所有梯度，并等待所有设备完成，然后在下一次迭代中计算新模型，再广播给所有设备。这种架构参数服务器的网络带宽是瓶颈，容易造成网络堵塞。allreduce算法原是HPC领域一种比较成熟的通信算法，百度将其引入到深度学习训练框架中，进一步优化，开发了一种称环形归约的通信模式——Ringallreduce。Ringallreduce完全抛弃了参数服务器，通过均衡网络负载来减少通信时间，理论上可以做到线性加速。此外Ring-allreduce还可以将深层神经网络中较低层的梯度计算与高层梯度的传输重叠，从而进一步减少训练时间。allreduce算法被越来越多的应用的深度学习框架中，比如N...

【技术保护点】
1.一种梯度融合的方法，应用于深度学习分布式训练中，其特征在于，包括：预先确定深度学习分布式训练架构中各个节点上的输入张量；将所述输入张量逐个转移到融合缓冲区，并判断所述融合缓冲区内的输入张量的数量是否大于预设张量数量；若所述输入张量的数量大于预设张量数量，则对所述融合缓冲区内的输入张量进行allreduce算法处理，得到输出张量。

【技术特征摘要】
1.一种梯度融合的方法，应用于深度学习分布式训练中，其特征在于，包括：预先确定深度学习分布式训练架构中各个节点上的输入张量；将所述输入张量逐个转移到融合缓冲区，并判断所述融合缓冲区内的输入张量的数量是否大于预设张量数量；若所述输入张量的数量大于预设张量数量，则对所述融合缓冲区内的输入张量进行allreduce算法处理，得到输出张量。2.如权利要求1所述的方法，其特征在于，在所述预先确定需要进行allreduce算法处理的多个输入张量之前，包括：初始化融合缓冲区。3.如权利要求1所述的方法，其特征在于，所述深度学习分布式训练结构中各个节点都设置有所述融合缓冲区。4.如权利要求3所述的方法，其特征在于，在所述若所述输入张量的数量大于预设张量数量，则对所述融合缓冲区内的输入张量进行allreduce算法处理，得到输出张量之后，包括：将所述输出张量转移到与所述融合缓冲区相对应的节点上。5.一种梯...

【专利技术属性】
技术研发人员：黄雪，刘姝，
申请(专利权)人：浪潮北京电子信息产业有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人