一种用于分布式深度学习的压缩梯度的方法技术

技术编号：20486697 阅读：23 留言：0更新日期：2019-03-02 19:43

本发明专利技术公开了一种用于分布式深度学习的压缩梯度的方法，利用每一层计算出的梯度矩阵的熵来判断这一层梯度中所包含信息的多少，以此来判断每一层梯度的重要性。之后，利用熵来计算出每一层需要发送多少百分比的梯度，这样既可以减少人工经验的影响，又可以在保证不降低准确率的情况下有效的对梯度进行压缩。

A Compression Gradient Method for Distributed Deep Learning

The present invention discloses a compression gradient method for distributed depth learning, which uses the entropy of gradient matrix calculated at each layer to judge the amount of information contained in the gradient layer, and to judge the importance of each gradient layer. Then, we use the entropy to calculate the gradient of the percentage of each layer, which can not only reduce the impact of human experience, but also effectively compress the gradient without reducing the accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
一种用于分布式深度学习的压缩梯度的方法
本专利技术涉及分布式训练和深度学习，更具体的说是涉及一种用于分布式深度学习的压缩梯度的方法。
技术介绍
随着大数据和高效计算资源的出现，深度学习在人工智能的很多领域都取得了重大突破。然而，面对越来越复杂的任务，数据和深度学习模型的规模都变得日益庞大。为了提高深度学习模型的训练效率，减少训练时间，采用了分布式技术来执行训练任务。通过增加训练节点的数量和利用数据并行的优势，可以极大减少在同等规模训练数据上的前向反向的总计算时间。然而，在反向计算出每一层的梯度之后，梯度交换的成本很高，工作节点之间需要频繁地进行梯度通信，而且由于反向计算出的梯度大部分会趋近于0，而这样的梯度对之后的训练是没有帮助的。所以由并行训练带来的计算时间上的节省，可能将不足以补偿通信时间上代价的增长。因此，网络带宽成为分布式训练规模化的最大瓶颈。对于这样的瓶颈，目前主要有两种解决方法，梯度量化和梯度稀疏化。梯度量化主要是将梯度量化到低精度值以减少通信带宽，主要的方法是1bit量化。梯度稀疏化又叫做阈值量化，在现有的技术中，梯度稀疏化的方法主要依靠人工定义的恒定的阈值或固定的比例来确定需要发送的梯度。因此，如何提供一种减少人工经验对于训练效果的影响，且不降低准确率的用于分布式深度学习的压缩梯度的方法是本领域技术人员亟需解决的问题。
技术实现思路
有鉴于此，本专利技术提供了一种用于分布式深度学习的压缩梯度的方法，利用每一层计算出的梯度矩阵的熵来判断这一层梯度中所包含信息的多少，以此来判断每一层梯度的重要性。之后，利用熵来计算出每一层需要发送多少百分比的梯度，...

【技术保护点】
1.一种用于分布式深度学习的压缩梯度的方法，其特征在于，包括如下具体步骤：步骤1：工作节点读入本地的一批训练数据到内存中；步骤2：判断是否是第一次迭代训练，如果是第一次迭代训练则初始化模型参数，同时初始化梯度残差G执行步骤3；如果不是第一次迭代训练则执行步骤3；步骤3：工作节点利用读入的样本数据及对应的期望输出，进行前向传播；在前向传播的过程中，深度神经网络的每一层接受上层的输入x，通过线性变换输出y、非线性变换输出z，作为下一层的输入，最后一层的输出作为深度神经网络的输出；步骤4：工作节点根据前向传播的最后一层的输出与样本数据的期望输出的误差得到损失值Loss；根据损失值Loss进行反向传播，逐层计算参数梯度u；步骤5：工作节点在每一层计算出梯度u之后，对计算出的梯度u进行压缩梯度的处理；其中，所述压缩梯度的具体步骤如下：步骤51：初始化层数l为1，并且判断层数l是否小于或等于所述深度学习模型的层数L，若小于或等于则执行步骤52，若大于则读取数据进行下一次迭代的训练执行步骤1；步骤52：对于工作节点训练第l层神经网络计算出的梯度u(l)，将梯度平均分成m个区间；假设每个梯度区间中包含...

【技术特征摘要】
1.一种用于分布式深度学习的压缩梯度的方法，其特征在于，包括如下具体步骤：步骤1：工作节点读入本地的一批训练数据到内存中；步骤2：判断是否是第一次迭代训练，如果是第一次迭代训练则初始化模型参数，同时初始化梯度残差G执行步骤3；如果不是第一次迭代训练则执行步骤3；步骤3：工作节点利用读入的样本数据及对应的期望输出，进行前向传播；在前向传播的过程中，深度神经网络的每一层接受上层的输入x，通过线性变换输出y、非线性变换输出z，作为下一层的输入，最后一层的输出作为深度神经网络的输出；步骤4：工作节点根据前向传播的最后一层的输出与样本数据的期望输出的误差得到损失值Loss；根据损失值Loss进行反向传播，逐层计算参数梯度u；步骤5：工作节点在每一层计算出梯度u之后，对计算出的梯度u进行压缩梯度的处理；其中，所述压缩梯度的具体步骤如下：步骤51：初始化层数l为1，并且判断层数l是否小于或等于所述深度学习模型的层数L，若小于或等于则执行步骤52，若大于则读取数据进行下一次迭代的训练执行步骤1；步骤52：对于工作节点训练第l层神经网络计算出的梯度u(l)，将梯度平均分成m个区间；假设每个梯度区间中包含j个梯度，对每个区间的...

【专利技术属性】
技术研发人员：匡迪，吴维刚，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人