【技术实现步骤摘要】
一种分布式深度学习的梯度信息更新方法及相关装置
本申请涉及计算机
,特别涉及一种分布式深度学习的梯度信息更新方法、梯度信息更新装置、计算机设备以及计算机可读存储介质。
技术介绍
随着信息技术的不断发展,深度学习训练技术的要求越来越高,为了提高训练的效率出现了分布式深度学习。分布式深度学习模型训练时,需进行计算节点间通信,以实现梯度信息的归约处理,保证各计算节点的副本模型同步更新。当模型非常大、样本量非常多、计算集群规模非常大时,计算节点间的通信时间长并且造成冗长的消息处理等待时间,该过程对GPU的利用率低,不能充分利用计算资源,导致模型训练时间长,降低试错和调试的效率。现有技术中,主要是由于大规模分布式深度学习模型训练时,每个计算节点会产生一份梯度信息(局部梯度信息),节点间需进行梯度交换和归约(全局归约操作),以获取全局梯度值,进而对模型同步更新,保证各计算节点副本模型的一致。该过程中,模型的大小和节点间的通信带宽决定了通信时长,节点的异构特性或者同构设备的制造误差等决定了通信等待时长,上述两者共同影响训练时长。进而 ...
【技术保护点】
1.一种分布式深度学习的梯度信息更新方法,其特征在于,包括:/n当迭代次数大于预设开关次数时,节点根据预设的梯度门限值对计算出的梯度信息进行稀疏通信;/n对接收到的梯度信息进行归约处理,得到已归约梯度信息;/n根据设置的惯量系数对所述已归约梯度信息进行修正处理得到目标梯度,根据所述目标梯度将所述节点中的副本模型进行更新。/n
【技术特征摘要】
1.一种分布式深度学习的梯度信息更新方法,其特征在于,包括:
当迭代次数大于预设开关次数时,节点根据预设的梯度门限值对计算出的梯度信息进行稀疏通信;
对接收到的梯度信息进行归约处理,得到已归约梯度信息;
根据设置的惯量系数对所述已归约梯度信息进行修正处理得到目标梯度,根据所述目标梯度将所述节点中的副本模型进行更新。
2.根据权利要求1所述的梯度信息更新方法,其特征在于,当迭代次数大于预设开关次数时,节点根据预设的梯度门限值对计算出的梯度信息进行稀疏通信,包括:
当所述迭代次数大于所述预设开关次数时,所述节点对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数;
将重要程度系数大于预设系数的梯度信息作为稀疏梯度,并将所述稀疏的索引信息进行广播,以便其它节点根据所述索引信息向所述节点发送稀疏梯度的通信请求;
当接收到通信请求时,根据所述梯度门限值对所述稀疏梯度进行归零处理,得到归零梯度信息;
将所述归零梯度信息进行通信。
3.根据权利要求2所述的梯度信息更新方法,其特征在于,当接收到通信请求时,根据所述梯度门限值对所述稀疏梯度进行归零处理,得到归零梯度信息,包括:
当接收到所述通信请求时,将所述稀疏梯度的绝对值小于所述梯度门限值的稀疏梯度值设为零,得到归零梯度值;
将剩余的稀疏梯度和所述归零梯度值作为所述归零梯度信息。
4.根据权利要求2所述的梯度信息更新方法,其特征在于,当所述迭代次数大于所述预设开关次数时,所述节点对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数,包括:
当所述迭代次数大于所述预设开关次数时,所述节点判断是否将梯度信息计算完成;
若是,则对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数;
若否,则发送广播等待消息。
5.一种分布式深度学习的梯度信息更新装置,其特征在于,包括:
稀疏通信模块,用于当迭代次数大于预设开关次数时,节点根据预设的梯度门限值对计算出的梯度信息进行稀疏通信;
归约处理模块,用于对接收到的梯度信息...
【专利技术属性】
技术研发人员:张玉彦,陈培,张东,
申请(专利权)人:浪潮电子信息产业股份有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。