一种用于分布式深度学习训练的本地更新方法技术

技术编号:27413114 阅读:34 留言:0更新日期:2021-02-21 14:28
本发明专利技术公开了一种用于分布式深度学习训练的本地更新方法,具体包括以下步骤:对从参数服务器端取回的全局权重进行备份并保存到备份权重变量中;在每个计算节点中计算全局梯度;利用本地梯度和全局梯度对本地权重进行更新得到新的本地权重,并开始下一轮的迭代训练;在接下来的k

【技术实现步骤摘要】
一种用于分布式深度学习训练的本地更新方法


[0001]本专利技术涉及人工智能
,尤其涉及一种分布式深度学习的训练更新方法。

技术介绍

[0002]深度学习最近在计算机视觉、自然语言处理、自动驾驶、智能医疗等各个领域都取得了很大的成功。深度学习的兴起主要源于两个条件,一是通用和定制化硬件加速器(GPU,NPU,TPU等)的出现,该类硬件加速器在计算能力方面带来了巨大的进步,二是如ImageNet和CIFAR这样的通用训练数据集的开源。然而,随着深度神经网络和数据集规模的快速增长,用于训练的机器的计算能力成为瓶颈,需要几天或几周才能完成一个大型神经网络模型的训练,在这种情况下,分布式训练成为普遍的做法,它极大地提高了训练效率,提升了神经网络模型的研发速度。
[0003]随机梯度下降(SGD)是广泛用于分布式训练的优化方法。同步SGD(SSGD)和异步SGD(ASGD)是在分布式深度学习训练过程中最常用的两种更新方法。SSGD方法可以保证模型良好的收敛精度,但训练过程中的同步栅栏严重限制了分布式训练的速度。在同步随机梯度下降方法中,其采本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于分布式深度学习训练的本地更新方法,其特征在于,延迟步数为k,具体包括以下步骤:S1,对从参数服务器端取回的t-1时刻全局权重w
t-1
进行备份并保存到备份权重变量pre_weight中,此时t-1时刻各个计算节点的本地权重w

t-1
均等于t-1时刻全局权重w
t-1
,也等于备份权重pre_weight;S2,在每个计算节点中计算全局梯度grad
sync
:w

t-1,i
为t-1时刻第i个计算节点的本地权重,m和lr分别为参数服务器中设定的动量值和全局学习率;在进行k次本地更新操作后,将利用t时刻第i个计算节点的本地权重w

t,i
对pre_weight的值进行覆盖;S3,对本地权重进行更新得到新的本地权重,本地更新的计算公式为:其中w

t,i
为t时刻第i个计算节点的本地权重,loc_lr为本地学习率,α和β是用于决定本地梯度和全局梯度所占比例的系数,t-1时刻第i个计算节点权重w

t-1,i
的值取决于计算节点...

【专利技术属性】
技术研发人员:董德尊徐叶茂徐炜遐廖湘科
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1