【技术实现步骤摘要】
一种用于分布式深度学习训练的本地更新方法
[0001]本专利技术涉及人工智能
,尤其涉及一种分布式深度学习的训练更新方法。
技术介绍
[0002]深度学习最近在计算机视觉、自然语言处理、自动驾驶、智能医疗等各个领域都取得了很大的成功。深度学习的兴起主要源于两个条件,一是通用和定制化硬件加速器(GPU,NPU,TPU等)的出现,该类硬件加速器在计算能力方面带来了巨大的进步,二是如ImageNet和CIFAR这样的通用训练数据集的开源。然而,随着深度神经网络和数据集规模的快速增长,用于训练的机器的计算能力成为瓶颈,需要几天或几周才能完成一个大型神经网络模型的训练,在这种情况下,分布式训练成为普遍的做法,它极大地提高了训练效率,提升了神经网络模型的研发速度。
[0003]随机梯度下降(SGD)是广泛用于分布式训练的优化方法。同步SGD(SSGD)和异步SGD(ASGD)是在分布式深度学习训练过程中最常用的两种更新方法。SSGD方法可以保证模型良好的收敛精度,但训练过程中的同步栅栏严重限制了分布式训练的速度。在同步随机 ...
【技术保护点】
【技术特征摘要】
1.一种用于分布式深度学习训练的本地更新方法,其特征在于,延迟步数为k,具体包括以下步骤:S1,对从参数服务器端取回的t-1时刻全局权重w
t-1
进行备份并保存到备份权重变量pre_weight中,此时t-1时刻各个计算节点的本地权重w
′
t-1
均等于t-1时刻全局权重w
t-1
,也等于备份权重pre_weight;S2,在每个计算节点中计算全局梯度grad
sync
:w
′
t-1,i
为t-1时刻第i个计算节点的本地权重,m和lr分别为参数服务器中设定的动量值和全局学习率;在进行k次本地更新操作后,将利用t时刻第i个计算节点的本地权重w
′
t,i
对pre_weight的值进行覆盖;S3,对本地权重进行更新得到新的本地权重,本地更新的计算公式为:其中w
′
t,i
为t时刻第i个计算节点的本地权重,loc_lr为本地学习率,α和β是用于决定本地梯度和全局梯度所占比例的系数,t-1时刻第i个计算节点权重w
′
t-1,i
的值取决于计算节点...
【专利技术属性】
技术研发人员:董德尊,徐叶茂,徐炜遐,廖湘科,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。