【技术实现步骤摘要】
分布式机器学习参数更新方法、装置及介质
[0001]本公开至少涉及机器学习
,尤其涉及一种分布式机器学习参数更新方法
、
服务节点
、
工作节点
、
分布式机器学习系统以及计算机可读存储介质
。
技术介绍
[0002]目前的模型参数分布式训练,在梯度或参数等信息的传输过程中,常采用
BSP(
批量同步并行,
Bulk Synchronous Parallel)
和
ASP(
异步并行,
Asynchronous Parallel)
两种通信模式
。BSP
模式中当全部工作节点发送梯度或参数等信息到参数服务器后,参数服务器才进行一次参数更新
。ASP
模式中当一个工作节点将梯度或参数等信息传回参数服务器时,参数服务器随即进行一次参数更新
。
[0003]在
BSP
模式中,由于各工作节点的性能差异会导致节点间同步等待时间较长,参数服务器因等待慢节点上传参数而延长训练时间,影响集群资源利用率
。
在
ASP
模式中,如果某些节点比其他节点慢很多,会导致快节点和慢节点之间迭代差数过大,影响模型收敛,破坏学习性能
。
此外,在分布式训练过程中,参数服务器与各个工作节点之间需要频繁地对梯度或参数等信息进行通信,随着集群规模和数据规模的增大,通信开销容易成为性能瓶颈
。
因此如何 ...
【技术保护点】
【技术特征摘要】
1.
一种分布式机器学习参数更新方法,其特征在于,所述方法应用于服务节点
、
工作节点
、
或包括服务节点和多个工作节点的分布式机器学习系统,且包括:在模型训练第一阶段,各工作节点各自每完成一次本地模型训练后,各工作节点与服务节点协作更新第一模型参数,直至达到模型训练第一阶段结束条件,获得各工作节点的同步周期和自身差异更新参数;在模型训练第二阶段,各工作节点在每个同步周期内各自根据自身差异更新参数完成若干次本地模型训练后,各工作节点与服务节点协作更新第二模型参数,直至达到模型训练第二阶段结束条件,获得最终训练模型
。2.
根据权利要求1所述的方法,其特征在于,各工作节点各自每完成一次本地模型训练后,各工作节点与服务节点协作更新第一模型参数,直至达到模型训练第一阶段结束条件,获得各工作节点的同步周期和自身差异更新参数,具体包括:各工作节点各自根据每次来自服务节点的更新后全局模型参数完成一次本地模型训练,获得本次自身的本地模型参数和本地训练时间参数后,向服务节点发送本次自身的本地模型参数和本地训练时间参数,服务节点接收来自各工作节点本次各自的本地模型参数和本地训练时间参数;服务节点根据各工作节点每次的本地模型参数更新一次全局模型参数后,向各工作节点发送本次的更新后全局模型参数,各工作节点各自接收来自服务节点本次的更新后全局模型参数;直至更新全局模型参数达到
N
次,服务节点根据各工作节点的
N
次本地训练时间参数计算各工作节点的同步周期和各自的差异更新参数后,向各工作节点发送同步周期和各自的差异更新参数,各工作节点各自接收来自服务节点的同步周期和自身差异更新参数
。3.
根据权利要求2所述的方法,其特征在于,各工作节点各自根据每次来自服务节点的更新后全局模型参数完成一次本地模型训练,获得本次自身的本地模型参数和本地训练时间参数,具体包括:各工作节点各自判断自身当前本地模型训练次数
t
i
<N
后,根据自身的本地模型训练数据和来自服务节点本次的更新后全局模型参数
w
k
,基于小批量随机梯度下降算法完成自身当前第
t
i
次本地模型训练,以获得第一阶段本次自身的本地模型参数为以及本次自身的本地训练时间参数包括前向传播时间和反向传播时间其中
r
表示学习率,是反向传播计算梯度,并记录
t
i
=
t
i
+1。4.
根据权利要求3所述的方法,其特征在于,服务节点根据各工作节点每次的本地模型参数更新一次全局模型参数,具体包括:服务节点根据来自全部
M
个工作节点的本次的聚合得到本次的更新后全局模型参数为并记录全局模型更新次数
k
=
k+1。5.
根据权利要求4所述的方法,其特征在于,直至更新全局模型参数达到
N
次,服务节点根据各工作节点的
N
次本地训练时间参数计算各工作节点的同步周期和各自的差异更新参数,具体包括:
直至服务节点判断
k
=
N
,服务节点计算各工作节点各自
N
次训练的平均计算时间获得各工作节点共同的同步周期其中
T
为预设的同步周期阈值,计算各工作节点各自
N
次训练的平均反向传播时间获得各工作节点各自的差异更新参数获得各工作节点各自的差异更新参数其中
α
是一个大于1的整数常量
。6.
根据权利要求1‑5任一项所述的方法,其特征在于,各工作节点在每个同步周期内各自根据自身差异更新参数完成若干次本地模型训练后,各工作节点与服务节点协作更新第二模型参数,直至达到模型训练第二阶段结束条件,获得最终训练模型,具体包括:各工作节点各自将每个同步周期来自服务节点的更新后全局模型参数作为每个同步周期的初始模型,根据自身差异更新参数对每个同步周期的初始模型完成若干次本地模型训练,获得本同步周期自身的本地模型参数后,向服务节点发送本同步周期自身的本地模型参数,服务节点接收来自各工作节点本同步周期各自的本地模型参数;服务节点根据各工作节点每个同步周期的本地模型参数更新一次全局模型参数后,向各工作节点发送本同步周期的更新后全局模型参数,各工作节点各自接收来自服务节点本同步周期的更新后全局模型参数;直至服务节点判断当前达到...
【专利技术属性】
技术研发人员:贺鸣,郭熹,秦守浩,马瑞涛,程新洲,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。