【技术实现步骤摘要】
一种分布式训练方法、装置、系统、存储介质及电子设备
[0001]本专利技术涉及分布式机器学习
,尤其涉及一种分布式训练方法、装置、系统、存储介质及电子设备。
技术介绍
[0002]随着人工智能技术的发展与数据量的爆炸式增长,机器学习的规模正变得越来越大。为了提高大规模机器学习模型的训练速度,分布式学习被提出并应用于视觉、语音等多个领域的机器学习训练。一种较为常见的分布式学习部署环境是中心化分布式结构,这一结构由若干计算节点和一个中心服务器组成,其中,中心服务器负责统筹计算节点的计算结果。
[0003]在实现本专利技术的过程中,发现现有技术中至少存在以下技术问题:大规模机器学习的模型参数量通常会很大,导致随机梯度的维度非常高,最终使得P
‑
SGD中计算节点与中心服务器之间的通讯成本非常大,降低模型训练的效率。
技术实现思路
[0004]本专利技术提供了一种分布式训练方法、装置、系统、存储介质及电子设备,以减小通讯成本的基础上,保证机器学习模型的训练精度。
[0005]根据 ...
【技术保护点】
【技术特征摘要】
1.一种分布式训练方法,其特征在于,应用于计算节点设备,所述方法包括:在对机器学习模型的迭代训练过程中,确定机器学习模型在当前次迭代的随机梯度;对所述当前次迭代的随机梯度进行压缩处理,得到当前次迭代的压缩梯度,并将所述压缩梯度发送至中心服务器节点,其中,所述中心服务器节点基于各计算节点设备发送的压缩梯度,确定当前次迭代的中心梯度;接收所述中心服务器节点反馈的中心梯度,并基于所述当前次迭代的随机梯度和所述压缩梯度确定补偿梯度,基于所述补偿梯度对所述中心梯度进行补偿得到所述当前次迭代的目标梯度,并基于所述目标梯度对机器学习模型进行当前次迭代更新。2.根据权利要求1所述的方法,其特征在于,所述接收所述中心服务器节点反馈的中心梯度,并基于所述当前次迭代的随机梯度和所述压缩梯度确定补偿梯度,基于所述补偿梯度对所述中心梯度进行补偿得到所述当前次迭代的目标梯度,包括:基于当前次迭代的随机梯度和所述压缩梯度的差值确定补偿梯度;基于所述补偿梯度与所述中心梯度的和,确定当前次迭代的目标梯度。3.根据权利要求1或2所述的方法,其特征在于,所述中心服务器节点反馈的中心梯度经过压缩处理的中心梯度。4.根据权利要求1所述的方法,其特征在于,所述对所述当前次迭代的随机梯度进行压缩处理,得到当前次迭代的压缩梯度,包括:调用压缩器,基于所述压缩器对所述当前次迭代的随机梯度进行压缩处理,得到当前次迭代的压缩梯度。5.根据权利要求1所述的方法,其特征在于,所述对所述当前次迭代的随机梯度进行压缩处理,还包括:在当前次迭代次数不满足预设条件的情况下,对所述当前次迭代的随机梯度进行压缩处理;在当前次迭代次数满足预设条件的情况下,将当前次迭代的随机梯度作为压缩梯度发送至中心服务器节点;相应的,所述中心服务器节点反馈的中心梯度为在前次迭代次数判定满足预设条件的情况下,未经压缩处理的中心梯度。6.根据权利要求5所述的方法,其特征在于,所述预设条件包括预设间隔次数条件,或者,基于压缩器中压缩关联参数对迭代次数判定条件。7.一种分布式训练方法,其特征在于,应用于中心服务器节点设备,所述方法包括:在对机器学习模型的迭代训练过程中,接收各计算节点发送的机器学习模型在当前次迭代的压缩梯度;基于各计算节点发送的压缩梯度以及当前次迭代的误差确定当前次迭代的中心梯度;在当前次迭代次数不满足预设条件的情况下,对所述当前次迭代的中心梯度进行压缩处理,并将压缩后的中心梯度反馈至各计算节点;以及,在当前次迭代次数满足预设条件的情况下,将所述当前次迭代的中心梯度反馈至各计算节点;其中,所述计算节点基于所述当前次迭代的随机梯度、所述压缩梯度、所述中心梯度对机器学习模型进行当前次迭代更新。8.一种分布式训练装置,其特征在于,集成于计算节点设备,所述装置包括:
随机梯度确定模块,用于在对机器学习模型的迭...
【专利技术属性】
技术研发人员:沈力,程亦飞,钱迅,陶大程,
申请(专利权)人:京东科技信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。