The present invention provides a method and system for distributed machine learning based on sliding window sampling, the method includes: a machine learning model parameter initialization; a data acquisition data slice, independent model is trained; the collection history of several rounds of ladder pass degree by sliding the sample, sample, and calculate the gradient expired the degree of context value, adjust the learning rate after initiating gradient update request; asynchronous collection of multiple gradient degree parameters using expired samples, after adjusting the learning rate of model parameters and updates the global push updates; asynchronous access to global parameters push updates to the next training; test model convergence, if not for convergence. The training cycle model; if the convergence parameters are obtained. The invention is the use of expired gradient learning device context to control the learning rate, improve the stability and convergence effect of distributed training, reduce the fluctuation of distributed system caused by training, to improve the robustness of distributed training.
【技术实现步骤摘要】
基于滑动窗口采样的分布式机器学习训练方法及其系统
本专利技术涉及大规模机器分布式训练,特别是涉及一种基于滑动窗口采样的分布式机器学习训练方法及其系统。
技术介绍
在大数据集上进行训练的现代神经网络架构可以跨广泛的多种领域获取可观的结果,领域涵盖从语音和图像认知、自然语言处理、到业界关注的诸如欺诈检测和推荐系统这样的应用等各个方面。但是训练这些神经网络模型在计算上有严格要求,尽管近些年来GPU硬件、网络架构和训练方法上均取得了重大的进步,但事实是在单一机器上,网络训练所需要的时间仍然长得不切实际。幸运的是,我们不仅限于单个机器:大量工作和研究已经使有效的神经网络分布式训练成为了可能。分布式训练中的数据并行方法在每一个workermachine上都有一套完整的模型,但分别对训练数据集的不同子集进行处理。数据并行毫无争议是分布式系统中最适的方法,而且也一直是更多研究的焦点。在数据并行(dataparallelism)中,不同的机器有着整个模型的完全拷贝;每个机器只获得整个数据的不同部分。计算的结果通过某些方法结合起来。数据并行训练方法均需要一些整合结果和在各工作器(worker)间同步模型参数的方法。现有的分布式机器学习训练方法一般为SGD,目前常用的SGD算法为基于延迟与软同步的SGD即StalenessAwareSGD,然而它们存在以下一些问题:StalenessAwareSGD使用当前过期梯度(Staleness)调整对应学习器的学习率,将分布式异步训练的节点快慢产生过期梯度这个问题考虑进来,在普适计算的环境中,人和计算机不断的进行着透明性的交互,在这个交 ...
【技术保护点】
一种基于滑动窗口采样的分布式机器学习训练方法,其特征在于,包括以下步骤:步骤1),机器学习模型参数初始化;步骤2),获取所有数据的一个数据分片,独立进行模型训练;步骤3),收集历史的若干轮梯度过期程度样本,通过滑动采样样本,并计算梯度过期程度上下文值,调整学习率后发起梯度更新请求;步骤4),异步收集多个梯度过期程度样本,利用调整后的学习率更新全局模型参数并推送更新的参数;步骤5),异步获取推送的全局参数更新,继续下一次训练;步骤6),检验模型收敛性,若不收敛,进入所述步骤2)循环;若收敛,进入步骤7);步骤7),获取模型参数。
【技术特征摘要】
1.一种基于滑动窗口采样的分布式机器学习训练方法,其特征在于,包括以下步骤:步骤1),机器学习模型参数初始化;步骤2),获取所有数据的一个数据分片,独立进行模型训练;步骤3),收集历史的若干轮梯度过期程度样本,通过滑动采样样本,并计算梯度过期程度上下文值,调整学习率后发起梯度更新请求;步骤4),异步收集多个梯度过期程度样本,利用调整后的学习率更新全局模型参数并推送更新的参数;步骤5),异步获取推送的全局参数更新,继续下一次训练;步骤6),检验模型收敛性,若不收敛,进入所述步骤2)循环;若收敛,进入步骤7);步骤7),获取模型参数。2.根据权利要求1所述的基于滑动窗口采样的分布式机器学习训练方法,其特征在于,在所述步骤4)中,还包括维护一个逻辑时钟记录当前模型参数版本的步骤,在每进行一次从梯度到参数值的优化动作后,逻辑时钟加1。3.根据权利要求2所述的基于滑动窗口采样的分布式机器学习训练方法,其特征在于,在每进行一次逻辑时钟加1后,用当前的逻辑时钟更新机器学习的逻辑时钟。4.根据权利要求3所述的基于滑动窗口采样的分布式机器学习训练方法,其特征在于,在所述步骤3)中,梯度过期程度的计算为:当前的逻辑时钟-机器学习的逻辑时钟+1,其中,每个机器学习模型保存前N-1次更新时的梯度过期程度,N为当前更新的次数。5.根据权利要求4所述的基于滑动窗口采样的分布式机器学习训练方法,其特征在于,在所述步骤3)中,梯度过期程度上下文值通过计算当前梯度过期程度与前N-1个梯度过期程度的均值得到。6.一种应用权利要求1-5中任一项所...
【专利技术属性】
技术研发人员:田乔,许春玲,李明齐,
申请(专利权)人:中国科学院上海高等研究院,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。