基于滑动窗口采样的分布式机器学习训练方法及其系统技术方案

技术编号：15502665 阅读：46 留言：0更新日期：2017-06-03 23:27

本发明专利技术提供一种基于滑动窗口采样的分布式机器学习训练方法及其系统，所述方法包括：机器学习模型参数初始化；获取所有数据的一个数据分片，独立进行模型训练；收集历史的若干轮梯度过期程度样本，通过滑动采样样本，并计算梯度过期程度上下文值，调整学习率后发起梯度更新请求；异步收集多个梯度过期程度样本，利用调整后的学习率更新全局模型参数并推送更新的参数；异步获取推送的全局参数更新，继续下一次训练；检验模型收敛性，若不收敛，进行模型训练循环；若收敛，获取模型参数。本发明专利技术使用过期梯度上下文来控制学习器的学习率，提高了分布式训练的稳定性与收敛效果，减小了分布式系统带来的训练波动，提高了分布式训练的鲁棒性。

Distributed machine learning training method based on sliding window sampling and system thereof

The present invention provides a method and system for distributed machine learning based on sliding window sampling, the method includes: a machine learning model parameter initialization; a data acquisition data slice, independent model is trained; the collection history of several rounds of ladder pass degree by sliding the sample, sample, and calculate the gradient expired the degree of context value, adjust the learning rate after initiating gradient update request; asynchronous collection of multiple gradient degree parameters using expired samples, after adjusting the learning rate of model parameters and updates the global push updates; asynchronous access to global parameters push updates to the next training; test model convergence, if not for convergence. The training cycle model; if the convergence parameters are obtained. The invention is the use of expired gradient learning device context to control the learning rate, improve the stability and convergence effect of distributed training, reduce the fluctuation of distributed system caused by training, to improve the robustness of distributed training.

全部详细技术资料下载

【技术实现步骤摘要】
基于滑动窗口采样的分布式机器学习训练方法及其系统
本专利技术涉及大规模机器分布式训练，特别是涉及一种基于滑动窗口采样的分布式机器学习训练方法及其系统。
技术介绍
在大数据集上进行训练的现代神经网络架构可以跨广泛的多种领域获取可观的结果，领域涵盖从语音和图像认知、自然语言处理、到业界关注的诸如欺诈检测和推荐系统这样的应用等各个方面。但是训练这些神经网络模型在计算上有严格要求，尽管近些年来GPU硬件、网络架构和训练方法上均取得了重大的进步，但事实是在单一机器上，网络训练所需要的时间仍然长得不切实际。幸运的是，我们不仅限于单个机器：大量工作和研究已经使有效的神经网络分布式训练成为了可能。分布式训练中的数据并行方法在每一个workermachine上都有一套完整的模型，但分别对训练数据集的不同子集进行处理。数据并行毫无争议是分布式系统中最适的方法，而且也一直是更多研究的焦点。在数据并行(dataparallelism)中，不同的机器有着整个模型的完全拷贝；每个机器只获得整个数据的不同部分。计算的结果通过某些方法结合起来。数据并行训练方法均需要一些整合结果和在各工作器(worker)间同步模型参数的方法。现有的分布式机器学习训练方法一般为SGD，目前常用的SGD算法为基于延迟与软同步的SGD即StalenessAwareSGD，然而它们存在以下一些问题：StalenessAwareSGD使用当前过期梯度(Staleness)调整对应学习器的学习率，将分布式异步训练的节点快慢产生过期梯度这个问题考虑进来，在普适计算的环境中，人和计算机不断的进行着透明性的交互，在这个交...
基于滑动窗口采样的分布式机器学习训练方法及其系统

【技术保护点】
一种基于滑动窗口采样的分布式机器学习训练方法，其特征在于，包括以下步骤：步骤1)，机器学习模型参数初始化；步骤2)，获取所有数据的一个数据分片，独立进行模型训练；步骤3)，收集历史的若干轮梯度过期程度样本，通过滑动采样样本，并计算梯度过期程度上下文值，调整学习率后发起梯度更新请求；步骤4)，异步收集多个梯度过期程度样本，利用调整后的学习率更新全局模型参数并推送更新的参数；步骤5)，异步获取推送的全局参数更新，继续下一次训练；步骤6)，检验模型收敛性，若不收敛，进入所述步骤2)循环；若收敛，进入步骤7)；步骤7)，获取模型参数。

【技术特征摘要】
1.一种基于滑动窗口采样的分布式机器学习训练方法，其特征在于，包括以下步骤：步骤1)，机器学习模型参数初始化；步骤2)，获取所有数据的一个数据分片，独立进行模型训练；步骤3)，收集历史的若干轮梯度过期程度样本，通过滑动采样样本，并计算梯度过期程度上下文值，调整学习率后发起梯度更新请求；步骤4)，异步收集多个梯度过期程度样本，利用调整后的学习率更新全局模型参数并推送更新的参数；步骤5)，异步获取推送的全局参数更新，继续下一次训练；步骤6)，检验模型收敛性，若不收敛，进入所述步骤2)循环；若收敛，进入步骤7)；步骤7)，获取模型参数。2.根据权利要求1所述的基于滑动窗口采样的分布式机器学习训练方法，其特征在于，在所述步骤4)中，还包括维护一个逻辑时钟记录当前模型参数版本的步骤，在每进行一次从梯度到参数值的优化动作后，逻辑时钟加1。3.根据权利要求2所述的基于滑动窗口采样的分布式机器学习训练方法，其特征在于，在每进行一次逻辑时钟加1后，用当前的逻辑时钟更新机器学习的逻辑时钟。4.根据权利要求3所述的基于滑动窗口采样的分布式机器学习训练方法，其特征在于，在所述步骤3)中，梯度过期程度的计算为：当前的逻辑时钟-机器学习的逻辑时钟+1，其中，每个机器学习模型保存前N-1次更新时的梯度过期程度，N为当前更新的次数。5.根据权利要求4所述的基于滑动窗口采样的分布式机器学习训练方法，其特征在于，在所述步骤3)中，梯度过期程度上下文值通过计算当前梯度过期程度与前N-1个梯度过期程度的均值得到。6.一种应用权利要求1-5中任一项所...

【专利技术属性】
技术研发人员：田乔，许春玲，李明齐，
申请(专利权)人：中国科学院上海高等研究院，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人