一种用于利用大数据训练机器学习模型的混排型梯度方法技术

技术编号：33701808 阅读：5 留言：0更新日期：2022-06-06 08:12

一种用于混排型梯度的计算机实现的方法，用于使用随机梯度下降(SGD)来训练机器学习模型，该方法包括以下操作：均匀随机地分布训练数据的数据样本或坐标更新，以及计算无混排方案和混排方案的学习速率。使用随机梯度下降(SGD)算法来执行训练数据的非混排方案和混排方案的组合操作。基于一个或多个预先确定的标准，将组合操作从非混排方案切换成仅执行混排方案；以及基于组合的无混排方案和混排方案利用训练数据来训练机器学习模型。用训练数据来训练机器学习模型。用训练数据来训练机器学习模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于利用大数据训练机器学习模型的混排型梯度方法

[0001]本公开一般涉及用于在机器学习中应用随机梯度方法的技术，并且更具体地，涉及使用随机梯度方法来利用大数据训练机器学习模型的技术。

技术介绍

[0002]目前使用的随机梯度方法对于解决与在机器学习中训练凸模型和非凸模型相关联的问题具有各种级别的成功。梯度下降法测量变量响应于另一变量的变化程度。下降方向是具有作为输入参数集的偏导数的输出的损失函数的函数分量的梯度。
[0003]随机梯度下降法(SGD)是在机器学习中使用的若干梯度方法中的一个梯度方法。SGD试图通过在每个训练点之后调整网络配置来找到全局最小值。在SGD中，通过对随机选择的训练样本的梯度进行近似来减小误差，而不是找到全梯度。随机选择的训练样本是随机地混排数据集并以有条理的方式在样本中工作而产生的。SGD方法是用于训练机器学习模型的流行方法，并且SGD通常比批量训练(例如，使用全梯度)收敛得更快，因为它更频繁地执行更新。此外，SGD可以有效地利用诸如GPU的高级计算架构，并且由于梯度估计而导致的分布式计算可以并行地进行。由于使用SGD的随机性，该方法是流行的，因为SGD可以从局部最小值逃脱，并且通常可以找到全局解(例如，训练非凸DNN模型)。
[0004]当执行SGD以训练机器学习模型时，训练数据通常被混排以计算不再从训练数据集独立采样的梯度。取决于大小，数据也可以被划分到多个机器上，并且可以对重混排数据执行多个历元。
[0005]在涉及大数据的机器学习中，如果数据的数目大并且...

【技术保护点】

【技术特征摘要】
1.一种用于利用混排型梯度操作来训练机器学习模型的计算机实现的方法，所述计算机实现的方法包括：均匀随机分布训练数据的数据样本或坐标更新；计算针对无混排方案和混排方案的学习速率；使用随机梯度下降SGD算法来执行所述训练数据的所述无混排方案和所述混排方案的组合操作；基于一个或多个预先确定的标准，从所述无混排方案切换到仅执行所述混排方案；以及基于组合的所述无混排方案和混排方案，利用所述训练数据来训练所述机器学习模型。2.根据权利要求1所述的计算机实现的方法，其中所述训练数据的所述数据样本或坐标更新包括大数据。3.根据权利要求2所述的计算机实现的方法，其中被使用以用于执行所述无混排方案和所述混排方案的所述组合操作的SGD算法包括作为所述无混排方案的以下至少一个算法：Adagrad、Adam、RMSProp或者SGD动量算法。4.根据权利要求2所述的计算机实现的方法，其中：所述一个或多个预先确定的标准包括机器学习速率；以及根据所述学习速率，所述切换到仅执行所述混排方案发生。5.根据权利要求2所述的计算机实现的方法，其中：所述一个或多个预先确定的标准包括学习速率；以及根据所述学习速率，所述切换到仅执行所述混排方案发生。6.根据权利要求2所述的计算机实现的方法，其中所述预先确定的标准包括学习速率规则，并且所述方法还包括提供一个或多个学习速率规则，所述学习速率规则确定所述SGD算法的预先确定的理论复杂度和实际性能中的一个或多个。7.根据权利要求6所述的计算机实现的方法，其中所述学习速率规则包括：在非凸监督学习模型中递减学习速率方案并且获取最高收敛速率结果。8.根据权利要求2所述的计算机实现的方法，其中所述机器学习模型针对深度神经网络DNN应用而被训练。9.根据权利要求2所述的计算机实现的方法，其中所述机器学习模型被训练以用于监督学习操作中的一个或多个操作。10.一种计算设备，所述计算设备包括用于利用大数据的混排型梯度操作来训练机器学习模型的可配置机器学习框架，所述机器学习框架包括：处理器；耦合到所述处理器的存储器，所述存储器存储指令以使所述处理器执行动作，所述动作包括：生成机器学习框架，所述机器学习框架包括使用梯度下降SGD算法的无混排方案和混排方案的组合操作，所述机器学习框架还被配置以用于接收用于从所述无混排方案切换到仅执行所述混排方案的预先确定的标准，并且基于所述无混排方案和所述混排方案的所述组合操作来训练所述机器学习模型。
11.根据权利要求10所述的计算设备，还包括接收用于从所述无混排方案切换到仅执行所述混排方案的所述预先确定的标准的用户选择。12.根据权利要求10所述的计算设备，还包括配置所述机器学习框架以根据一个或多个SGD算法来执行所述混排方案和所述非混排方案的所述组合操作，所述SGD算法包括作为所述无混排方案的Adagrad、Adam、RMSProp、或者SGD动量。13.根据权利要求10所述的计算设备，其中用于从所述无混排方案切换到仅执行所述混排方案的所述预先确定的标准包括学习速率。14.根据权利要求10所述的计算设备，其中用于从所述无混排方案切换...

【专利技术属性】
技术研发人员：阮明林，藩进勇，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人