一种用于利用大数据训练机器学习模型的混排型梯度方法技术

技术编号:33701808 阅读:5 留言:0更新日期:2022-06-06 08:12
一种用于混排型梯度的计算机实现的方法,用于使用随机梯度下降(SGD)来训练机器学习模型,该方法包括以下操作:均匀随机地分布训练数据的数据样本或坐标更新,以及计算无混排方案和混排方案的学习速率。使用随机梯度下降(SGD)算法来执行训练数据的非混排方案和混排方案的组合操作。基于一个或多个预先确定的标准,将组合操作从非混排方案切换成仅执行混排方案;以及基于组合的无混排方案和混排方案利用训练数据来训练机器学习模型。用训练数据来训练机器学习模型。用训练数据来训练机器学习模型。

【技术实现步骤摘要】
一种用于利用大数据训练机器学习模型的混排型梯度方法


[0001]本公开一般涉及用于在机器学习中应用随机梯度方法的技术,并且更具体地,涉及使用随机梯度方法来利用大数据训练机器学习模型的技术。

技术介绍

[0002]目前使用的随机梯度方法对于解决与在机器学习中训练凸模型和非凸模型相关联的问题具有各种级别的成功。梯度下降法测量变量响应于另一变量的变化程度。下降方向是具有作为输入参数集的偏导数的输出的损失函数的函数分量的梯度。
[0003]随机梯度下降法(SGD)是在机器学习中使用的若干梯度方法中的一个梯度方法。SGD试图通过在每个训练点之后调整网络配置来找到全局最小值。在SGD中,通过对随机选择的训练样本的梯度进行近似来减小误差,而不是找到全梯度。随机选择的训练样本是随机地混排数据集并以有条理的方式在样本中工作而产生的。SGD方法是用于训练机器学习模型的流行方法,并且SGD通常比批量训练(例如,使用全梯度)收敛得更快,因为它更频繁地执行更新。此外,SGD可以有效地利用诸如GPU的高级计算架构,并且由于梯度估计而导致的分布式计算可以并行地进行。由于使用SGD的随机性,该方法是流行的,因为SGD可以从局部最小值逃脱,并且通常可以找到全局解(例如,训练非凸DNN模型)。
[0004]当执行SGD以训练机器学习模型时,训练数据通常被混排以计算不再从训练数据集独立采样的梯度。取决于大小,数据也可以被划分到多个机器上,并且可以对重混排数据执行多个历元。
[0005]在涉及大数据的机器学习中,如果数据的数目大并且全部数据不能由一个设备存储,则训练过程可以是非常耗时的。因此,存在改进SGD方法的学习速率方案以加速训练机器学习模型的空间。

技术实现思路

[0006]根据一个实施例,一种用于混排型梯度的计算机实现的方法,所述混排型梯度用于使用随机梯度下降(SGD)利用大数据来训练机器学习模型,所述方法包括均匀地随机分布训练数据的数据样本或坐标更新。使用随机梯度下降(SGD)算法来执行训练数据的组合的无混排方案和混排方案。基于一个或多个预先确定的标准,从执行组合的无混排方案和混排方案切换到仅执行混排方案。基于执行纯混排方案以及组合的无混排方案和混排方案,利用训练数据来训练机器学习模型。这种混合随机化混排梯度方案导致收敛速率,该收敛速率在非凸情况下是新的,并且在标准假设下显著地改进了现有技术,并且在强凸情况下的收敛速率匹配最好已知情况直到常数因子,而不施加有界梯度条件,并且用于解决有限和最小化问题。
[0007]在一个实施例中,训练数据的数据样本或坐标更新是大数据。大数据是一个特别的挑战,混合随机化混排方案导致训练这样大量数据的更有效方式。
[0008]在一个实施例中,用于执行组合的无混排方案和混排方案的SGD算法包括
Adagrad、Adam、RMSProp或SGD动量算法中的至少一个算法。这些算法中的每一个都特别适用于本专利技术的混合随机化混排方案。
[0009]在一个实施例中,一个或多个预先确定的标准包括学习速率,并且从无混排方案到纯混排的切换基于机器学习算法进展的学习速率值而发生。这种切换提供了一种更有效的方式来增加收敛速度,而不会在局部最小值处被阻塞。
[0010]在一个实施例中,一个或多个预定标准包括机器学习错误率,并且根据机器学习错误率发生到纯混排方案的切换。结果是具有较少错误的更有效的过程。
[0011]在一个实施例中,一个或多个预定标准包括用于无混排方案和混排方案的学习速率规则,并且该方法还包括提供一个或多个学习速率规则,其确定SGD算法的预定理论复杂度或实际性能中的一个或多个。学习规则提供SGD算法的实际性能,可以用于导致改进的收敛速率。
[0012]在一个实施例中,学习速率规则包括非凸监督学习模型中在逐渐递减学习速率方案和获取最高收敛速率结果。由于这个特征,实现了增加的收敛速率。
[0013]在一个实施例中,针对深度神经网络(DNN)应用来训练机器学习模型。深度神经网络通常需要复杂的训练,并且通过建立机器学习模型来训练DNN,这种训练是便利的。
[0014]在一个实施例中,针对线性回归和二元分类操作中的一个或多个操作来训练机器学习模型。这促进了线性回归和二进制运算的改进操作。
[0015]在一个实施例中,一种包括用于利用大数据的混排型梯度操作来训练机器学习模型的可配置机器学习框架的计算设备包括处理器、耦合到处理器的存储器,存储器存储指令以使处理器执行动作,所述动作包括生成包括组合的无混排方案和使用随机梯度下降(SGD)算法的混排方案的机器学习框架。所述机器学习框架还被配置用于接收用于从所述无混排方案和所述混排方案的组合操作切换到仅执行所述混排方案的预先确定的准则,并且基于所述无混排方案和所述混排方案的组合操作并且仅执行所述混排方案来训练所述机器学习模型。这种混合随机化混排梯度方案导致收敛速率,该收敛速率在非凸情况下是新的,并且在标准假设下显著地改进于现有作品,并且在强凸情况下的收敛速率匹配最好已知情况直到常数因子,而不施加有界梯度条件,并且用于解决有限和最小化问题。
[0016]在一个实施例中,计算设备被配置成接收用户对预先确定准则的选择,以便从非混排方案切换到只执行混排方案。该开关提供了一种更有效的方式来获取收敛速率。
[0017]在一个实施例中,机器学习框架被配置成根据包括Adagrad、Adam、RMSProp或SGD动量的一个或多个SGD算法来执行组合的混排和无混排方案。这些算法中的每个算法都特别适用于本专利技术的混合随机化混排方案。
[0018]在一个实施例中,从非混排模式切换到仅执行混排模式的预先确定的标准包括错误率。
[0019]在一个实施例中,从非混排方案切换到只执行混排方案的预先确定的标准包括学习速率。
[0020]在一个实施例中,机器学习框架被配置为提示错误率或学习速率中的至少一个作为从无混排方案切换到仅执行混排方案的预先确定的标准。
[0021]在一个实施例中,计算设备被配置用于使用随机梯度下降(SGD)来执行用于利用大数据训练机器学习模型的混排型梯度。该计算机实现的方法包括:处理器和耦合到所述
处理器的存储器。存储器存储指令以使处理器执行动作,包括均匀随机分布数据样本或坐标更新,执行数据样本或坐标更新的组合的无混排方案和混排方案。基于一个或多个预先确定的标准,从非混排方案切换为仅执行混排方案。利用数据样本或坐标更新来训练机器学习模型对于切换操作更有效。
[0022]在一个实施例中,指令使处理器执行附加动作,包括:根据所述机器学习的学习速率,切换到仅所述混排方案的操作。由于这个特征,提供了更有效的操作。
[0023]在一个实施例中,所述指令使处理器执行附加动作,包括根据机器学习算法的学习速率的阈值,切换到仅混排方案的操作。机器学习的学习速率是一种指示操作正如计划进行或者可以执行附加干预的方式。
[0024]在一个实施例中,确定用于利用大数据训练机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于利用混排型梯度操作来训练机器学习模型的计算机实现的方法,所述计算机实现的方法包括:均匀随机分布训练数据的数据样本或坐标更新;计算针对无混排方案和混排方案的学习速率;使用随机梯度下降SGD算法来执行所述训练数据的所述无混排方案和所述混排方案的组合操作;基于一个或多个预先确定的标准,从所述无混排方案切换到仅执行所述混排方案;以及基于组合的所述无混排方案和混排方案,利用所述训练数据来训练所述机器学习模型。2.根据权利要求1所述的计算机实现的方法,其中所述训练数据的所述数据样本或坐标更新包括大数据。3.根据权利要求2所述的计算机实现的方法,其中被使用以用于执行所述无混排方案和所述混排方案的所述组合操作的SGD算法包括作为所述无混排方案的以下至少一个算法:Adagrad、Adam、RMSProp或者SGD动量算法。4.根据权利要求2所述的计算机实现的方法,其中:所述一个或多个预先确定的标准包括机器学习速率;以及根据所述学习速率,所述切换到仅执行所述混排方案发生。5.根据权利要求2所述的计算机实现的方法,其中:所述一个或多个预先确定的标准包括学习速率;以及根据所述学习速率,所述切换到仅执行所述混排方案发生。6.根据权利要求2所述的计算机实现的方法,其中所述预先确定的标准包括学习速率规则,并且所述方法还包括提供一个或多个学习速率规则,所述学习速率规则确定所述SGD算法的预先确定的理论复杂度和实际性能中的一个或多个。7.根据权利要求6所述的计算机实现的方法,其中所述学习速率规则包括:在非凸监督学习模型中递减学习速率方案并且获取最高收敛速率结果。8.根据权利要求2所述的计算机实现的方法,其中所述机器学习模型针对深度神经网络DNN应用而被训练。9.根据权利要求2所述的计算机实现的方法,其中所述机器学习模型被训练以用于监督学习操作中的一个或多个操作。10.一种计算设备,所述计算设备包括用于利用大数据的混排型梯度操作来训练机器学习模型的可配置机器学习框架,所述机器学习框架包括:处理器;耦合到所述处理器的存储器,所述存储器存储指令以使所述处理器执行动作,所述动作包括:生成机器学习框架,所述机器学习框架包括使用梯度下降SGD算法的无混排方案和混排方案的组合操作,所述机器学习框架还被配置以用于接收用于从所述无混排方案切换到仅执行所述混排方案的预先确定的标准,并且基于所述无混排方案和所述混排方案的所述组合操作来训练所述机器学习模型。
11.根据权利要求10所述的计算设备,还包括接收用于从所述无混排方案切换到仅执行所述混排方案的所述预先确定的标准的用户选择。12.根据权利要求10所述的计算设备,还包括配置所述机器学习框架以根据一个或多个SGD算法来执行所述混排方案和所述非混排方案的所述组合操作,所述SGD算法包括作为所述无混排方案的Adagrad、Adam、RMSProp、或者SGD动量。13.根据权利要求10所述的计算设备,其中用于从所述无混排方案切换到仅执行所述混排方案的所述预先确定的标准包括学习速率。14.根据权利要求10所述的计算设备,其中用于从所述无混排方案切换...

【专利技术属性】
技术研发人员:阮明林藩进勇
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1