机器学习模型的训练、数据处理方法、装置以及介质制造方法及图纸

技术编号:38415121 阅读:8 留言:0更新日期:2023-08-07 11:18
本公开提供了一种机器学习模型的训练方法、数据处理方法、装置以及存储介质,其中的训练方法包括:在对机器学习模型进行迭代训练的各个当前轮次中,基于当前批次的训练数据和机器学习模型的损失函数确定第一梯度;基于预设的邻域值和第一梯度,确定与当前模型参数相对应的扰动数据;根据扰动数据与当前模型参数获得机器学习模型的新模型参数;基于当前批次的训练数据和机器学习模型的损失函数确定第二梯度;根据第二梯度以及预设的学习率,对当前模型参数进行更新处理。本公开通过在训练模型时采用动态学习率,可以减少对于学习率调节的工作,显著提高了机器学习模型的性能,不仅可以保证收敛并且有着线性加速的效果。以保证收敛并且有着线性加速的效果。以保证收敛并且有着线性加速的效果。

【技术实现步骤摘要】
机器学习模型的训练、数据处理方法、装置以及介质


[0001]本公开涉及人工智能
,尤其涉及一种机器学习模型的训练方法、数据处理方法、装置以及存储介质。

技术介绍

[0002]随着人工智能技术的发展,在推荐系统、自然语言处理等应用场景中采用机器学习模型对数据进行处理。在对机器学习模型的训练中,通常采用在训练数据上采用经验风险最小化的训练方法,但是,由于训练数据和真实数据的分布存在差别,导致经验风险与期望风险存在误差,训练后的机器学习模型的性能可能未符合预设的条件。锐度感知最小化(Sharpness

Aware Minimization,SAM)方法可以利用损失面的几何形状,通过同时最小化损失值和损失锐度来提高泛化性能。目前,在机器学习模型的训练任务中使用SAM方法,可以弥补训练数据上性能和泛化性能的差别,使得机器学习模型的性能有所提升。但是,现有的SAM方法和其变形方法都是基于随机梯度下降的方法,在机器学习模型的训练任务中需要进行大量的超参数调节工作,例如对学习率等超参数进行手动调节,并且,使用随机梯度下降方法训练的机器学习模型的性能不理想,在训练中也可能出现不收敛而导致无法成功训练模型的情况。

技术实现思路

[0003]有鉴于此,本专利技术要解决的一个技术问题是提供一种机器学习模型的训练方法、数据处理方法、装置以及存储介质。
[0004]根据本公开的第一方面,提供一种机器学习模型的训练方法,包括:在对机器学习模型进行迭代训练的各个当前轮次中,基于当前批次的训练数据和所述机器学习模型的损失函数,确定与所述机器学习模型的当前模型参数相对应的第一梯度;基于预设的邻域值和所述第一梯度,确定与所述当前模型参数相对应的扰动数据;根据所述扰动数据与所述当前模型参数获得所述机器学习模型的新模型参数,基于当前批次的训练数据和所述机器学习模型的损失函数,确定与所述新模型参数相对应的相对应的第二梯度;根据所述第二梯度以及预设的学习率,对所述当前模型参数进行更新处理。
[0005]可选地,所述根据所述第二梯度以及预设的学习率,对所述当前模型参数进行更新处理包括:根据所述第二梯度和在所述迭代训练的上一轮次中确定的第一二阶动量,计算与当前轮次相对应的第二二阶动量;在所述第一二阶动量和所述第二二阶动量中选取目标二阶动量;基于所述学习率、所述目标二阶动量和所述第二梯度,对所述当前模型参数进行更新处理。
[0006]可选地,所述在所述第一二阶动量和所述第二二阶动量中选取目标二阶动量包括:将所述第一二阶动量和所述第二二阶动量中的较大数值确定为所述目标二阶动量。
[0007]可选地,所述基于所述学习率、所述目标二阶动量和所述第二梯度,对所述当前模型参数进行更新处理包括:根据所述目标二阶动量和所述第二梯度确定第一更新数据;计
算所述学习率与所述第一更新数据的乘积,作为第二更新数据;基于第二更新数据对所述当前模型参数进行修正处理。
[0008]可选地,所述根据所述第二梯度和在所述迭代训练的上一轮次中确定的第一二阶动量,计算与当前轮次相对应的第二二阶动量包括:基于第一二阶动量更新系数与所述第一二阶动量确定第一更新分量;基于第二二阶动量更新系数与所述第二梯度的哈达玛积确定第二更新分量;计算所述第一更新分量和所述第二更新分量之和,作为所述第二二阶动量。
[0009]可选地,所述基于预设的邻域值和所述第一梯度,确定与所述当前模型参数相对应的扰动数据包括:对所述第一梯度进行归一化处理;计算所述邻域值与归一化后的所述第一梯度的乘积,作为所述扰动数据。
[0010]可选地,所述当前批次的训练数据包括多个数据点;所述基于当前批次的训练数据和所述机器学习模型的损失函数,确定与所述机器学习模型的当前模型参数相对应的第一梯度包括:计算所述损失函数在各个所述数据点上的、与所述当前模型参数相对应的第一函数梯度;对全部第一函数梯度进行求平均处理,获得所述第一梯度。
[0011]可选地,所述基于当前批次的训练数据和所述机器学习模型的损失函数,确定与所述新模型参数相对应的相对应的第二梯度包括:计算所述损失函数在各个所述数据点上的、与所述新模型参数相对应的第二函数梯度;对全部第二函数梯度进行求平均处理,获得所述第二梯度。
[0012]可选地,所述根据所述扰动数据与所述当前模型参数获得所述机器学习模型的新模型参数包括:将所述扰动数据与所述当前模型参数进行相加处理,获得所述新模型参数。
[0013]根据本公开的第二方面,提供一种数据处理方法,包括:获取训练好的机器学习模型;其中,所述机器学习模型是通过如上所述的训练方法训练得到;使用所述机器学习模型对待处理数据进行处理,获得处理结果。
[0014]根据本公开的第三方面,提供一种机器学习模型的训练装置,包括:第一梯度确定模块,用于在对机器学习模型进行迭代训练的各个当前轮次中,基于当前批次的训练数据和所述机器学习模型的损失函数,确定与所述机器学习模型的当前模型参数相对应的第一梯度;扰动确定模块,用于基于预设的邻域值和所述第一梯度,确定与所述当前模型参数相对应的扰动数据;第二梯度确定模块,用于根据所述扰动数据与所述当前模型参数获得所述机器学习模型的新模型参数,基于当前批次的训练数据和所述机器学习模型的损失函数,确定与所述新模型参数相对应的相对应的第二梯度;参数更新模块,用于根据所述第二梯度以及预设的学习率,对所述当前模型参数进行更新处理。
[0015]根据本公开的第四方面,提供一种数据处理装置,包括:获取模块,用于获取训练好的机器学习模型;其中,所述机器学习模型是通过如上所述的训练方法训练得到;处理模块,用于使用所述机器学习模型对待处理数据进行处理,获得处理结果。
[0016]根据本公开的第五方面,提供一种机器学习模型的训练装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上所述的机器学习模型的训练方法。
[0017]根据本公开的第六方面,提供一种数据处理装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上所述的
数据处理方法。
[0018]根据本公开的第七方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如上的方法。
[0019]本公开的机器学习模型的训练方法、数据处理方法、装置以及存储介质,通过在训练模型时采用动态学习率,可以减少对于学习率调节的工作,显著提高了机器学习模型的性能,不仅可以保证收敛并且有着线性加速的效果,在大规模模型训练下有着优良的性能,提高了用户的使用感受度。
附图说明
[0020]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器学习模型的训练方法,包括:在对机器学习模型进行迭代训练的各个当前轮次中,基于当前批次的训练数据和所述机器学习模型的损失函数,确定与所述机器学习模型的当前模型参数相对应的第一梯度;基于预设的邻域值和所述第一梯度,确定与所述当前模型参数相对应的扰动数据;根据所述扰动数据与所述当前模型参数获得所述机器学习模型的新模型参数;基于当前批次的训练数据和所述机器学习模型的损失函数,确定与所述新模型参数相对应的相对应的第二梯度;根据所述第二梯度以及预设的学习率,对所述当前模型参数进行更新处理。2.如权利要求1所述的方法,所述根据所述第二梯度以及预设的学习率,对所述当前模型参数进行更新处理包括:根据所述第二梯度和在所述迭代训练的上一轮次中确定的第一二阶动量,计算与当前轮次相对应的第二二阶动量;在所述第一二阶动量和所述第二二阶动量中选取目标二阶动量;基于所述学习率、所述目标二阶动量和所述第二梯度,对所述当前模型参数进行更新处理。3.如权利要求2所述的方法,所述在所述第一二阶动量和所述第二二阶动量中选取目标二阶动量包括:将所述第一二阶动量和所述第二二阶动量中的较大数值确定为所述目标二阶动量。4.如权利要求2所述的方法,所述基于所述学习率、所述目标二阶动量和所述第二梯度,对所述当前模型参数进行更新处理包括:根据所述目标二阶动量和所述第二梯度确定第一更新数据;计算所述学习率与所述第一更新数据的乘积,作为第二更新数据;基于第二更新数据对所述当前模型参数进行修正处理。5.如权利要求2所述方法,所述根据所述第二梯度和在所述迭代训练的上一轮次中确定的第一二阶动量,计算与当前轮次相对应的第二二阶动量包括:基于第一二阶动量更新系数与所述第一二阶动量确定第一更新分量;基于第二二阶动量更新系数与所述第二梯度的哈达玛积确定第二更新分量;计算所述第一更新分量和所述第二更新分量之和,作为所述第二二阶动量。6.如权利要求1所述的方法,所述基于预设的邻域值和所述第一梯度,确定与所述当前模型参数相对应的扰动数据包括:对所述第一梯度进行归一化处理;计算所述邻域值与归一化后的所述第一梯度的乘积,作为所述扰动数据。7.如权利要求1所述的方法,其中,所述当前批次的训练数据包括多个数据点;所述基于当前批次的训练数据和所述机器学习模型的损失函数,确定与所述机器学习模型的当前模型参数相对应的第一梯度包括:计算所述损失函数在各...

【专利技术属性】
技术研发人员:沈力陶大程
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1