机器学习模型的训练、数据处理方法、装置以及介质制造方法及图纸

技术编号：38415121 阅读：8 留言：0更新日期：2023-08-07 11:18

本公开提供了一种机器学习模型的训练方法、数据处理方法、装置以及存储介质，其中的训练方法包括：在对机器学习模型进行迭代训练的各个当前轮次中，基于当前批次的训练数据和机器学习模型的损失函数确定第一梯度；基于预设的邻域值和第一梯度，确定与当前模型参数相对应的扰动数据；根据扰动数据与当前模型参数获得机器学习模型的新模型参数；基于当前批次的训练数据和机器学习模型的损失函数确定第二梯度；根据第二梯度以及预设的学习率，对当前模型参数进行更新处理。本公开通过在训练模型时采用动态学习率，可以减少对于学习率调节的工作，显著提高了机器学习模型的性能，不仅可以保证收敛并且有着线性加速的效果。以保证收敛并且有着线性加速的效果。以保证收敛并且有着线性加速的效果。

全部详细技术资料下载

【技术实现步骤摘要】
机器学习模型的训练、数据处理方法、装置以及介质

[0001]本公开涉及人工智能
，尤其涉及一种机器学习模型的训练方法、数据处理方法、装置以及存储介质。

技术介绍

[0002]随着人工智能技术的发展，在推荐系统、自然语言处理等应用场景中采用机器学习模型对数据进行处理。在对机器学习模型的训练中，通常采用在训练数据上采用经验风险最小化的训练方法，但是，由于训练数据和真实数据的分布存在差别，导致经验风险与期望风险存在误差，训练后的机器学习模型的性能可能未符合预设的条件。锐度感知最小化(Sharpness
‑
Aware Minimization，SAM)方法可以利用损失面的几何形状，通过同时最小化损失值和损失锐度来提高泛化性能。目前，在机器学习模型的训练任务中使用SAM方法，可以弥补训练数据上性能和泛化性能的差别，使得机器学习模型的性能有所提升。但是，现有的SAM方法和其变形方法都是基于随机梯度下降的方法，在机器学习模型的训练任务中需要进行大量的超参数调节工作，例如对学习率等超参数进行手动调节，并且，使用随机梯度下降方法训练的机器学习模型的性能不理想，在训练中也可能出现不收敛而导致无法成功训练模型的情况。

技术实现思路

[0003]有鉴于此，本专利技术要解决的一个技术问题是提供一种机器学习模型的训练方法、数据处理方法、装置以及存储介质。
[0004]根据本公开的第一方面，提供一种机器学习模型的训练方法，包括：在对机器学习模型进行迭代训练的各个当前轮次中，基于当前批次的训练数据和所...

【技术保护点】

【技术特征摘要】
1.一种机器学习模型的训练方法，包括：在对机器学习模型进行迭代训练的各个当前轮次中，基于当前批次的训练数据和所述机器学习模型的损失函数，确定与所述机器学习模型的当前模型参数相对应的第一梯度；基于预设的邻域值和所述第一梯度，确定与所述当前模型参数相对应的扰动数据；根据所述扰动数据与所述当前模型参数获得所述机器学习模型的新模型参数；基于当前批次的训练数据和所述机器学习模型的损失函数，确定与所述新模型参数相对应的相对应的第二梯度；根据所述第二梯度以及预设的学习率，对所述当前模型参数进行更新处理。2.如权利要求1所述的方法，所述根据所述第二梯度以及预设的学习率，对所述当前模型参数进行更新处理包括：根据所述第二梯度和在所述迭代训练的上一轮次中确定的第一二阶动量，计算与当前轮次相对应的第二二阶动量；在所述第一二阶动量和所述第二二阶动量中选取目标二阶动量；基于所述学习率、所述目标二阶动量和所述第二梯度，对所述当前模型参数进行更新处理。3.如权利要求2所述的方法，所述在所述第一二阶动量和所述第二二阶动量中选取目标二阶动量包括：将所述第一二阶动量和所述第二二阶动量中的较大数值确定为所述目标二阶动量。4.如权利要求2所述的方法，所述基于所述学习率、所述目标二阶动量和所述第二梯度，对所述当前模型参数进行更新处理包括：根据所述目标二阶动量和所述第二梯度确定第一更新数据；计算所述学习率与所述第一更新数据的乘积，作为第二更新数据；基于第二更新数据对所述当前模型参数进行修正处理。5.如权利要求2所述方法，所述根据所述第二梯度和在所述迭代训练的上一轮次中确定的第一二阶动量，计算与当前轮次相对应的第二二阶动量包括：基于第一二阶动量更新系数与所述第一二阶动量确定第一更新分量；基于第二二阶动量更新系数与所述第二梯度的哈达玛积确定第二更新分量；计算所述第一更新分量和所述第二更新分量之和，作为所述第二二阶动量。6.如权利要求1所述的方法，所述基于预设的邻域值和所述第一梯度，确定与所述当前模型参数相对应的扰动数据包括：对所述第一梯度进行归一化处理；计算所述邻域值与归一化后的所述第一梯度的乘积，作为所述扰动数据。7.如权利要求1所述的方法，其中，所述当前批次的训练数据包括多个数据点；所述基于当前批次的训练数据和所述机器学习模型的损失函数，确定与所述机器学习模型的当前模型参数相对应的第一梯度包括：计算所述损失函数在各...

【专利技术属性】
技术研发人员：沈力，陶大程，
申请(专利权)人：京东科技信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人