神经网络模型训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:26971994 阅读:29 留言:0更新日期:2021-01-06 00:03
本发明专利技术实施例提供了一种神经网络模型训练方法。在对神经网络模型进行每一训练步数的训练后,根据当前步数的当前权重、样本数据、目标值及梯度算法计算梯度;根据第一参数、在上一步数的一阶矩估计、梯度、一阶矩估计公式及一阶矩估计修正公式计算修正一阶矩估计;根据第二参数、在上一步数的二阶矩估计、梯度、二矩估计公式、二阶矩估计修正公式计算修正二阶矩估计;根据修正一阶矩估计、修正二阶矩估计及系数修正公式计算修正系数;根据当前权重、修正系数、第三参数、当前学习率及学习率修正公式计算在下一步数的修正学习率;根据当前权重、修正学习率、修正系数、第三参数及权重公式计算得到模型更新后的权重。本实施例可以提高模型训练效率。

【技术实现步骤摘要】
神经网络模型训练方法、装置、计算机设备及存储介质
本专利技术实施例涉及人工智能领域,尤其涉及一种神经网络模型训练方法、装置、计算机设备及存储介质。
技术介绍
目前基于深度学习的文本分类模型是将词向量输入训练好的神经网络模型后得到词向量的分类结果。为了使分类结果更为贴合实际,需要在文本分类前对神经网络模型进行训练。随着神经网络的发展,尤其是深度学习技术的发展,神经元数量可能超过数千万,这种情况下梯度下降法的效率将远高于解析标准方程的逆矩阵,使得梯度下降法成为神经网络训练的主要方法。现代深度学习中,神经网络的训练周期通常在数小时到数天不等,如何提高梯度下降法的训练效率,以及在复杂大量的场景中可以稳定梯度下降,一直是深度学习研究人员的研究方向。目前一些优化算法在实践取得了一些成绩,例如SGD,RMSProp,AdaDelta,Adam等梯度优化器,在不同领域都有应用。但是,随着训练数据量的增加和计算资源的增加,在大规模深度训练时,有时出现训练过程不收敛,无法得到预期结果的问题,使得训练过程变得愈加困难。
技术实现思路
有鉴于此,本本文档来自技高网...

【技术保护点】
1.一种神经网络模型训练方法,其特征在于,包括:/n获取训练样本集,所述训练样本集中包括多个训练样本数据;/n将所述训练样本集中的训练样本数据输入至预设的神经网络模型中进行迭代训练,直到所述神经网络模型收敛为止,其中,在对所述神经网络模型进行每一训练步数的训练后,通过以下步骤更新所述神经网络模型中第l层的权重:/n根据所述神经网络模型在当前训练步数进行训练时的当前权重、在当前训练步数进行训练时采样的训练样本数据、所述训练样本数据对应的目标值及预设的梯度算法计算损失函数在当前训练步数时的梯度;/n根据预设的第一参数、在当前训练步数的上一个训练步数进行训练时所述神经网络模型中第l层的第一一阶矩估计...

【技术特征摘要】
1.一种神经网络模型训练方法,其特征在于,包括:
获取训练样本集,所述训练样本集中包括多个训练样本数据;
将所述训练样本集中的训练样本数据输入至预设的神经网络模型中进行迭代训练,直到所述神经网络模型收敛为止,其中,在对所述神经网络模型进行每一训练步数的训练后,通过以下步骤更新所述神经网络模型中第l层的权重:
根据所述神经网络模型在当前训练步数进行训练时的当前权重、在当前训练步数进行训练时采样的训练样本数据、所述训练样本数据对应的目标值及预设的梯度算法计算损失函数在当前训练步数时的梯度;
根据预设的第一参数、在当前训练步数的上一个训练步数进行训练时所述神经网络模型中第l层的第一一阶矩估计、所述梯度、预设的一阶矩估计计算公式、及预设的一阶矩估计修正公式计算在当前训练步数进行训练时的修正一阶矩估计;
根据预设的第二参数、在所述上一个训练步数进行训练时所述神经网络模型中第l层的第一二阶矩估计、所述梯度、预设的二矩估计计算公式、及预设的二阶矩估计修正公式计算在当前训练步数进行训练时的修正二阶矩估计;
根据所述修正一阶矩估计、所述修正二阶矩估计及预设的系数修正计算公式计算在当前训练步数进行训练时的修正系数;
根据所述当前权重、所述修正系数、预设的第三参数、在当前训练步数进行训练时的第一修正学习率及预设的学习率修正计算公式计算在当前训练步数的下一个训练步数进行训练时的第二修正学习率;
根据所述当前权重、所述第二修正学习率、所述修正系数、所述第三参数及预设的权重计算公式计算得到更新后的第l层的权重。


2.根据权利要求1所述的神经网络模型训练方法,其特征在于,所述梯度算法具体为:

其中,为所述损失函数在当前训练步数时的梯度,为所述当前权重,为所述训练样本数据,为所述目标值,为所述损失函数。


3.根据权利要求2所述的神经网络模型训练方法,其特征在于,所述根据预设的第一参数、在当前训练步数的上一个训练步数进行训练时所述神经网络模型中第l层的第一一阶矩估计、所述梯度、预设的一阶矩估计计算公式、及预设的一阶矩估计修正公式计算在当前训练步数进行训练时的修正一阶矩估计包括:
根据所述第一参数、所述第一一阶矩估计、所述梯度及预设的一阶矩估计计算公式计算在当前训练步数进行训练时的第二一阶矩估计,其中,所述一阶矩估计计算公式具体为:为所述第二一阶矩估计,为所述第一一阶矩估计,β1为所述第一参数;
根据所述第二一阶矩估计及所述一阶矩估计修正公式计算所述修正一阶矩估计,其中,所述一阶矩估计修正公式具体为:为所述修正一阶矩估计,为所述第一参数β1的t次幂,t为所述当前训练步数。


4.根据权利要求3所述的神经网络模型训练方法,其特征在于,所述根据预设的第二参数、在所述上一个训练步数进行训练时所述神经网络模型中第l层的第一二阶矩估计、所述梯度、预设的二矩估计计算公式、及预设的二阶矩估计修正公式计算在当前训练步数进行训练时的修正二阶矩估计包括:
根据所述第二参数、所述第一二阶矩估计、所述梯度、预设的二矩估计计算公式计算在当前训练步数进行训练...

【专利技术属性】
技术研发人员:李国安
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1