神经网络模型训练方法、装置、设备及可读存储介质制造方法及图纸

技术编号:37778989 阅读:10 留言:0更新日期:2023-06-09 09:09
本申请公开了一种神经网络模型训练方法、装置、设备及可读存储介质,将训练样本输入神经网络模型,得到模型预测的结果,对根据结果及标签计算出的损失函数求二阶导,得到二阶损失函数,利用线性共轭梯度算法对二阶损失函数进行优化,得到目标函数,再基于如下公式:计算梯度下降向量,也即使用了二阶优化算法对模型的参数进行训练调整,直至满足设定的训练结束条件,使神经网络模型能够准确的训练学习,能够处理大量的训练样本,有效地实现神经网络模型通过一个完全通用的优化器来执行,无需任何训练样本的预训练,解决了深度学习中的欠拟合问题,同时使得优化速度更快。使得优化速度更快。使得优化速度更快。

【技术实现步骤摘要】
神经网络模型训练方法、装置、设备及可读存储介质


[0001]本申请涉及机器学习
,更具体地说,涉及一种神经网络模型训练方法、装置、设备及可读存储介质。

技术介绍

[0002]神经网络模型中的参数的训练学习是机器学习领域中研究最深入的问题之一,关于反向传播算法的研究表明深度神经网络学习中的目标的梯度可以被有效地计算出来,通过在梯度下降过程中使用多重网络权值学习方案以及非线性隐藏单元层可以使得目标梯度的计算得到很高的改善。然而这些传统的研究方法在对于那些具有多层的神经网络情况下表现并不理想,随着训练样本的增多,神经网络的层数增多,训练学习的准确率越来越低,无法准确的训练出神经网络模型的参数,并会导致在训练集上出现拟合欠佳的状况。

技术实现思路

[0003]有鉴于此,本申请提供了一种神经网络模型训练方法、装置、设备及可读存储介质,用于解决现有神经网络模型训练方式,随着训练样本的增多,神经网络的层数增多,训练学习的准确率越来越低,无法准确的训练出神经网络模型的参数,并会导致在训练集上出现拟合欠佳的状况。
[0004]为了实现上述目的,现提出的方案如下:
[0005]一种神经网络模型训练方法,包括:
[0006]获取训练样本和标签;
[0007]将所述训练样本输入待训练的神经网络模型,得到所述神经网络模型预测的结果;
[0008]根据所述结果及所述标签计算损失函数,对所述损失函数求二阶导,得到二阶损失函数;
[0009]利用线性共轭梯度算法对所述二阶损失函数进行优化,得到目标函数f;
[0010]基于如下公式计算梯度下降向量d:
[0011][0012]其中,θ为所述目标函数f的参数,H为海瑟矩阵,∈为预设的变化率;
[0013]基于所述梯度下降向量d调整所述神经网络模型的参数,直至满足设定的训练结束条件。
[0014]优选地,基于所述梯度下降向量d调整所述神经网络模型的参数,直至满足设定的训练结束条件,包括:
[0015]基于所述梯度下降向量d调整所述神经网络模型的参数,直至满足如下条件:
[0016][0017][0018]其中,p为原始最佳搜索方向,B=H(θ)。
[0019]优选地,所述利用线性共轭梯度算法对所述二阶损失函数进行优化,得到目标函数f之前,还包括:
[0020]基于Newton

Lanczos方法对预设的信任区域半径进行衰减,得到衰减系数λ;
[0021]基于如下公式计算对角矩阵M:
[0022][0023]其中,α为预设的指数,D为所述训练样本的数量,I为单位矩阵,y
i
为第i个训练样本的标签;
[0024]所述利用线性共轭梯度算法对所述二阶损失函数进行优化,得到目标函数f,包括:
[0025]基于所述对角矩阵M利用线性共轭梯度算法对所述二阶损失函数进行优化,得到目标函数f。
[0026]优选地,当所述训练样本的数量大于预设的阈值时,将所述训练样本输入待训练的神经网络模型,得到所述神经网络模型预测的结果之前,还包括:
[0027]将所述训练样本划分为预设个数的小训练样本集合;
[0028]将所述训练样本输入待训练的神经网络模型,得到所述神经网络模型预测的结果,包括:
[0029]分别将每个小训练样本集合输入待训练的神经网络模型,得到所述神经网络模型预测的结果。
[0030]一种神经网络模型训练装置,包括:
[0031]训练样本和标签获取单元,用于获取训练样本和标签;
[0032]训练样本输入单元,用于将所述训练样本输入待训练的神经网络模型,得到所述神经网络模型预测的结果;
[0033]二阶损失函数获取单元,用于根据所述结果及所述标签计算损失函数,对所述损失函数求二阶导,得到二阶损失函数;
[0034]目标函数获取单元,用于利用线性共轭梯度算法对所述二阶损失函数进行优化,得到目标函数f;
[0035]梯度下降向量计算单元,用于基于如下公式计算梯度下降向量d:
[0036][0037]其中,θ为所述目标函数f的参数,H为海瑟矩阵,∈为预设的变化率;
[0038]参数调整单元,用于基于所述梯度下降向量d调整所述神经网络模型的参数,直至满足设定的训练结束条件。
[0039]优选地,所述参数调整单元基于所述梯度下降向量d调整所述神经网络模型的参数,直至满足设定的训练结束条件的过程,包括:
[0040]基于所述梯度下降向量d调整所述神经网络模型的参数,直至满足如下条件:
[0041][0042][0043]其中,p为原始最佳搜索方向,B=H(θ)。
[0044]优选地,还包括:
[0045]衰减单元,用于基于Newton

Lanczos方法对预设的信任区域半径进行衰减,得到衰减系数λ;
[0046]对角矩阵计算单元,用于基于如下公式计算对角矩阵M:
[0047][0048]其中,α为预设的指数,D为所述训练样本的数量,I为单位矩阵,y
i
为第i个训练样本的标签;
[0049]所述目标函数获取单元利用线性共轭梯度算法对所述二阶损失函数进行优化,得到目标函数f的过程,包括:
[0050]基于所述对角矩阵M利用线性共轭梯度算法对所述二阶损失函数进行优化,得到目标函数f。
[0051]优选地,还包括:
[0052]训练样本划分单元,用于将所述训练样本划分为预设个数的小训练样本集合;
[0053]所述训练样本输入单元将所述训练样本输入待训练的神经网络模型,得到所述神经网络模型预测的结果的过程,包括:
[0054]分别将每个小训练样本集合输入待训练的神经网络模型,得到所述神经网络模型预测的结果。
[0055]一种神经网络模型训练设备,包括存储器和处理器;
[0056]所述存储器,用于存储程序;
[0057]所述处理器,用于执行所述程序,实现如上述神经网络模型训练方法的各个步骤。
[0058]一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述神经网络模型训练方法的各个步骤。
[0059]从上述的技术方案可以看出,本申请实施例提供的神经网络模型训练方法,计算出损失函数后,对损失函数求二阶导,得到二阶损失函数,并利用线性共轭梯度算法对二阶损失函数进行优化,得到目标函数f,再基于如下公式:
[0060][0061]计算梯度下降向量d,也即使用了二阶优化算法对神经网络模型的网络参数进行训练调整,直至满足设定的训练结束条件,二阶优化算法在神经网络层数较多的情况下,使得神经网络模型能够准确的训练学习,并且能够处理大量的训练样本,可以有效地实现神经网络模型通过一个完全通用的优化器来执行,无需任何训练样本的预训练,解决了深度学习中的欠拟合问题,同时使得优化速度更快。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络模型训练方法,其特征在于,包括:获取训练样本和标签;将所述训练样本输入待训练的神经网络模型,得到所述神经网络模型预测的结果;根据所述结果及所述标签计算损失函数,对所述损失函数求二阶导,得到二阶损失函数;利用线性共轭梯度算法对所述二阶损失函数进行优化,得到目标函数f;基于如下公式计算梯度下降向量d:其中,θ为所述目标函数f的参数,H为海瑟矩阵,∈为预设的变化率;基于所述梯度下降向量d调整所述神经网络模型的参数,直至满足设定的训练结束条件。2.根据权利要求1所述的方法,其特征在于,基于所述梯度下降向量d调整所述神经网络模型的参数,直至满足设定的训练结束条件,包括:基于所述梯度下降向量d调整所述神经网络模型的参数,直至满足如下条件:基于所述梯度下降向量d调整所述神经网络模型的参数,直至满足如下条件:其中,p为原始最佳搜索方向,B=H(θ)。3.根据权利要求1所述的方法,其特征在于,所述利用线性共轭梯度算法对所述二阶损失函数进行优化,得到目标函数f之前,还包括:基于Newton

Lanczos方法对预设的信任区域半径进行衰减,得到衰减系数λ;基于如下公式计算对角矩阵M:其中,α为预设的指数,D为所述训练样本的数量,I为单位矩阵,y
i
为第i个训练样本的标签;所述利用线性共轭梯度算法对所述二阶损失函数进行优化,得到目标函数f,包括:基于所述对角矩阵M利用线性共轭梯度算法对所述二阶损失函数进行优化,得到目标函数f。4.根据权利要求1所述的方法,其特征在于,当所述训练样本的数量大于预设的阈值时,将所述训练样本输入待训练的神经网络模型,得到所述神经网络模型预测的结果之前,还包括:将所述训练样本划分为预设个数的小训练样本集合;将所述训练样本输入待训练的神经网络模型,得到所述神经网络模型预测的结果,包括:分别将每个小训练样本集合输入待训练的神经网络模型,得到所述神经网络模型预测的结果。
5.一种神经网络模型训练装置,其特征在于,包括:训练样本和标签获取单元,用于获取训练样本和标签;训练样本输入单元,用于将所述训练样本输入待训练的神经网络模型,得到所述神经网络模型预测的结果;二阶损失函数获取单元,用于根据所述结果及所述标签计...

【专利技术属性】
技术研发人员:聂玲贾翠玲郝金龙余泽豪杨洋
申请(专利权)人:北京中电普华信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1