一种对于梯度变化敏感的卷积神经网络模型制造技术

技术编号:27370145 阅读:56 留言:0更新日期:2021-02-19 13:55
本发明专利技术公开了一种对于梯度变化敏感的卷积神经网络模型,基于当前和最近的梯度构造了一种自适应学习率调控因子,该学习率因子可以智能调控每个参数学习率因子。当代价函数在该参数的维度上处于上升沿或者下降沿时,此时代价函数对于该参数的偏导数持续为正或者持续为负,我们可以通过增大其学习率以加快代价函数的收敛;当代价函数在该参数维度上位于最小值点附近时,此时代价函数对于该参数的偏导数会呈现正负交替出现的现象,我们可以通过降低其学习率以加快代价函数的收敛。本发明专利技术弥补了Adam算法在迭代过程不充分利用局部梯度的变化的缺陷,可以有效的提高卷积神经网络模型的训练速度,进而在相同条件下提高其准确率。进而在相同条件下提高其准确率。进而在相同条件下提高其准确率。

【技术实现步骤摘要】
一种对于梯度变化敏感的卷积神经网络模型


[0001]本专利技术涉及机器学习领域中的卷积神经网络模型,通过引入一个基于当前梯度和最近梯度构造的自适应学习率调控因子,在全局学习率的基础上,分配给每个参数一个合适的自适应学习率以实现代价函数的快速收敛。

技术介绍

[0002]卷积神经网络模型是机器学习的一项基础技术,该技术在图像识别,微表情分析,物体定位等方向发挥着十分重要的作用。
[0003]在卷积神经网络模型的训练过程中,梯度下降法(GD)是模型训练基础的算法,以此为中心衍生出了一系列的改进算法。这些改进算法总体而言可以分为两大方向。
[0004]其一是以Momentum算法为代表,通过引入动量因子有效的缓解了每次迭代计算中噪音较大的问题,使得收敛曲线更加平缓,同时在收敛速度上也有一定的提高。之后,在Momentum的基础上再次使用Nesterov加速,在迭代过程中引入未来的更新量进一步使得收敛曲线更为平滑稳定。
[0005]其二是以AdaGrad算法、RMSProp算法为代表,他们考虑到了每个参数在各自的优化迭代过程中的累计变化,以此为依据对下一次迭代的步长进行调整,累计变化较多的给与一个较小的步长,累计变化较少的给与一个较大的步长,使得参数迭代优化更具有针对性。
[0006]将两种思路开创性结合的Adam算法利用了梯度的一阶矩估计和二阶矩估计,偏置矫正后构建一个自适应因子动态调整每个参数的学习率,使得参数优化更为平稳。至此,卷积神经网络模型的训练算法便大多以Adam算法为基础进行改进。之后,基于混合功率提出的AdaHMG算法改进了Adam算法的二阶矩估计,基于梯度变化大小引入新的自适应学习率因子的diffGrad算法在Adam算法的基础上再次引入一个新的自适应学习率因子。
[0007]自AdaGrad等自适应算法将统计学思想引入后,卷积神经网络模型的训练更加注重对于全局梯度的把控,自适应学习率因子重心在于对之前梯度变化的累计,当前梯度在因子中占比极少。一定程度上忽略了当前梯度和最近梯度对于卷积神经网络模型训练的重要意义。
[0008]综上所述,卷积神经网络模型训练以梯度下降法为基础,发展出了两个方向,动量的引入使得训练收敛过程更为平稳;统计学思想的引入使得自适应算法广泛应用于卷积神经网络训练,最后两者合二为一,Adam算法被开创性地提出。这些自适应方法很好的把握住了局梯度变化,然而却忽略了当前和最近梯度的重要意义。将当前和局部梯度引入加入到训练迭代运算有着十分重要的意义。

技术实现思路

[0009]为了解决以上问题,本专利技术提供了一种对于梯度变化敏感的卷积神经网络模型,该模型可以自适应的调整学习率大小,当代价函数在该参数的维度上处于上升沿或者下降
沿时,我们可以通过增大其学习率以加快代价函数的收敛;当代价函数在该参数维度上位于最小值点附近时,我们可以通过降低其学习率以加快代价函数的收敛。
[0010]为实现上述目的,本专利技术提供的具体技术方案如下:
[0011]一种对于梯度变化敏感的卷积神经网络模型,其特征在于,包括如下步骤:步骤1、输入训练集D={(x1,y1),(x2,y2),...(x
m
,y
m
)};步骤2、设置参数:η∈[10-4
,10-2
];β1,β2∈[0,1);ε=1
×
10-8
;步骤3、引入Adam算法,在Adam算法的基础上,引入自适应学习率因子λ;步骤4、进行迭代参数运算。
[0012]所述步骤3,在Adam算法中,通过梯度的偏置矫正的一阶矩估计和二阶矩估计构造自适应因子实现每个参数学习率的个性化,参数的具体迭代公式以下列公式实现:
[0013]m
t
=β1mt-1
+(1-β1)g
t
[0014][0015][0016][0017][0018]其中,g
t
,g
t-1
分别是当前梯度值和上轮迭代的梯度值,β1和β2为衰减系数,分别取0.9和0.999,mt为一阶矩估计,vt为二阶矩估计,η为学习率,δ为一个很小的常量防止分母为零,为偏置矫正后的一阶矩估计,为偏执校正后的二阶矩估计。
[0019]所述步骤3中,引入的自适应学习率因子记为λ,在本专利技术中λ具体定义如下:
[0020][0021]其中g
t
,g
t-1
分别是当前梯度值和上轮迭代的梯度值,sig函数类似于sigmoid函数,对于sig函数的具体计算方式如下:
[0022][0023]由sig函数的表达式可知,sig函数是一个单调递增函数并且随着底数p的增加,sig函数的上升沿会变得更加陡峭。当x取值为负数时,sig函数的取值范围为(0,1),当x取值为正数时,sig函数的取值范围为(1,2)。
[0024]所述步骤4还包括:当连续两轮迭代的梯度符号相同时,x取值为正,sig函数取值大于1,此时自适应学习率因子的效果是提高学习率;当连续两轮迭代的梯度符号不同时,x取值为负,sig函数的取值范围为(0,1),此时,自适应学习率因子的效果时降低学习率,这与我们所预想的相同。此外,当连续两次的梯度同号并且数值较大时,表明代价函数在改参数的维度上正在快速收敛,由于sig函数单调递增,在sig函数大于1的基础上,数值也更大,对于学习率的提高也更明显。
[0025]所涉及的梯度下降法是卷积神经网络模型训练的基础算法,在梯度下降法中,参数以以下公式进行迭代运算:
[0026]θ
t

θ
t-1-η*g
t
[0027]其中,θ
t
为所需迭代更新的参数,gt为迭代参数为θ
t
值时的梯度值。
[0028]进行迭代运算时,对于梯度全局的把控以Adam中偏置矫正的一阶矩估计和二阶矩估计构造的自适应学习率因子实现,具体迭代由以下规则实现:
[0029][0030]其中,θ
t
为所需迭代更新的参数,λ
t
为本专利引入的自适应学习率因子,为偏置矫正后的一阶矩估计,为偏执校正后的二阶矩估计,δ为一个很小的常量防止分母为零。
[0031]在梯度下降法中,学习率对于参数的收敛起到了至关重要的作用,较大的学习率可以使参数较快收敛但容易错过最优解,较小的学习率可以实现更精细的学习但是速度较慢。通常在卷积神经网络模型的训练过程中,我们会给出一个全局学习率,然而每个参数所需的最佳学习率各不相同,因此自适应学习率起着至关重要的作用。
[0032]本专利技术引入了一个自适应学习率因子,由当前梯度和近期梯度构造而成,在Adam算法对于梯度优秀的整体把控力的基础上,辅以该算法对梯度的局部把控力。弥补了Adam算法在迭代过程不充分利用局部梯度的变化的缺陷,可以有效的提高卷积神经网络模型的训练速度,进而在相同条件下提高其准确率。
...

【技术保护点】

【技术特征摘要】
1.一种对于梯度变化敏感的卷积神经网络模型,其特征在于,包括如下步骤:步骤1、输入训练集D={(x1,y1),(x2,y2),...(x
m
,y
m
)};步骤2、设置参数:η∈[10-4
,10-2
];β1,β2∈[0,1);ε=1
×
10-8
;步骤3、引入Adam算法,在Adam算法的基础上,引入自适应学习率因子λ;步骤4、进行迭代参数运算。2.根据权利要求1所述的一种对于梯度变化敏感的卷积神经网络模型,其特征在于,所述步骤3,在Adam算法中,通过梯度的偏置矫正的一阶矩估计和二阶矩估计构造自适应因子实现每个参数学习率的个性化,参数的具体迭代公式以下列公式实现:m
t
=β1m
t-1
+(1-β1)g
tttt
其中,g
t
,g
t-1
分别是当前梯度值和上轮迭代的梯度值,β1和β2为衰减系数,分别取0.9和0.999,mt为一阶矩估计,vt为二阶矩估计,η为学习率,δ为一个很小的常量防止分母为零,为偏置矫正后的一阶矩估计,为偏执校正后的二阶矩估计。3.根据权利要求1所述的一种对于梯度变化敏感的卷积神经网络模型,其特征在于,所述步骤3中,引入的自适应学习率因子记为λ,在本发明中λ具体定义如下:其中g
t
,g
t-1
分别是当前梯度值和上轮迭代的梯度值,sig函数类似于sigmoid函数,对于sig函数的具体计算方式如下:由sig函数的表达式可知,sig函数是一个单调递增函数并且随着底数p的...

【专利技术属性】
技术研发人员:王伟吴小玲刘志鹏李修寒冯锐
申请(专利权)人:南京医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1