基于跳出局部极小的改进卷积神经网络训练的方法技术

技术编号:38679752 阅读:24 留言:0更新日期:2023-09-02 22:53
本发明专利技术涉及一种基于跳出局部极小的改进卷积神经网络训练的方法,用于实现最优化卷积神经网络的目标。主要包括优化得到非平凡局部极小值点θ

【技术实现步骤摘要】
基于跳出局部极小的改进卷积神经网络训练的方法


[0001]本专利技术属于人工智能领域,深度学习方向,专利技术了一种基于跳出局部极小的改进卷积神经网络训练的方法,应用在图像分类领域。

技术介绍

[0002]近年来人工智能的飞速进步离不开深度学习的快速发展,离不开人们对深度神经网络的不断研究。深度神经网络通常被用来在图像等领域上实现分类任务。深度神经网络通过不断训练已知标签的训练样本,从而对网络的参数值(包括权重和偏置)进行不断调整,最终实现对图像的精准分类。所以如何优化深度神经网络的参数值,提高对图像的分类正确率是深度学习领域目前研究的重要问题。本专利专利技术可应用在图像分类领域,旨在提高图像分类的正确率。
[0003]优化神经网络参数值至达到最优体现在使其训练损失达到全局最小,这样才能够保证该神经网络具有最好的预测能力和泛化能力,能够更好的完成诸如分类等任务。但是存在训练损失值大于全局最小的局部极小,在训练过程中很有可能会陷入局部极小,这会使我们无法得到最优化的神经网络。
[0004]利用常用的SGD和Adam等优化算法对神经网络进行训练时,经常会陷入局部极小。了解当前优化得到的参数模型附近的损失景观图可以判断其是否为局部极小,将有助于解决这个难题。在此基础上,如何设计出有效地跳出局部极小的方法,使得能够继续优化神经网络,得到损失值更小、分类更精准的神经网络是我们应该深入思考的问题。
[0005]本专利技术旨在使用深度学习知识和相关数学知识,设计出基于跳出局部极小的改进卷积神经网络训练的方法,并通过编程实践佐证理论证明。本专利技术有助于避免训练过程中陷入局部极小,可以得到损失值更加小的卷积神经网络,能够对图像更加精准地分类。因此,本专利技术对于深度学习卷积神经网络方面的研究工作有着一定的理论和实际意义。

技术实现思路

[0006]本专利技术要解决的问题是:设计出基于跳出局部极小的改进卷积神经网络训练的方法。本专利技术针对此问题,首先使用深度学习中广泛使用的Adam优化器对随机初始化的卷积神经网络进行训练,当训练损失收敛时(训练损失不再下降),此时得到的卷积神经网络是参数空间中的一个局部极小值点,将这个卷积神经网络记作θ
*
。其次在参数空间中构造出θ
*
附近的一个点,也就是构造出一个与卷积神经网络θ
*
具有同样结构但是参数值发生了改变的另一个卷积神经网络,记作θ。再在参数空间中构造出与θ具有相等的训练损失的另一个点,也就是构造出一个与卷积神经网络θ具有同样结构但是参数值发生了改变并且训练损失值不发生改变的另一个卷积神经网络,记作θ

。进一步优化卷积神经网络θ

,可以使训练损失降至比卷积神经网络θ
*
的训练损失更低的程度,得到比θ
*
分类效果更好的卷积神经网络,记作θ

,代表成功跳出局部极小值点θ
*

[0007]本专利技术专利总体分为四大部分:
[0008](1)使用深度学习中广泛使用的Adam优化器对随机初始化的卷积神经网络进行训练,当训练损失收敛时(训练损失不再下降),此时得到的卷积神经网络是参数空间中的一个局部极小值点,将这个卷积神经网络记作θ
*

[0009](2)在参数空间中构造出θ
*
附近的一个点,也就是构造出一个与卷积神经网络θ
*
具有同样结构但是参数值发生了改变的另一个卷积神经网络,记作θ。
[0010](3)再在参数空间中构造出与θ具有相等的训练损失的另一个点,也就是构造出一个与卷积神经网络θ具有同样结构但是参数值发生了改变并且训练损失值不发生改变的另一个卷积神经网络,记作θ


[0011](4)进一步优化卷积神经网络θ

,可以使训练损失降至比卷积神经网络θ
*
的训练损失更低的程度,得到比θ
*
分类效果更好的卷积神经网络,记作θ

,代表成功跳出了局部极小值点θ
*

[0012]本专利技术提出的方法具体技术方案如下:
[0013]1、使用深度学习中广泛使用的Adam优化器对随机初始化的卷积神经网络进行训练,当训练损失收敛时(训练损失不再下降),此时得到的卷积神经网络是参数空间中的一个局部极小值点,记作θ
*

[0014]2、对优化得到的卷积神经网络θ
*
的最后两个卷积层和全连接层的部分参数进行特定改变,得到参数空间中θ
*
附近的一个点,也就是与卷积神经网络θ
*
具有同样结构但是参数值发生了改变的另一个卷积神经网络,记作θ。
[0015]3、在参数空间上构造出与卷积神经网络θ具有相等的训练损失的另一个点,也就是构造出一个与卷积神经网络θ具有同样结构但是参数值发生了改变并且训练损失值不发生改变的另一个卷积神经网络,记作θ


[0016]4、对卷积神经网络θ

继续进行优化,可以使训练损失降至比卷积神经网络θ
*
的训练损失更低的程度,得到比θ
*
分类效果更好的卷积神经网络,记作θ

,代表成功跳出了局部极小值点θ
*

[0017]本专利技术设计出了基于跳出局部极小的改进卷积神经网络训练的方法,有助于改进SGD和Adam等优化算法导致训练过程中陷入局部极小的情况,可以得到损失更小、图片分类正确率更高的卷积神经网络。利用本专利专利技术的方法将会避免在优化卷积神经网络的过程中陷入局部极小,导致优化失败。
附图说明
[0018]图1是本专利技术方法的流程图
[0019]图2是构造θ的示意图
[0020]图3是时构造θ

的示意图
[0021]图4是时构造θ

的示意图
[0022]图5是参数空间中θ
*
附近的训练损失景观图
具体实施方式
[0023]图1是本专利技术方法的流程图,本方法主要分成四个部分,首先,使用深度学习中广
泛使用的Adam优化器对随机初始化的卷积神经网络进行训练,当训练损失收敛时,此时得到的卷积神经网络是参数空间中的一个局部极小值点,将这个卷积神经网络记作θ
*
。其次,在参数空间中构造出θ
*
附近的一个点,也就是构造出一个与卷积神经网络θ
*
具有同样结构但是参数值发生了改变的另一个卷积神经网络,记作θ。再在参数空间中构造出与θ具有相等的训练损失的另一个点,也就是构造出一个与卷积神经网络θ具有同样结构但是参数值发生了改变并且训练损失值不发生改变的另一个卷积神经网络,记作θ

。最后,对卷积神经网络θ

继续进行优化,可以使训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于跳出局部极小的改进卷积神经网络训练的方法,其特征在于,包含以下几个步骤:(1)随机初始化结构为L层的卷积神经网络,通过Adam优化器对其进行训练,直至训练损失不再下降,到达收敛状态,此时得到的卷积神经网络是参数空间中的一个局部极小值点,记作θ
*
(2)构造出与卷积神经网络θ
*
具有同样结构但是参数值发生了改变的另一个卷积神经网络,记作θ(3)再构造出与卷积神经网络θ具有同样结构但是参数值发生了改变并且训练损失值不发生改变的另一个卷积神经网络θ

;(4)进一步优化θ

,使训练损失降至比θ
*
的训练损失更低的程度,得到比θ
*
分类效果更好的卷积神经网络,记作θ

,代表成功跳出了局部极小值点θ
*
。2.根据权利要求1所述的基于跳出局部极小的改进卷积神经网络训练的方法,其特征在于,所述步骤1具体包括:构造结构为L层的卷积神经网络,除最后一层即第L层是全连接层,其余层都为卷积层,随机初始化权重和偏置,通过Adam优化器对其进行训练,直至训练损失不再下降,到达收敛状态,此时得到的卷积神经网络,记作θ
*
;将卷积神经网络θ
*
第l层的二维权值矩阵表示为W
*l
,其中第(i,j)项记作W
*l
(i,j),用来记录卷积神经网络θ
*
第l层的第i个输出神经元和第j个输入神经元之间的权值;将卷积神经网络θ
*
第l层的偏置向量表示为b
*l
;将卷积神经网络θ
*
第l

1层的输出表示为o
*l
‑1,将ReLU激活函数表示为函数σ,则卷积神经网络θ
*
第l层的输出o
*l
为:o
*l
=σ(W
*l
o
*l
‑1+b
*l
)卷积神经网络θ
*
的训练损失(经验风险)的定义如下所示:其中o
*l
(x
i
)为输入的第i个训练样本x
i
在卷积神经网络θ
*
中的映射输出,y
i
为输入的第i个训练样本x
i
的标记(目标输出),函数l表示分类问题中广泛使用的交叉熵损失函数,N代表训练样本总数。3.根据权利要求1所述的基于跳出局部极小的改进卷积神经网络训练的方法,其特征在于,所述步骤2具体包括:对卷积神经网络θ
*
的最后三层的部分参数进行特定改变即可构造出卷积神经网络θ;最后三层即第L

2层和第L

1层为卷积层,第L层为全连接层;也就是说,卷积神经网络θ除了需要特殊设置最后三层的部分参数外,其余参数设置均与θ
*
的对应参数相同;将卷积神经网络θ第l层的二维权值矩阵表示为W
l
,其中第(i,j)项W
l
(i,j)代表卷积神经网络θ第l层的第i个输出神经元和第j个输入神经元之间的权值;将卷积神经网络θ第l层的偏置向量表示为b
l
,将卷积神经网络θ第l层的偏置向量的第i个分量表示为P
l
表示第l层输出的特征图谱的大小,n
l
表示第l层输出神经元的数目,[n]表示集合{1,2,3,4,......,n},
·
表示所有行或列,m:n表示m到n之间的正整数即集合{m,m+1,m+2,m+3,......,n},特殊设置如下所示:
W
L
‑2(i,
·
)=0,i∈[2P
L
‑3],W
L
‑2(2P
L
‑3+i,i)=1,i∈[P
L
‑3],W
L
‑2(2P
L
‑3+i,j)=0,i≠j,i∈[P
L
‑3],W
L
‑1(i,i)=1,i∈[3P
L
‑2],W
L
‑1(i,j)=0,i≠j,i∈[3P
L
‑2],W
L
‑1(3P
L
‑2+i,j)=0,i∈[n
L
‑1‑
3P
L
‑2],j∈[3P
L
‑2],W
L
(
·
,1:2P
L
‑2)=0,W
L
(
·
,2P
L
‑2+1:n
L
)=A,)=A,其中W
L
‑2为卷积神经网络θ第L

2层的二维权值矩阵,W
L
‑1为卷积神经网络θ第L

1层的二维权值矩阵,W
L
为卷积神经网络θ第L层的二维权值矩阵;W
L
‑2(i,
·
)表示卷积神经网络θ第L

2层的第i个输出神经元和所有输入神经元之间的权值组成的向量,W
L
‑2(2P
L
‑3+i,i)表示卷积神经网络θ第L

2层的第2P
L
‑3+i个输出神经元和第i个输入神经元之间的权值,W
L
‑2(2P
L
‑3+i,j)表示卷积神经网络θ第L

2层的第2P
L
‑3+i个输出神经元和第j个输入神经元之间的权值,W
L
‑1(i,i)=1表示卷积神经网络θ第L

1层的第i个输出神经元和第i个输入神经元之间的权值,W
L
‑1(i,j)表示卷积神经网络θ第L

1层的第i个输出神经元和第j个输入神经元之间的权值,W
L
‑1(3P
L
‑2+i,j)表示卷积神经网络θ第L

1层的第3P
L
‑2+i个输出神经元和第j个输入神经元之间的权值,W
L
(
·
,1:2P
L
‑2)表示卷积神经网络θ第L层的所有输出神经元和第1个输入神经元到第2P
L
‑2个输入神经元之间的权值组成的矩阵,W
L
(
·
,2P
L
‑2+1:n
L
)表示卷积神经网络θ第L层的所有输出神经元和第2P
L
‑2+1个输入神经元到第n
L
个输入神经元之间的权值组成的矩阵;b
L
‑2表示卷积神经网络θ第L

2层的偏置向量,b
L
‑1表示卷积神经网络θ第L

1层的偏置向量;表示卷积神经网络θ第L

2层的偏置向量的第i个分量,表示卷积神经网络θ第L

1层的偏置向量的第i个分量;P
L
‑3表示第L

3层输出的特征图谱的大小,P
L
‑2表示第L

2层输出的特征图谱的大小;[2P
L
‑3]表示集合{1,2,3,4,......,2P
L
‑3},[P
L
‑3]表示集合{1,2,3,4,......,P
L
‑3},[3P
L
‑2]表示集合{1,2,3,4,......,3P
L
‑2},[n
L
‑1‑
3P
L
‑2]表示集合{1,2,3,4,......,n
L
‑1‑
3P
L
‑2},[3]表示集合{1,2,3};n
L
‑1表示第L

1层输出神经元的数目,n
L
表示第L层输出神经元的数目;矩阵A通过如下公式确定:其中N代表训练样本总数,输入的第i个训练样本x
i
在卷积神经网络θ中的映射输出表示为o
l
(x
i
),输入的第i个训练样本x
i
在卷积神经网络θ
*
中的映射输出表示为o
*l
(x
i
);其余参数设置与θ
*
的对应参数相同,得到θ;因为卷积神经网络θ
*
的训练损失R(θ
*
)是局部极小值,所以易知R(θ)>R(θ
*
)。4.根据权利要求1所述的基于跳出局部极小的改进卷积神经网络训练的方法,其特征在于,所述步骤3具体包括:将训练样本x
i
在卷积神仙网络θ上第l层输出的特征图谱表示为o
l
(x
i
),将训练样本x
j

卷积神仙网络θ上第l层输出的特征图谱表示为o
l
(x
j
),由于卷积神仙网络的深度性、复杂性以及训练样本的多样性,不同样本x
i
和x
j
在最后一个卷积层的输出必然不相同,即o
L
‑1(x
i
)≠o
L
‑1(x
j
),i≠j;在构造出的卷积神经网络θ上,将训练样本x
i
在第L

3层的输出的第j个分量记为公式如下所示:i∈[N],j∈[min(n
L
‑1‑
2P
L
‑2,n
L
‑2‑
2P
L
‑3,n
L
‑3)]其中W
L
‑3为卷积神经网络θ第L

3层的二维权值矩阵,W
L
‑3(j,
·
)表示卷积神经网络θ第L

3层的第j个输出神经元和所有输入神经元之间的权值组成的向量;o
L
‑4(x
i
)表示输入的第i个训练样本x
i
在卷积神经网络θ中的映射输出;N代表训练样本总数;[N]表示集合{1,2,3,4,......,N};n
L
‑1表示第L

1层输出的特征点总数,n
L
‑2表示第L

2层输出的特征点总数,n
L
‑3表示第L

3层输出的特...

【专利技术属性】
技术研发人员:刘波傅可艺袁彤彤徐鹏
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1