【技术实现步骤摘要】
基于跳出局部极小的改进卷积神经网络训练的方法
[0001]本专利技术属于人工智能领域,深度学习方向,专利技术了一种基于跳出局部极小的改进卷积神经网络训练的方法,应用在图像分类领域。
技术介绍
[0002]近年来人工智能的飞速进步离不开深度学习的快速发展,离不开人们对深度神经网络的不断研究。深度神经网络通常被用来在图像等领域上实现分类任务。深度神经网络通过不断训练已知标签的训练样本,从而对网络的参数值(包括权重和偏置)进行不断调整,最终实现对图像的精准分类。所以如何优化深度神经网络的参数值,提高对图像的分类正确率是深度学习领域目前研究的重要问题。本专利专利技术可应用在图像分类领域,旨在提高图像分类的正确率。
[0003]优化神经网络参数值至达到最优体现在使其训练损失达到全局最小,这样才能够保证该神经网络具有最好的预测能力和泛化能力,能够更好的完成诸如分类等任务。但是存在训练损失值大于全局最小的局部极小,在训练过程中很有可能会陷入局部极小,这会使我们无法得到最优化的神经网络。
[0004]利用常用的SGD和Adam等优化算法对神经网络进行训练时,经常会陷入局部极小。了解当前优化得到的参数模型附近的损失景观图可以判断其是否为局部极小,将有助于解决这个难题。在此基础上,如何设计出有效地跳出局部极小的方法,使得能够继续优化神经网络,得到损失值更小、分类更精准的神经网络是我们应该深入思考的问题。
[0005]本专利技术旨在使用深度学习知识和相关数学知识,设计出基于跳出局部极小的改进卷积神经网络训练的方法, ...
【技术保护点】
【技术特征摘要】
1.基于跳出局部极小的改进卷积神经网络训练的方法,其特征在于,包含以下几个步骤:(1)随机初始化结构为L层的卷积神经网络,通过Adam优化器对其进行训练,直至训练损失不再下降,到达收敛状态,此时得到的卷积神经网络是参数空间中的一个局部极小值点,记作θ
*
(2)构造出与卷积神经网络θ
*
具有同样结构但是参数值发生了改变的另一个卷积神经网络,记作θ(3)再构造出与卷积神经网络θ具有同样结构但是参数值发生了改变并且训练损失值不发生改变的另一个卷积神经网络θ
′
;(4)进一步优化θ
′
,使训练损失降至比θ
*
的训练损失更低的程度,得到比θ
*
分类效果更好的卷积神经网络,记作θ
″
,代表成功跳出了局部极小值点θ
*
。2.根据权利要求1所述的基于跳出局部极小的改进卷积神经网络训练的方法,其特征在于,所述步骤1具体包括:构造结构为L层的卷积神经网络,除最后一层即第L层是全连接层,其余层都为卷积层,随机初始化权重和偏置,通过Adam优化器对其进行训练,直至训练损失不再下降,到达收敛状态,此时得到的卷积神经网络,记作θ
*
;将卷积神经网络θ
*
第l层的二维权值矩阵表示为W
*l
,其中第(i,j)项记作W
*l
(i,j),用来记录卷积神经网络θ
*
第l层的第i个输出神经元和第j个输入神经元之间的权值;将卷积神经网络θ
*
第l层的偏置向量表示为b
*l
;将卷积神经网络θ
*
第l
‑
1层的输出表示为o
*l
‑1,将ReLU激活函数表示为函数σ,则卷积神经网络θ
*
第l层的输出o
*l
为:o
*l
=σ(W
*l
o
*l
‑1+b
*l
)卷积神经网络θ
*
的训练损失(经验风险)的定义如下所示:其中o
*l
(x
i
)为输入的第i个训练样本x
i
在卷积神经网络θ
*
中的映射输出,y
i
为输入的第i个训练样本x
i
的标记(目标输出),函数l表示分类问题中广泛使用的交叉熵损失函数,N代表训练样本总数。3.根据权利要求1所述的基于跳出局部极小的改进卷积神经网络训练的方法,其特征在于,所述步骤2具体包括:对卷积神经网络θ
*
的最后三层的部分参数进行特定改变即可构造出卷积神经网络θ;最后三层即第L
‑
2层和第L
‑
1层为卷积层,第L层为全连接层;也就是说,卷积神经网络θ除了需要特殊设置最后三层的部分参数外,其余参数设置均与θ
*
的对应参数相同;将卷积神经网络θ第l层的二维权值矩阵表示为W
l
,其中第(i,j)项W
l
(i,j)代表卷积神经网络θ第l层的第i个输出神经元和第j个输入神经元之间的权值;将卷积神经网络θ第l层的偏置向量表示为b
l
,将卷积神经网络θ第l层的偏置向量的第i个分量表示为P
l
表示第l层输出的特征图谱的大小,n
l
表示第l层输出神经元的数目,[n]表示集合{1,2,3,4,......,n},
·
表示所有行或列,m:n表示m到n之间的正整数即集合{m,m+1,m+2,m+3,......,n},特殊设置如下所示:
W
L
‑2(i,
·
)=0,i∈[2P
L
‑3],W
L
‑2(2P
L
‑3+i,i)=1,i∈[P
L
‑3],W
L
‑2(2P
L
‑3+i,j)=0,i≠j,i∈[P
L
‑3],W
L
‑1(i,i)=1,i∈[3P
L
‑2],W
L
‑1(i,j)=0,i≠j,i∈[3P
L
‑2],W
L
‑1(3P
L
‑2+i,j)=0,i∈[n
L
‑1‑
3P
L
‑2],j∈[3P
L
‑2],W
L
(
·
,1:2P
L
‑2)=0,W
L
(
·
,2P
L
‑2+1:n
L
)=A,)=A,其中W
L
‑2为卷积神经网络θ第L
‑
2层的二维权值矩阵,W
L
‑1为卷积神经网络θ第L
‑
1层的二维权值矩阵,W
L
为卷积神经网络θ第L层的二维权值矩阵;W
L
‑2(i,
·
)表示卷积神经网络θ第L
‑
2层的第i个输出神经元和所有输入神经元之间的权值组成的向量,W
L
‑2(2P
L
‑3+i,i)表示卷积神经网络θ第L
‑
2层的第2P
L
‑3+i个输出神经元和第i个输入神经元之间的权值,W
L
‑2(2P
L
‑3+i,j)表示卷积神经网络θ第L
‑
2层的第2P
L
‑3+i个输出神经元和第j个输入神经元之间的权值,W
L
‑1(i,i)=1表示卷积神经网络θ第L
‑
1层的第i个输出神经元和第i个输入神经元之间的权值,W
L
‑1(i,j)表示卷积神经网络θ第L
‑
1层的第i个输出神经元和第j个输入神经元之间的权值,W
L
‑1(3P
L
‑2+i,j)表示卷积神经网络θ第L
‑
1层的第3P
L
‑2+i个输出神经元和第j个输入神经元之间的权值,W
L
(
·
,1:2P
L
‑2)表示卷积神经网络θ第L层的所有输出神经元和第1个输入神经元到第2P
L
‑2个输入神经元之间的权值组成的矩阵,W
L
(
·
,2P
L
‑2+1:n
L
)表示卷积神经网络θ第L层的所有输出神经元和第2P
L
‑2+1个输入神经元到第n
L
个输入神经元之间的权值组成的矩阵;b
L
‑2表示卷积神经网络θ第L
‑
2层的偏置向量,b
L
‑1表示卷积神经网络θ第L
‑
1层的偏置向量;表示卷积神经网络θ第L
‑
2层的偏置向量的第i个分量,表示卷积神经网络θ第L
‑
1层的偏置向量的第i个分量;P
L
‑3表示第L
‑
3层输出的特征图谱的大小,P
L
‑2表示第L
‑
2层输出的特征图谱的大小;[2P
L
‑3]表示集合{1,2,3,4,......,2P
L
‑3},[P
L
‑3]表示集合{1,2,3,4,......,P
L
‑3},[3P
L
‑2]表示集合{1,2,3,4,......,3P
L
‑2},[n
L
‑1‑
3P
L
‑2]表示集合{1,2,3,4,......,n
L
‑1‑
3P
L
‑2},[3]表示集合{1,2,3};n
L
‑1表示第L
‑
1层输出神经元的数目,n
L
表示第L层输出神经元的数目;矩阵A通过如下公式确定:其中N代表训练样本总数,输入的第i个训练样本x
i
在卷积神经网络θ中的映射输出表示为o
l
(x
i
),输入的第i个训练样本x
i
在卷积神经网络θ
*
中的映射输出表示为o
*l
(x
i
);其余参数设置与θ
*
的对应参数相同,得到θ;因为卷积神经网络θ
*
的训练损失R(θ
*
)是局部极小值,所以易知R(θ)>R(θ
*
)。4.根据权利要求1所述的基于跳出局部极小的改进卷积神经网络训练的方法,其特征在于,所述步骤3具体包括:将训练样本x
i
在卷积神仙网络θ上第l层输出的特征图谱表示为o
l
(x
i
),将训练样本x
j
在
卷积神仙网络θ上第l层输出的特征图谱表示为o
l
(x
j
),由于卷积神仙网络的深度性、复杂性以及训练样本的多样性,不同样本x
i
和x
j
在最后一个卷积层的输出必然不相同,即o
L
‑1(x
i
)≠o
L
‑1(x
j
),i≠j;在构造出的卷积神经网络θ上,将训练样本x
i
在第L
‑
3层的输出的第j个分量记为公式如下所示:i∈[N],j∈[min(n
L
‑1‑
2P
L
‑2,n
L
‑2‑
2P
L
‑3,n
L
‑3)]其中W
L
‑3为卷积神经网络θ第L
‑
3层的二维权值矩阵,W
L
‑3(j,
·
)表示卷积神经网络θ第L
‑
3层的第j个输出神经元和所有输入神经元之间的权值组成的向量;o
L
‑4(x
i
)表示输入的第i个训练样本x
i
在卷积神经网络θ中的映射输出;N代表训练样本总数;[N]表示集合{1,2,3,4,......,N};n
L
‑1表示第L
‑
1层输出的特征点总数,n
L
‑2表示第L
‑
2层输出的特征点总数,n
L
‑3表示第L
‑
3层输出的特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。