一种深度神经网络训练方法技术

技术编号:19389202 阅读:20 留言:0更新日期:2018-11-10 02:08
本发明专利技术提出了一种深度卷积网络训练方法。该训练方法中,将Softmax Loss损失函数和基于余弦距离的Center Loss损失函数相结合作为误差损失函数,更新网络中的参数,对深度网络进行训练。Softmax Loss损失函数是一个比较通用的用于深度网络全连接层的损失函数,可以有效实现多类分类问题,但它容易丢失样本图像的类内距和类间距信息,有一定的局限性。基于余弦距离的Center Loss度量学习模块,通过计算每个样本和对应类中心之间的余弦距离作为损失函数,考虑到了输入特征图的方向信息,同类样本之间相互靠近,网络输出的特征具有明显的判别性,可以提高网络最终的识别结果。

A deep neural network training method

The invention proposes a deep convolution network training method. In this training method, the combination of Softmax Loss loss function and Cosine Distance-based Core Loss loss function is used as error loss function to update the parameters of the network and train the deep network. Softmax Loss loss function is a general loss function used in the full connection layer of deep network. It can effectively realize multi-class classification problem. However, it is easy to lose the information of the inter-class distance and the inter-class distance of sample images, which has some limitations. The Cosine Distance-based Core Loss Metric Learning Module calculates the cosine distance between each sample and the corresponding class center as a loss function. Considering the direction information of the input feature graph, the similar samples are close to each other, and the features of the network output have obvious discrimination, which can improve the final recognition of the network. Result.

【技术实现步骤摘要】
一种深度神经网络训练方法
本专利技术提出了一种深度神经网络的训练方法,属于机器学习领域。
技术介绍
近年来,随着深度学习的发展,各种深度学习网络模型交替出现,为图像分类带来了新的解决方案。为了提升深度学习网络的分类性能,一方面可以通过改变网络结构,还可以通过训练方法的改进,本专利技术正是提出了一种新的训练方法对深度神经网络进行训练,从而实现图像的分类问题。通常深度学习卷积网络一般使用Softmax函数实现分类功能,但是这种网络很容易丢失输入样本图像的类内距和类间距信息。将度量学习融入深度卷积网络的学习过程中,可以有效地捕捉到输入样本的类内距和类间距信息,扩大不同类样本之间的距离,减小同类样本之间的距离,有效地提高网络最终的识别结果。
技术实现思路
本专利技术的目的是提供一种深度神经网络训练方法,神经网络经过不断的前向传播和反向传播来调整网络中的权值矩阵,使网络的损失函数降到最低,并保持稳定范围之内,最终完成训练。本专利技术解决其技术问题所采用的技术方案是:卷积神经网络,主要包括输入层、卷积层、降采样层和全连接层组成。输入层是待处理的输入数据或图像,卷积层和降采样层交替出现实现自动提取特征信息,全连接层实现图像分类功能,全连接层的最后一层是输出层。卷积神经网络的学习过程是一种有监督学习,本质上是输入到输出的映射,它的训练样本集是包含的是一系列向量对(X,Yp),其中X表示输入向量,Yp表示是理想输出向量。卷积神经网络可以自主地学习到图像中的特征,找到输出到输出之间的映射关系,而不需要提前设计出输入到输出之间的计算公式。卷积神经网络训练之前,需要初始化网络中的权值。一般使用不同的小随机数初始化权值,不同的初始值可以保证网络中的每个权值的更新过程都是不同的,而小的随机数能避免网络由于初始权值过大引起网络训练失败。网络的训练过程包括两个阶段:1.前向传播阶段前向传播的过程是从样本集中选择一个样本,将样本送入网络,然后得到网络的实际输出值。在这个过程中,网络首先通过数据层读取样本的输入数据,然后经过网络各个层级进行数据处理,网络会在输出层得到实际输出结果。包括如下步骤:(1)计算每个输入图像的特征和对应类中心特征之间的余弦距离作为损失函数,即基于余弦距离的CenterLoss;(2)计算SoftmaxLoss损失函数。2.反向传播阶段反向传播的过程是为了调整权值矩阵,根据网络实际输出值和理想输出值之间的误差,利用极小值误差反向传播到输入层,调整网络每层的权值矩阵W。包括如下步骤:(a)根据SoftmaxLoss损失函数,分别计算出该损失函数对输出层的参数QUOTE的偏导数,和对网络中参数QUOTE的偏导数;(b)根据基于余弦距的CenterLoss损失函数,分别计算出该损失函数对每个类的中心特征的QUOTE的偏导数,和网络中参数QUOTE的偏导数;(c)根据SoftmaxLoss损失函数和基于余弦距离的CenterLoss损失函数计算出的偏导数,更新网络中的参数QUOTE。本专利技术和现有技术相比,具有以下优点和效果:神经网络经过不断的前向传播和反向传播来调整网络中的权值矩阵,使网络的损失函数降到最低,并保持稳定范围之内,最终完成训练。基于余弦距离的CenterLoss度量学习模块,通过计算每个样本和对应类中心之间的余弦距离作为损失函数,考虑到了输入特征图的方向信息,同类样本之间相互靠近,网络输出的特征具有明显的判别性,可以提高网络最终的识别结果。附图说明图1为本专利技术卷积神经网络结构。图2为本专利技术网络训练流程。具体实施方式下面结合附图并通过实施例对本专利技术作进一步的详细说明,以下实施例是对本专利技术的解释而本专利技术并不局限于以下实施例。1.损失函数计算:训练时,将基于SoftmaxLoss和基于余弦距离的CenterLoss相结合,对应的损失函数如下:QUOTE(1)其中,QUOTE表示输出层的softmaxLoss,QUOTE表示基于余弦距的CenterLoss,超参数QUOTE用于调节SoftmaxLoss和基于余弦距的CenterLoss的权重。网络中QUOTE的主要作用是对输入图像进行分类,QUOTE的表达式为(2)式所示:QUOTE(2)其中,QUOTE表示网络中最后一层(输出层)的参数,QUOTE是示性函数,T是输出层节点个数,N是输入一批样本中三元组的数量,每一组输入的样本数据表示为QUOTE,QUOTE是表示网络最后的隐层输出的第i个样本的特征,QUOTE是与QUOTE相对应的真实标签。网络中QUOTE的主要作用是计算每个输入样本和对应类中心之间的余弦距离,将这个余弦距离作为损失函数调整网络中的参数,使得同一类样本之间的距离比较小,计算公式如式(3)所示:QUOTE(3)其中,QUOTE是网络最后的隐层输出的第i个样本的特征,QUOTE表示第i个样本对应的类中心特征,N表示输入一批样本的数量。2.参数更新:卷积神经网络的参数在更新时,使用随机梯度下降法。我们将网络中的参数分为三部分,分别是输出层的参数QUOTE,每个类的类中心特征QUOTE,网络中的其他参数QUOTE。输出层的参数QUOTE只依赖于SoftmaxLoss,每个类的类中心特征QUOTE只依赖于基于余弦距的CenterLoss,网络中的其他参数QUOTE的更新取决于SoftmaxLoss和基于余弦距的CenterLoss。在卷积神经网络和基于余弦距的CenterLoss相结合的网络中,输出层的参数QUOTE的更新公式如式(4)所示。QUOTE(4)QUOTE(5)其中,QUOTE表示SoftmaxLoss,QUOTE表示最后隐层输出的特征经过输出层计算得到的概率。公式中SoftmaxLoss损失函数对QUOTE求偏导的计算公式如下所示:QUOTE(6)在(6)式中,QUOTE表示第i个样本属于第t类的概率,QUOTE表示从网络最后隐层得到的第i个样本的特征。网络中每个类的中心特征的QUOTE初始化为随机数值,在网络更新时QUOTE的计算公式如下式所示:QUOTE(7)QUOTE(8)其中,QUOTE是第j类的中心特征,QUOTE表示从网络最后隐层输出的第i个样本的特征,QUOTE是输入样本i对应的真实的标签值,N是输入样本的数量。QUOTE是示性函数,如果第i个样本计算出的类别和给出的真实标签值相同,示性函数QUOTE,否则QUOTE。网络中其他层参数QUOTE的更新计算公式如下:QUOTE(9)QUOTE(10)其中,QUOTE表示SoftmaxLoss,QUOTE表示基于余弦距的CenterLoss,超参数QUOTE用于调节两个损失函数的权重,QUOTE表示网络最后的隐含层的输出。公式(10)中SoftmaxLoss损失函数QUOTE对QUOTE的偏导数的计算公式如式(11)所示:QUOTE(11)其中,QUOTE表示网络最后的隐含层的输出,QUOTE表示最后隐层输出的特征经过Softmax层计算得到的概率。公式(10)中基于余弦距的CenterLoss损失函数对QUOTE偏导数的计算公式如式(12)所示:QUOTE(12)其中,QUOTE表示网络最后的隐含层的输出,QUOTE是第i个样本对应的类中心的特征。训练流程如图2所示。本说明书中所描述的本文档来自技高网...

【技术保护点】
1.一种深度神经网络的训练方法,其特征在于,将Softmax Loss损失函数和基于余弦距离的Center Loss损失函数相结合作为误差损失函数,用于反向传播过程中更新网络中的参数,对深度网络进行训练。

【技术特征摘要】
1.一种深度神经网络的训练方法,其特征在于,将SoftmaxLoss损失函数和基于余弦距离的CenterLoss损失函数相结合作为误差损失函数,用于反向传播过程中更新网络中的参数,对深度网络进行训练。2.根据权利要求1所述的一种深度神经网络的训练方法,其特征在于,损失函数的计算包括:(1)计算每个输入图像的特征和对应类中心特征之间的余弦距离作为损失函数,即基于余弦距的CenterLoss;(2)计算SoftmaxLoss损失函数。3....

【专利技术属性】
技术研发人员:吕岳吕淑静张茹玉
申请(专利权)人:嘉兴善索智能科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1