一种提升卷积神经网络泛化能力的方法及装置制造方法及图纸

技术编号:15392213 阅读:84 留言:0更新日期:2017-05-19 05:10
本发明专利技术属于神经网络技术领域,提供了一种提升卷积神经网络泛化能力的方法及装置,所述方法包括:从训练集中读取一组图像,将所述一组图像映射为多个图像特征向量,并按照图像的类别将图像特征向量分为多个类;根据每个类内的图像特征向量计算整体的类内损失函数;根据每个类内的图像特征向量计算整体的类间损失函数;根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值;根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值;循环执行上述步骤,直到所述卷积神经网络在所述训练集上收敛或者达到预定的循环次数。通过本发明专利技术可保留具有长尾分布的所有数据,充分利用尾部数据丰富的类间信息,提升卷积神经网络模型的泛化能力。

Method and device for improving generalization ability of convolutional neural network

The invention belongs to the field of neural network technology, provides a method and a device for improving the generalization ability of convolutional neural network, the method includes: from the training set to read a set of images, the image is mapped into a set of a plurality of image feature vectors, and in accordance with the image of the category of image feature vectors into multiple classes the calculation of the loss function; the whole class according to the image feature vector for each class in the whole class; calculating the loss function according to the image feature vector for each class in the class; according to the overall loss function by using the back-propagation algorithm each node updates the weights of convolutional neural network; according to the overall inter class loss function using back propagation each node update algorithm of convolutional neural network in weight; the procedures are circulated until the reach of convolutional neural network in the training set or convergence Predetermined number of cycles. The invention can reserve all data with long tail distribution, and fully utilize the abundant inter class information of tail data, so as to improve the generalization ability of the convolution neural network model.

【技术实现步骤摘要】
一种提升卷积神经网络泛化能力的方法及装置
本专利技术属于神经网络
,尤其涉及一种提升卷积神经网络泛化能力的方法及装置。
技术介绍
卷积神经网络是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。与传统算法不同,卷积神经网络的相邻层之间的神经单元并不是全连接,而是部分连接,并且对于一个卷积核的卷积运算权值共享,从而减少了参数个数,通过多次卷积与池化过程达到特征提取的目的。随着大批量图像数据库的日益丰富以及计算机的计算性能的不断提升,卷积神经网络在计算机视觉和模式识别领域发挥出了巨大的优势。人脸识别是卷积神经网络的一个重要应用领域,在卷积神经网络应用的过程中,一般情况下随着训练用数据的扩充,训练所得的网络模型拥有更强的泛化能力。但是,在自然收集的数据中,其分布总是呈现长尾分布,即少量的类拥有许多的照片,而绝大部分类的照片数量很少。当训练数据呈现出带有长尾的幂指分布时,随着尾部图像数量的增多,神经网络的泛化能力降低。现有的解决方案通常采用舍弃尾部数据的方法,这一方案造成了数据集的信息的丢失,从根本上说没有利用到更加充分的类间信息帮助卷积神经网络模型提升泛化能力。
技术实现思路
鉴于此,本专利技术提供一种提升卷积神经网络泛化能力的方法及装置,保留具有长尾分布的所有数据,充分利用尾部数据丰富的类间信息,提升卷积神经网络模型的泛化能力。本专利技术的第一方面,提供一种卷积神经网络的训练方法,所述方法包括:从训练集中读取一组图像,将所述一组图像映射为多个图像特征向量,并按照图像的类别将图像特征向量分为多个类;根据每个类内的图像特征向量计算整体的类内损失函数;根据每个类内的图像特征向量计算整体的类间损失函数;根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值;根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值;循环执行上述步骤,直到所述卷积神经网络在所述训练集上收敛或者达到预定的循环次数。本专利技术的第二方面,提供一种卷积神经网络的训练装置,所述装置包括:分类模块,用于从训练集中读取一组图像,将所述一组图像映射为多个图像特征向量,并按照图像的类别将图像特征向量分为多个类;整体的类内损失函数计算模块,用于根据所述分类模块获得的每个类内的图像特征向量计算整体的类内损失函数;整体的类间损失函数计算模块,用于根据所述分类模块获得的每个类内的图像特征向量计算整体的类间损失函数;整体的类内损失函数反向计算模块,用于根据整体的类内损失函数计算模块计算的整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值;整体的类间损失函数反向计算模块,用于根据整体的类间损失函数计算模块计算的整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值;卷积神经网络获得模块,用于循环执行上述模块,直到所述卷积神经网络在该训练集上收敛或者达到预定的循环次数。本专利技术与现有技术相比存在的有益效果是:本专利技术从训练集中读取一组图像,将所述一组图像映射为多个图像特征向量,并按照图像的类别将图像特征向量分为多个类;根据每个类内的图像特征向量计算整体的类内损失函数;根据每个类内的图像特征向量计算整体的类间损失函数;根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值;根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值;循环执行上述步骤,直到所述卷积神经网络在所述训练集上收敛或者达到预定的循环次数。通过本专利技术构造的整体的类内损失函数和整体的类间损失函数可充分利用尾部数据丰富的类间信息,提升卷积神经网络模型的泛化能力。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术第一实施例提供的提升卷积神经网络泛化能力的方法的示意流程图;图2是本专利技术第二实施例提供的提升卷积神经网络泛化能力的方法的示意流程图;图3是本专利技术第二实施例中图像特征向量运算的示意图。图4是本专利技术第三实施例提供的提升卷积神经网络泛化能力的装置的示意框图;图5是本专利技术第四实施例提供的提升卷积神经网络泛化能力的装置的示意框图;具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。在介绍实施例前,首先需要说明的是,本专利技术实施例作用于卷积神经网络全连接层的损失函数部分,在训练卷积神经网络过程中只具体介绍与本专利技术实施例构建的损失函数相关的内容。实施例一:参见图1,图1是本专利技术实施例一提供的提升卷积神经网络泛化能力的方法的示意流程图,如图所示该方法可以包括以下步骤:步骤S101,从训练集中读取一组图像,将所述一组图像映射为多个图像特征向量,并按照图像的类别将图像特征向量分为多个类。在本专利技术实施例中,需要先构建卷积神经网络,卷积神经网络是一个多层的神经网络,每层都是一个变换(映射),通常都包含卷积变换和池化变换,每种变换过程都是对每层输入数据的一种处理,是输入数据特征的另一种特征表达,每层由多个二维平面组成,每个平面为各层处理后的特征图。每个卷积神经网络中卷积层和池化层的个数不确定,依据具体的情况而定,在最后连接一个全连接层,即完成对训练数据的特征提取后,把特征数据进行向量化。本专利技术实施例中构建的卷积神经网络包括卷积层、池化层、全连接层和softmax层,而本专利技术实施例中的损失函数作用于全连接层。需要注意的是,所述卷积层、池化层、全连接层的个数可以是多个。所述训练集用来训练卷积神经网络模型确定模型参数(例如卷积神经网络中各节点的权值),训练集中包含很多不同类别的图像。对应训练集还设置有测试集,所述测试集是为了测试已经训练好的本文档来自技高网...
一种提升卷积神经网络泛化能力的方法及装置

【技术保护点】
一种提升卷积神经网络泛化能力的方法,其特征在于,所述方法包括:从训练集中读取一组图像,将所述一组图像映射为多个图像特征向量,并按照图像的类别将图像特征向量分为多个类;根据每个类内的图像特征向量计算整体的类内损失函数;根据每个类内的图像特征向量计算整体的类间损失函数;根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值;根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值;循环执行上述步骤,直到所述卷积神经网络在所述训练集上收敛或者达到预定的循环次数。

【技术特征摘要】
1.一种提升卷积神经网络泛化能力的方法,其特征在于,所述方法包括:从训练集中读取一组图像,将所述一组图像映射为多个图像特征向量,并按照图像的类别将图像特征向量分为多个类;根据每个类内的图像特征向量计算整体的类内损失函数;根据每个类内的图像特征向量计算整体的类间损失函数;根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值;根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值;循环执行上述步骤,直到所述卷积神经网络在所述训练集上收敛或者达到预定的循环次数。2.根据权利要求1所述的方法,其特征在于,所述根据每个类内的图像特征向量计算整体的类内损失函数包括:若类内的图像特征向量个数大于或等于预设值,将类内的所有图像特征向量每两个之间计算类内距离,并记录最大的类内距离;删除参与计算并获得最大的类内距离的两个图像特征向量,计算剩余的图像特征向量每两个之间的类内距离,并再次记录最大的类内距离;将两次记录的最大的类内距离的调和平均值作为该类的均值;若类内的图像特征向量的个数小于所述预设值,将类内的所有图像特征向量每两个之间计算类内距离;选取最大的类内距离和次大的类内距离的调和平均值作为该类的均值,或者选取最大的类内距离作为该类的均值;计算所有类的均值,并将所有类的均值相加后得到整体的类内损失函数。3.根据权利要求1所述的方法,其特征在于,所述根据每个类内的图像特征向量计算整体的类间损失函数包括:计算每个类内所有图像特征向量的均值,并将计算结果作为该类的中心特征向量;将所有类的中心特征向量每两个之间计算类间距离;若所有的类间距离中最小的类间距离大于阈值,则将所述最小的类间距离与所述阈值的差值作为整体的类间损失函数;若所有的类间距离中最小的类间距离小于或等于所述阈值,则整体的类间损失值为零。4.根据权利要求1所述的方法,其特征在于,所述根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值包括:对整体的类内损失函数求导,获得参与计算整体的类内损失函数的各个图像特征向量对应的节点的权值,并将未参与计算整体的类内损失函数的图像特征向量对应的节点的权值设为零。5.根据权利要求1所述的方法,其特征在于,所述根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的参数包括:对整体的类间损失函数求导,获得参与计算整体的类间损失函数的类中各个图像特征向量对应的节点的权值,并将未参与计算整体的类间损失函数的类中各个图像特征向量对应的节点的权值设为零。6.一种提升卷积神经网络泛化能力的装置,其特征在于,所述装置包括:分类模块,用于从训练...

【专利技术属性】
技术研发人员:乔宇张潇
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1