The invention belongs to the field of neural network technology, provides a method and a device for improving the generalization ability of convolutional neural network, the method includes: from the training set to read a set of images, the image is mapped into a set of a plurality of image feature vectors, and in accordance with the image of the category of image feature vectors into multiple classes the calculation of the loss function; the whole class according to the image feature vector for each class in the whole class; calculating the loss function according to the image feature vector for each class in the class; according to the overall loss function by using the back-propagation algorithm each node updates the weights of convolutional neural network; according to the overall inter class loss function using back propagation each node update algorithm of convolutional neural network in weight; the procedures are circulated until the reach of convolutional neural network in the training set or convergence Predetermined number of cycles. The invention can reserve all data with long tail distribution, and fully utilize the abundant inter class information of tail data, so as to improve the generalization ability of the convolution neural network model.
【技术实现步骤摘要】
一种提升卷积神经网络泛化能力的方法及装置
本专利技术属于神经网络
,尤其涉及一种提升卷积神经网络泛化能力的方法及装置。
技术介绍
卷积神经网络是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。与传统算法不同,卷积神经网络的相邻层之间的神经单元并不是全连接,而是部分连接,并且对于一个卷积核的卷积运算权值共享,从而减少了参数个数,通过多次卷积与池化过程达到特征提取的目的。随着大批量图像数据库的日益丰富以及计算机的计算性能的不断提升,卷积神经网络在计算机视觉和模式识别领域发挥出了巨大的优势。人脸识别是卷积神经网络的一个重要应用领域,在卷积神经网络应用的过程中,一般情况下随着训练用数据的扩充,训练所得的网络模型拥有更强的泛化能力。但是,在自然收集的数据中,其分布总是呈现长尾分布,即少量的类拥有许多的照片,而绝大部分类的照片数量很少。当训练数据呈现出带有长尾的幂指分布时,随着尾部图像数量的增多,神经网络的泛化能力降低。现有的解决方案通常采用舍弃尾部数据的方法,这一方案造成了数据集的信息的丢失,从根本上说没有利用到更加充分的类间信息帮助卷积神经网络模型提升泛化能力。
技术实现思路
鉴于此,本专利技术提供一种提升卷积神经网络泛化能力的方法及装置,保留具有长尾分布的所有数据,充分利用尾部数据丰富的类间信息,提升卷积神经网络模型的泛化能力。本专利技术的第一方面,提供一种卷积神经网络的训练方法,所述方法包括:从训练集中读取一组图像,将所述一组图像映射为多个图像特征向量,并按照图像的类别将图像特征向量分为多个类;根据每个类内的图 ...
【技术保护点】
一种提升卷积神经网络泛化能力的方法,其特征在于,所述方法包括:从训练集中读取一组图像,将所述一组图像映射为多个图像特征向量,并按照图像的类别将图像特征向量分为多个类;根据每个类内的图像特征向量计算整体的类内损失函数;根据每个类内的图像特征向量计算整体的类间损失函数;根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值;根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值;循环执行上述步骤,直到所述卷积神经网络在所述训练集上收敛或者达到预定的循环次数。
【技术特征摘要】
1.一种提升卷积神经网络泛化能力的方法,其特征在于,所述方法包括:从训练集中读取一组图像,将所述一组图像映射为多个图像特征向量,并按照图像的类别将图像特征向量分为多个类;根据每个类内的图像特征向量计算整体的类内损失函数;根据每个类内的图像特征向量计算整体的类间损失函数;根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值;根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值;循环执行上述步骤,直到所述卷积神经网络在所述训练集上收敛或者达到预定的循环次数。2.根据权利要求1所述的方法,其特征在于,所述根据每个类内的图像特征向量计算整体的类内损失函数包括:若类内的图像特征向量个数大于或等于预设值,将类内的所有图像特征向量每两个之间计算类内距离,并记录最大的类内距离;删除参与计算并获得最大的类内距离的两个图像特征向量,计算剩余的图像特征向量每两个之间的类内距离,并再次记录最大的类内距离;将两次记录的最大的类内距离的调和平均值作为该类的均值;若类内的图像特征向量的个数小于所述预设值,将类内的所有图像特征向量每两个之间计算类内距离;选取最大的类内距离和次大的类内距离的调和平均值作为该类的均值,或者选取最大的类内距离作为该类的均值;计算所有类的均值,并将所有类的均值相加后得到整体的类内损失函数。3.根据权利要求1所述的方法,其特征在于,所述根据每个类内的图像特征向量计算整体的类间损失函数包括:计算每个类内所有图像特征向量的均值,并将计算结果作为该类的中心特征向量;将所有类的中心特征向量每两个之间计算类间距离;若所有的类间距离中最小的类间距离大于阈值,则将所述最小的类间距离与所述阈值的差值作为整体的类间损失函数;若所有的类间距离中最小的类间距离小于或等于所述阈值,则整体的类间损失值为零。4.根据权利要求1所述的方法,其特征在于,所述根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值包括:对整体的类内损失函数求导,获得参与计算整体的类内损失函数的各个图像特征向量对应的节点的权值,并将未参与计算整体的类内损失函数的图像特征向量对应的节点的权值设为零。5.根据权利要求1所述的方法,其特征在于,所述根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的参数包括:对整体的类间损失函数求导,获得参与计算整体的类间损失函数的类中各个图像特征向量对应的节点的权值,并将未参与计算整体的类间损失函数的类中各个图像特征向量对应的节点的权值设为零。6.一种提升卷积神经网络泛化能力的装置,其特征在于,所述装置包括:分类模块,用于从训练...
【专利技术属性】
技术研发人员:乔宇,张潇,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。