一种图像分类方法及装置制造方法及图纸

技术编号:17110942 阅读:21 留言:0更新日期:2018-01-24 22:44
本发明专利技术公开一种图像分类方法及装置,其特征在于,方法包括:获取待分类图像的训练集;选择一个多层的卷积神经网络模型;对选取层做基于最小‑最大Min‑Max准则的正则约束,并形成第二卷积神经网络模型,其中,所述选取层为卷积神经网络模型中的一层;使用所述训练集对第二卷积神经网络模型进行训练,并生成第三卷积神经网络模型;使用第三卷积神经网络模型对待分类图像的测试集进行分类。基于目标识别的不变性特征,通过对选取层特征做基于Min‑Max准则的约束,使显式地强迫所学到的特征满足:属于同一类的目标流形有较好的类内紧凑性,属于不同类的目标流形有较大的类间间隔,进而能够显著地提高图像分类的精度。

A method and device for image classification

The invention discloses a device and a method of image classification, which is characterized in that the method comprises the following steps: acquiring image to be classified in the training set; choose the convolutional neural network model based on multi-layer; selection of layer regular constrained minimum maximum Min based on Max criterion, and the formation of second convolution neural network model, which are the selection layer for convolution neural network model in a layer; using the training set to train second convolutional neural network model, and generate third convolutional neural network model; using third convolution neural network model to image classification test set classification. Invariability of target recognition based on feature selection layer, through the Min Max criterion based on the constraint, which explicitly forced features learned: belong to meet the target manifold of the same class have better intra class compactness, the target manifold belonging to different classes of a larger class of distance, and then be able to significantly to improve the accuracy of image classification.

【技术实现步骤摘要】
一种图像分类方法及装置
本专利技术涉及计算机视觉图像分类
,特别是涉及一种图像分类方法及装置。
技术介绍
近来,卷积神经网络在计算机视觉领域和模式识别的多个领域都获得了巨大的成功,例如在目标识别、目标检测、语义分割、目标追踪和图像检索等方面均取得了较好的效果。这些巨大的成功主要归功于以下两个方面的原因:一方面,以通用计算图形处理器(英文:GeneralPurposeGPU,缩写:GPGPU)和CPU集群为代表的现在计算技术的快速发展允许研究人员训练较大规模和较高复杂度的神经网络;另一方面,拥有数以百万计标记图像的大规模数据集的出现,能够在一定程度上减少训练较大规模的卷积神经网络的过拟合,使得训练大规模网络成为可能。通常地,对卷积神经网络图像分类的训练方法是单纯地采用基于随机梯度下降(缩写:SGD)的反向传播(英文BackPropagation,缩写:BP)算法。由于在这种训练方法中没有加入对卷积神经网络所学习到的特征的约束条件,所以导致训练出来的卷积神经网络图像分类系统分类精度不够好,表现为所学习到的特征的类内紧凑性和类间分离性不够好。
技术实现思路
本申请中提供了一种图像分类方法及装置,以提高图像分类精度,为了解决上述技术问题,本申请公开了如下技术方案:第一方面,提供了一种图像分类方法,所述方法包括:获取待分类图像的训练集;选择一个多层的卷积神经网络模型;对选取层做基于Min-Max准则的正则约束,并形成第二卷积神经网络模型,其中,所述选取层为所述卷积神经网络模型中的一层;使用所述训练集对所述第二卷积神经网络模型进行训练,并生成第三卷积神经网络模型;使用所述第三卷积神经网络模型对待分类图像的测试集进行分类。本申请基于目标识别的不变性特征,所述不变性特征是指,当一个物体经过保同变换(例如位置平移,光照变化,形状变化、视角变化等等),其在特征空间里对应的特征向量也会随之变化,将特征向量投影到一个高维的特征空间里,由于高维特征空间的维数和特征向量的维数相同,所以这些所有保同变换在高维特征空间里对应的所有特征向量将会形成一个低维的流形,当属于同一类的目标流形变得比较紧凑,不同类目标物体的流形的间隔比较大时,就得到了较好的不变性特征。本申请在对目标识别不变性特征的观察,提供了基于Min-Max准则改进的深度卷积神经网络图像的分流方法,通过对卷积神经网络的选取层特征做基于Min-Max准则的约束,使显式地强迫所学到的特征满足:属于同一类的目标流形有较好的类内紧凑性,属于不同类的目标流形有较大的类间间隔,进而能够显著地提高图像分类的精度。此外,从选择的卷积神经网络模型中的选取层开始,对其进行Min-Max准则的正则约束运算,使得在训练大规模网络时,能够简化运算,避免通过增加网络规模和训练数据规模导致计算量大,效率低,同时也能够避免构建大规模的训练标注数据集时,投入耗费大量的时间、人力和财力。结合第一方面,在第一方面第一种实现中,所述选择一个卷积神经网络模型包括:获取一个mini-batch的训练样本;根据所述训练样本和目标函数,确定所述卷积神经网络模型;其中,所述训练样本表示为n表示所述mini-batch的大小,Xi表示原始的输入数据,ci表示Xi的类别标签,且ci∈{1,2,…,C},C表示所述训练集的类别总数;所述目标函数表示为:W=(W(1),…,W(M);b(1),…,b(M)),W表示所述卷积神经网络模型的全部参数,表示训练样本的损失函数,M表示所述卷积神经网络模型的总层数,W(m)表示所述卷积神经网络模型第m层的权重参数,b(m)表示所述卷积神经网络模型第m层的偏置参数,m∈{1,2,…,M}中的任意一个值。结合第一方面第一种实现,在第一方面第二种实现中,所述选择一个卷积神经网络模型之后还包括:对所述卷积神经网络模型划分层级;其中,所述划分层级后的卷积神经网络模型的每一层特征的递归表示为:其中,Xi(m)表示所述卷积神经网络模型第m层的特征,*表示卷积运算,f(·)表示非线性激活函数。结合第一方面,在第一方面第三种实现中,对选取层做基于Min-Max准则的正则约束运算之前还包括:获取所述Min-Max准则;所述获取Min-Max准则包括:分别获取Min-Max的内在图和惩罚图,所述内在图表征目标流形的内部紧凑性,所述惩罚图表征目标流形之间的间隔;根据所述内在图和惩罚图,运算得到第k层特征的Min-Max准则,所述第k层为所述选取层;其中,所述第k层特征的Min-Max准则表示为L(X(k),c)=L1(X(k),c)-L2(X(k),c)其中,L1(X(k),c)表示所述内在图,L2(X(k),c)表示所述惩罚图;X(k)表示一个mini-batch的训练样本在第k层的特征的集合,表示与所述mini-batch相对应的类别标签集合,i∈{1,2,…,n}。结合第一方面第三种实现,在第一方面第四种实现中,所述第二卷积神经网络模型用目标函数表示为:其中,为第二卷积神经网络模型的分类损失函数,L(X(k),c)为第k层特征的Min-Max准则。结合第一方面第四种实现,在第一方面第五种实现中,使用所述训练集对所述第二卷积神经网络模型进行训练包括:根据第二卷积神经网络模型的目标函数,获取第二卷积神经网络模型关于第k层特征的灵敏度;根据所述第k层特征的灵敏度和mini-batch的随机梯度下降方法,使用所述训练集对所述第二卷积神经网络模型进行训练;其中,所述第k层特征的灵敏度采用如下方式计算得出:H表示第k层特征拼成的矩阵,Ψ=D-G,D=diag(d11,d22,…,dnn),表示内在图中连接顶点xi和xj的边的权值,表示惩罚图中连接顶点xi和xj的边的权值,i=1,2,…,n,Ψ表示矩阵G=(Gij)n×n的拉普拉斯矩阵,下标(:,i)表示所述矩阵的第i列。结合第一方面第五种实现,在第一方面第六种实现中,所述Min-Max准则为核版本的Min-Max准则,所述核版本的Min-Max准则为所述Min-Max准则通过高斯核函数来定义生成准则。结合第一方面第六种实现,在第一方面第七种实现中,若所述Min-Max准则为核版本的Min-Max准则,那么对选取层做基于Min-Max准则的正则约束运算包括:获取所述核版本的Min-Max准则关于第k层特征的灵敏度;根据所述核版本的Min-Max准则关于第k层特征的灵敏度,对所述第k层做基于所述核版本的Min-Max准则的约束运算;其中,所述核版本的Min-Max准则关于第k层特征的灵敏度表示为:其中,Φ表示矩阵V=(Vij)n×n的拉普拉斯矩阵,结合第一方面第七种实现,在第一方面第八种实现中,使用所述第三卷积神经网络模型对待分类图像的测试集进行分类包括:使用所述第三卷积神经网络模型中的模型参数对待分类图像的测试集进行分类。结合第一方面或第一方面第一种至第八种实现的任意一种,在第一方面第八种实现中,所述选取层为与所述卷积神经网络模型中的输出层之间的距离不超过两个层。第二方面,还提供了一种图像分类装置,该装置包括用于执行第一方面及第一方面各实现方式的中方法步骤的单元。第三方面,还提供了一种图像分类设备,所述设备包括:处理器和存储器,所述处理器,用于获取待分类图像的本文档来自技高网...
一种图像分类方法及装置

【技术保护点】
一种图像分类方法,其特征在于,所述方法包括:获取待分类图像的训练集;选择一个多层的卷积神经网络模型;对选取层做基于最小‑最大Min‑Max准则的正则约束,并形成第二卷积神经网络模型,其中,所述选取层为所述卷积神经网络模型中的一层;使用所述训练集对所述第二卷积神经网络模型进行训练,并生成第三卷积神经网络模型;使用所述第三卷积神经网络模型对待分类图像的测试集进行分类。

【技术特征摘要】
1.一种图像分类方法,其特征在于,所述方法包括:获取待分类图像的训练集;选择一个多层的卷积神经网络模型;对选取层做基于最小-最大Min-Max准则的正则约束,并形成第二卷积神经网络模型,其中,所述选取层为所述卷积神经网络模型中的一层;使用所述训练集对所述第二卷积神经网络模型进行训练,并生成第三卷积神经网络模型;使用所述第三卷积神经网络模型对待分类图像的测试集进行分类。2.根据权利要求1所述的方法,其特征在于,所述选择一个卷积神经网络模型包括:获取一个mini-batch的训练样本;根据所述训练样本和目标函数,确定所述卷积神经网络模型;其中,所述训练样本表示为n表示所述mini-batch的大小,Xi表示原始的输入数据,ci表示Xi的类别标签,且ci∈{1,2,…,C},C表示所述训练集的类别总数;所述目标函数表示为:W=(W(1),…,W(M);b(1),…,b(M)),W表示所述卷积神经网络模型的全部参数,l(W,Xi,ci)表示训练样本的损失函数,M表示所述卷积神经网络模型的总层数,W(m)表示所述卷积神经网络模型第m层的权重参数,b(m)表示所述卷积神经网络模型第m层的偏置参数,m∈{1,2,…,M}中的任意一个值。3.根据权利要求2所述的方法,其特征在于,所述选择一个卷积神经网络模型之后还包括:对所述卷积神经网络模型划分层级;其中,所述划分层级后的卷积神经网络模型的每一层特征的递归表示为:i=1,2,…,n;m=1,2,…,M;其中,表示所述卷积神经网络模型第m层的特征,*表示卷积运算,f(·)表示非线性激活函数。4.根据权利要求1所述的方法,其特征在于,对选取层做基于Min-Max准则的正则约束之前还包括:获取所述Min-Max准则;所述获取Min-Max准则包括:分别获取Min-Max的内在图和惩罚图,所述内在图表征目标流形的内部紧凑性,所述惩罚图表征目标流形之间的间隔;根据所述内在图和惩罚图,运算得到第k层特征的Min-Max准则,所述第k层为所述选取层;其中,所述第k层特征的Min-Max准则表示为L(X(k),c)=L1(X(k),c)-L2(X(k),c)其中,L1(X(k),c)表示所述内在图,L2(X(k),c)表示所述惩罚图;X(k)表示一个mini-batch的训练样本在第k层的特征的集合,表示与所述mini-batch相对应的类别标签集合,i∈{1,2,…,n}。5.根据权利要求4所述的方法,其特征在于,所述第二卷积神经网络模型用目标函数表示为:其中,为第二卷积神经网络模型的分类损失函数,L(X(k),c)为第k层特征的Min-Max准则。6.根据权利要求5所述的方法,其特征在于,使用所述训练集对所述第二卷积神经网络模型进行训练包括:根据第二卷积神经网络模型的目标函数,获取第二卷积神经网络模型关于第k层特征的灵敏度;根据所述第k层特征的灵敏度和mini-batch的随机梯度下降方法,使用所述训练集对所述第二卷积神经网络模型进行训练;其中,所述第k层特征的灵敏度采用如下方式计算得出:H表示第k层特征拼成的矩阵,Ψ=D-G,D=diag(d11,d22,…,dnn),表示内在图中连接顶点xi和xj的边的权值,表示惩罚图中连接顶点xi和xj的边的权值,i=1,2,…,n,Ψ表示矩阵G=(Gij)n×n的拉普拉斯矩阵,下标(:,i)表示所述矩阵的第i列。7.根据权利要求6所述的方法,其特征在于,所述Min-Max准则为核版本的Min-Max准则,所述核版本的Min-Max准则为所述Min-Max准则通过高斯核函数来定义生成的准则。8.根据权利要求7所述的方法,其特征在于,若所述Min-Max准则为核版本的Min-Max准则,那么对选取层做基于Min-Max准则的正则约束运算包括:获取所述核版本的Min-Max准则关于第k层特征的灵敏度;根据所述核版本的Min-Max准则关于第k层特征的灵敏度,对所述第k层做基于所述核版本的Min-Max准则的约束运算;其中,所述核版本的Min-Max准则关于第k层特征的灵敏度表示为:其中,Φ表示矩阵V=(Vij)n×n的拉普拉斯矩阵,9.根据权利要求8所述方法,其特征在于,使用所述第三卷积神经网络模型对待分类图像的测试集进行分类包括:使用所述第三卷积神经网络模型中的模型参数对待分类图像的测试集进行分类。10.根据权利要求1至9中任一项所述的方法,其特征在于,所述选取层为与所述卷积神经网络模型中的输出层之间的距离不超过两个层。11.一种图像分类装置,其特征在于,所述装置包括:获取单元,用于获取待分类图像的训练集;选取单元,用于选择一个多层的卷积神经网络模型;处理单元,用于对选取层做基于Min-Max准则的正则约束,并形成第二卷积神经网络模型...

【专利技术属性】
技术研发人员:张亚森石伟伟龚怡宏
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1