细粒度图像分类方法技术

技术编号:20045906 阅读:54 留言:0更新日期:2019-01-09 04:28
本发明专利技术公开了一种细粒度图像分类方法,包括:利用特征提取器提取输入图像的特征;利用两个特征映射函数对提取到的特征做映射操作,并利用双线性池化或者核化的双线性池化将这两个映射操作结果组合成更高阶的最终图像表达;其中一个映射操作中使用了针对提取到的特征所预测到的最优池化阶数,另一个映射操作中使用了针对提取到的特征中每一个像素位置的重要性程度;利用分类器对所述最终图像表达进行分类,从而实现对输入图像的分类。通过上述方案可以解决样本异质性与区域异质性的问题,极大的提高了细粒度图像分类的准确率。

【技术实现步骤摘要】
细粒度图像分类方法
本专利技术涉及图像分类
,尤其涉及一种细粒度图像分类方法。
技术介绍
细粒度图像分类在近几年间获得了广泛的关注,其目标为区分一个基本类别下的众多子类。由于细粒度级别的信息对于理解物体细节更加重要,细粒度图像分类技术比传统图像分类具有更加广阔的应用前景。作为传统目标识别的一个子类,细粒度图像分类的难点在于如何识别出不同子类别图像间细微的差别。在众多细粒度图像分类方法中,双线性池化被广泛的运用于提取图像高阶信息。通过外积的重组方式,双线性池化能够将基础网络的一阶特征映射成更高阶的特征,从而显式地表达出更多的图像细节信息。然而目前的方法都不合理地将固定的高阶池化运用于所有的图像样本,没有考虑样本之前的差异性。除此之外,图像中不同区域的不同信息量导致了同一高阶池化对不同区域也有着不同的效果。
技术实现思路
本专利技术的目的是提供一种细粒度图像分类方法,可以提高细粒度图像分类的准确率。本专利技术的目的是通过以下技术方案实现的:一种细粒度图像分类方法,包括:利用特征提取器提取输入图像的特征;利用两个特征映射函数对提取到的特征做映射操作,并利用双线性池化或者核化的双线性池化将这两个映射操作结果组合成更高阶的最终图像表达;其中一个映射操作能够根据图像内容预测一个最优的池化阶数,另一个映射操作能够对图像中的每一个像素点预测一个重要性权重;利用分类器对所述最终图像表达进行分类,从而实现对输入图像的分类。由上述本专利技术提供的技术方案可以看出,一方面,能够对每一张输入图像学习到一个特定阶数的池化策略,来解决样本异质性的问题,另一方面,能够学习到图像中哪些区域包含更有价值的信息,解决的是区域异质性问题;该方案在三个广泛使用的基准数据集中都取得了当前最好的结果。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种细粒度图像分类方法的流程图;图2为本专利技术实施例提供的实现细粒度图像分类方法的网络结构示意图;图3为本专利技术实施例提供的自适应双线性池化的三种实现方式的示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提出一种细粒度图像分类方法,其步骤如图1所示,相应的网络结构如图2所示,该方法的主要步骤如下:步骤1、利用特征提取器提取输入图像的特征。本专利技术实施例中,所述特征提取器可以通过卷积神经网络实现,所述卷积神经网络包含多组卷积层结构,每组卷积层结构中包含多个卷积层和ReLU激活函数;组与组之间设有一个最大池化层,每组卷积块层内部卷积层的卷积核数量一样,并且随着网络的加深,不同组的卷积核数量会依次递增,将最后一个卷积层输出的特征作为特征提取器的特征提取结果。示例性的,特征提取器可以通过CNN模型实现,包括VGG-16或ResNet-101。例如VGG-16包含五组卷积层结构,每组结构中包含2-3个卷积层和ReLU激活函数。组与组之间插入一个最大池化层来降低特征维度和扩大感受野。每组卷积块层内部的卷积核数量一样,并且随着网路的加深,不同组的卷积核数量会依次递增。在VGG-16结构里,五组卷积结构的输出特征的通道数可以依次设置为:64,128,256,512,512。随着特征通道数目的增多,以及特征的空间维度变小,网络提取到的特征也包含了更高层语义上的信息。最后VGG-16输出的最后一个卷积层特征作为特征提取结果Xi。步骤2、利用两个特征映射函数对提取到的特征做映射操作,并利用双线性池化或者核化的双线性池化将这两个映射操作结果组合成更高阶的最终图像表达。本专利技术实施例中,其中一个映射操作能够根据图像内容预测一个最优的池化阶数,而另一个映射操作能够对图像中的每一个像素点预测一个重要性权重。具体来说,利用P-orderlearning对给定的特征推断出一个最优的池化阶数pi。利用spatialattentionlearning学习一个向量ωi来帮助模型去挑选哪些区域的特征最具有区分性。这两个特征映射函数分别记为fp与fs;fp、fs分别对应的通过P-net(P网络)、S-net(S网络)实现。P-net和S-net共有三种组合方式,分别对应图3中的:(a)对称双路结构,P-net和S-net分别放置在双线性池化输入的两个输入端;(b)非对称结构,P-net和S-net都放置在同一路输入中;(c)S-net放置在双线性池化的输出位置。根据乘法交换律,图3中的三种组合方式在用原始的双线性池化会得到一样的结果。而当用核化的双线性池化时,结果却有很大的区别。因此通过实验验证选择最合适的一种网络结果,最后发现对称双路结构(图3(a))能同时与原始的和核化的双线性池化都兼容,并给出最好的结果。不仅如此,通过这种双路结构,P-Net和S-Net对输入图像生成的两种类型的特征能达到互补的效果,相应的结构也在图2所示的网络结构中示出。前述步骤1所提取到的特征Xi将分别进行两种映射操作,主要如下:1)P-net中,通过一个全局平均池化层(GAP)将提取到的特征Xi映射成一个全局向量,再依次通过一个全连接层(FC)与ReLU激活函数将全局向量映射成数值pi,所述数值pi为针对提取到的特征Xi预测的最优池化阶数,表示对每一个输入样本都预测了一个最优的高阶池化策略,最后利用数值pi对提取到的特征Xi中的每一个元素进行指数操作(EXP),作为fp映射后的特征,其表示为:上式中是对提取到的特征Xi的每个元素做指数操作。2)S-net中,通过一个1×1的卷积层(Conv)加上ReLU激活函数将提取到的特征Xi映射成一个通道数为1的特征图;然后通过softmax操作将特征图进行归一化得到一个向量ωi,向量ωi表示了提取到的特征Xi中的每一个像素位置的重要性程度,最后将向量ωi作为权重矩阵乘(MUL)在提取到的特征Xi上,作为fp映射后的特征其表示为:fs(Xi)=Xidiag(ωi);其中,diag·为对角化操作,其生成的对角矩阵中的对角线元素对应于向量中的元素。需要主要的是,S-net中softmax的使用主要有两点原因:1.使用softmax能保证得到的向量ωi中的数值都较小,并且只有少部分大数值集中在最有区分性的区域内;2.使用softmax能抑制梯度爆炸的现象,从而使网络的训练更稳定。本专利技术实施例提供的上述方案对每一副图像都学习一个特定的池化阶数,区别于传统技术中对所有样本使用固定的池化阶数,例如,对于一些内容简单,容易区分的图像来说,低阶的池化足以提取到足够的信息。而对于一些困难的样本来说,高阶的池化才有能力提取到具有分辨力的信息。另外由于与p-orderlearning互补,向量ωi能进一步使本专利技术的池化策略集中在那些富含信息量线索的区域,从而产生更鲁棒可靠的特征表达。在后续池化过程中可以采用双线本文档来自技高网...

【技术保护点】
1.一种细粒度图像分类方法,其特征在于,包括:利用特征提取器提取输入图像的特征;利用两个特征映射函数对提取到的特征做映射操作,并利用双线性池化或者核化的双线性池化将这两个映射操作结果组合成更高阶的最终图像表达;其中一个映射操作能够根据图像内容预测一个最优的池化阶数,另一个映射操作能够对图像中的每一个像素点预测一个重要性权重;利用分类器对所述最终图像表达进行分类,从而实现对输入图像的分类。

【技术特征摘要】
1.一种细粒度图像分类方法,其特征在于,包括:利用特征提取器提取输入图像的特征;利用两个特征映射函数对提取到的特征做映射操作,并利用双线性池化或者核化的双线性池化将这两个映射操作结果组合成更高阶的最终图像表达;其中一个映射操作能够根据图像内容预测一个最优的池化阶数,另一个映射操作能够对图像中的每一个像素点预测一个重要性权重;利用分类器对所述最终图像表达进行分类,从而实现对输入图像的分类。2.根据权利要求1所述的一种细粒度图像分类方法,其特征在于,所述特征提取器通过卷积神经网络实现,所述卷积神经网络包含多组卷积层结构,每组卷积层结构中包含多个卷积层和ReLU激活函数;组与组之间设有一个最大池化层,每组卷积块层内部卷积层的卷积核数量一样,并且随着网络的加深,不同组的卷积核数量会依次递增,将最后一个卷积层输出的特征作为特征提取器的特征提取结果。3.根据权利要求2所述的一种细粒度图像分类方法,其特征在于,所述两个特征映射函数分别记为fp与fs;fp、fs分别对应的通过P-net、S-net实现;所述P-net和S-net分别放置在双线性池化输入的两个输入端,形成对称双路结构;两个映射操作分别如下:所述P-net中,通过一个全局平均池化层将提取到的特征Xi映射成一个全局向量,再依次通过一个全连接层与ReLU激活函数将全局向量映射成数值pi,所述数值pi为针对提取到的特征Xi预测的最优池化阶数,最后利用数值pi对提取到的特征Xi中的每一个元素进行指数操作,作为fp映射后的特征;所述S-net中,通过一个1×1的卷积层加上ReLU激活函数将提取到的特征Xi映射成一个通道数为1的特征图;然后通过softmax操作将特征图进行归一化得到一个向量ωi,向量ωi表示了提取到的特征Xi中的每一个像素位置的重要性程度,最后将向量ωi作为权重矩阵乘在提取到的特征X...

【专利技术属性】
技术研发人员:张勇东闵少波谢洪涛
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1