一种融合多粒度特征的细粒度图像分类方法技术

技术编号:30966711 阅读:16 留言:0更新日期:2021-11-25 20:38
本发明专利技术提供一种融合多粒度特征的细粒度图像分类方法,属于图像处理领域。本发明专利技术首先通过一个局部错位模块选择细粒度图像中的不同粒度,然后引入注意力机制定位它们并提取其多粒度特征,并且通过迭代学习的方式提取多粒度间的互补信息,最后采用可变形卷积融合这些多粒度特征,从而实现细粒度图像分类。本文所提出的方法在CUB

【技术实现步骤摘要】
一种融合多粒度特征的细粒度图像分类方法


[0001]本专利技术的属于图像处理领域,具体涉及一种融合多粒度特征的细粒度图像分类方法。

技术介绍

[0002]细粒度图像分类旨在识别给定对象类别的子类,例如不同种类的鸟类以及飞机和汽车。由于这些子类存在细微的类间差异和显著的类内变化,细粒度图像分类比传统分类问题更具挑战性。迄今为止,最有效的解决方案依赖于从局部区域提取辨别性的细粒度特征表示,这种局部辨别性特征被集中融合以进行最终分类。早期工作中辨别性特征绝大多数来自于相关领域专家的人工注释。然而由于专业性限制使得人工注释获取代价高昂且有一定误差。因此,近年来的研究重点已经转移到仅使用类别标签的弱监督训练模型。这些模型拥有能够定位更具辨别性的局部区域的能力,这使得它们能够在不使用额外人工注释的情况下获得不俗的性能。
[0003]然而,尽管依靠定位局部辨别性区域的弱监督细粒度分类研究取得了很多进展,但普遍来说它们都很少关注以下两个问题:第一,提取的具有辨别性的局部区域在哪些粒度上最具辨别性,例如鸟的头部或爪两个辨别性区域中哪个对分类结果帮助更大,第二,用什么方式可以将不同粒度上的信息融合在一起以提高分类精度,换句话说就是头部和爪的两个不同辨别性区域如何能够更好地协同工作来提升分类结果。由于跨不同粒度的信息有助于避免大的类内变化的影响,例如,鸟类鉴别专家有时需要使用鸟头部的整体结构和更精细的细节,如鸟喙的形状来识别一只鸟。因此我们认为,模型不仅需要找到最具区别性的粒度,同时还需要考虑不同粒度的局部如何有效地合并。
>
技术实现思路

[0004]在本专利技术中,我们提出了一个融合多粒度特征的网络框架,该框架通过迭代学习方式引导网络学习由低到高的不同粒度及不同粒度之间的互补信息,同时将多粒度特征融合在一起,从而提高分类准确率。具体地说,这是通过以下几个相互协同工作的组件来实现的:(1)限定输入图像粒度的局部错位模块,它能够迫使网络学习限定粒度下图像的局部信息;(2)注意力模块,因为图像的背景中存在噪声,所以有必要先通过注意力来定位辨别性的局部,同时有选择地增强其中具有丰富信息的特征,并抑制那些语义无关的特征;(3)迭代学习方式,具体来说,我们从更细的粒度开始训练,逐渐转向更粗的粒度,当每个迭代步骤结束时,在当前迭代步骤训练的参数将作为下一迭代步骤的初始化参数,这种传递使网络能够基于上一迭代步骤的经验来挖掘更大粒度的信息;(4)有效融合多粒度特征的可变形卷积模块,在迭代学习完成后,利用原始图像进行新一轮训练,并将提取到的多粒度进行融合,以更进一步提升效果。
[0005]本专利技术的技术方案:
[0006]一种融合多粒度特征的细粒度图像分类方法,步骤如下:
[0007]1、搭建融合多粒度特征的网络模型:
[0008]融合多粒度特征的网络模型包括局部错位模块、注意力模块和可变形卷积模块;通过局部错位模块来制造输入数据粒度的差异性;融合多粒度特征的网络模型使用ResNet50作为骨干网络,用F代表ResNet50,F在特征提取的过程中有L个阶段,每个阶段都会生成一份特征图,把第i个阶段生成的输出特征图记为F
i
,并用H
i
、W
i
、C
i
分别表示第i阶段输出特征图的高度、宽度和通道数,其中i∈{1,2,...,L};注意力模块用于让模型定位并提取到不同粒度的局部特征,通过注意力模块找到具有辨别性的多粒度局部,记为F
i
';可变形卷积模块能够根据不同粒度局部的大小自适应的改变卷积核采样点位置,扩大感受野,然后将多个不同粒度的特征融合到一起,得到特征向量FV
c
,最后我们将FV
c
输入分类器得到最终预测值y
c
,分类器由两个全连接层和一个softmax层组成。
[0009]进一步地,各个模块的结构组成:
[0010]局部错位模块:由图像划分、打乱图像位置矩阵、图像重组三个操作组成。
[0011]注意力模块:注意力模块包括空间注意力和通道注意力,其中空间注意力由全局平均池化层、三个带有不同卷积核大小的卷积层、对卷积输出求均值的均值计算层、Sigmoid激活函数层组成。通道注意力由全局最大池化层、全连接层、Relu激活函数层、全连接层、Sigmoid激活函数层组成。
[0012]可变形卷积模块:由一个增加卷积核偏移量的卷积层和一个向量连接层组成。
[0013]2、利用迭代学习的方式来引导融合多粒度特征的网络模型在较浅的特征层中学习稳定的细粒度信息,并随着训练的进行逐步将计算资源转移到较深的特征层中学习粗粒度的抽象信息,具体如下:
[0014](1)用L表示主干网络提取特征过程中的阶段数(L的取值由选取的主干网络决定,如ResNet50中L=5),用s表示迭代学习中迭代总步骤数,因为网络最多能够提取L个不同粒度的特征,所以s∈[1,L]。用i代表具体某一次迭代步骤,其中i∈[1,s]。
[0015](2)在第i次迭代时,首先使用局部错位模块将输入图像p转化为新的图像B(p,n),具体来说,模块将输入图像p分割成n
×
n个局部,其中n=2
L

s+i
,之后将这些局部的位置矩阵打乱并根据新的位置矩阵生成新的图像B(p,n);图像B(p,n)与输入图像p共享相同的标签y。
[0016](3)主干网络从新图像B(p,n)中提取第L

s+i个阶段的特征F
L

s+i

[0017](4)注意力模块对F
L

s+i
进行进一步处理,为了得到对应于第i个迭代步骤的空间注意力权重在空间域上,先对特征作全局平均池化得到池化图AP
i
,之后分别用三个不同卷积核大小的卷积操作对AP
i
进行变化得到然后对对应位置相加求均值,并用Sigmoid函数对均值做归一化,得到空间注意力权重
[0018]进一步地,平均池化公式如下:
[0019][0020]其中AP
i
代表特征图通过压缩得到的全局平均池化图,c代表特征图的通道数,F
i
(k)代表特征图在每个通道对应空间位置的局部像素值。
[0021]进一步地,选择用(1,1)、(3,3)和(5,5)三个不同大小的卷积核来学习AP
i

[0022]并获得三个不同的空间描述符
[0023][0024][0025][0026]进一步地,可以表示为:
[0027][0028]其中σ为sigmoid函数,Mean为对应位置相加求均值。从而我们可以获得空间注意力
[0029](5)在通道域上,首先对F
L

s+i
做全局最大池化操作,之后通过一个全连接层和激活函数Relu,在经过一个全连接层和Sig本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合多粒度特征的细粒度图像分类方法,其特征在于,步骤如下:步骤1、搭建融合多粒度特征的网络模型:融合多粒度特征的网络模型包括局部错位模块、注意力模块和可变形卷积模块;通过局部错位模块来制造输入数据粒度的差异性;融合多粒度特征的网络模型使用ResNet50作为骨干网络,用F代表ResNet50,F在特征提取的过程中有L个阶段,每个阶段都会生成一份特征图,把第i个阶段生成的输出特征图记为F
i
,并用H
i
、W
i
、C
i
分别表示第i阶段输出特征图的高度、宽度和通道数,其中i∈{1,2,...,L};注意力模块用于让模型定位并提取到不同粒度的局部特征,通过注意力模块找到具有辨别性的多粒度局部,记为F
i

;可变形卷积模块能够根据不同粒度局部的大小自适应的改变卷积核采样点位置,扩大感受野,然后将多个不同粒度的特征融合到一起,得到特征向量FV
c
,最后我们将FV
c
输入分类器得到最终预测值y
c
,分类器由两个全连接层和一个softmax层组成;步骤2、利用迭代学习的方式来引导融合多粒度特征的网络模型在较浅的特征层中学习稳定的细粒度信息,并随着训练的进行逐步将计算资源转移到较深的特征层中学习粗粒度的抽象信息,具体如下:(1)用L表示主干网络提取特征过程中的阶段数:用s表示迭代学习中迭代总步骤数,因为网络最多能够提取L个不同粒度的特征,所以s∈[1,L];用i代表具体某一次迭代步骤,其中i∈[1,s];(2)在第i次迭代时,首先使用局部错位模块将输入图像p转化为新的图像B(p,n),具体来说,模块将输入图像p分割成n
×
n个局部,其中n=2
L

s+i
,之后将这些局部的位置矩阵打乱并根据新的位置矩阵生成新的图像B(p,n);图像B(p,n)与输入图像p共享相同的标签y;(3)主干网络从新图像B(p,n)中提取第L

s+i个阶段的特征F
L

s+i
;(4)注意力模块对F
L

s+i
进行进一步处理:在空间域上,先对特征作全局平均池化得到池化图AP
i
,之后分别用三个不同卷积核大小的卷积操作对AP
i
进行变化得到然后对对应位置相加求均值,并用Sigmoid函数对均值做归一化,得到空间注意力权重(5)在通道域上,首先对F
L

s+i
做全局最大池化操作,之后通过一个全连接层和激活函数Relu,在经过一个全连接层和Sigmoid函数处理后得到通道注意力权重(6)注意力模块将学习到的空间注意力权重和通道注意力权重对特征进行加权,具体操作是先分别将空间注意力权重和通道注意力权重与输入特征F
L

s+i
相乘,之后再对两个结果进行对应位置相加,得到最终结果F

L

s+i
;(7)将特征F

L

s+i
输入分类器,分类器由由两个带有BatchNorm的全连接层和一个softmax层组成;(8)分类过后得到预测值y
L

s+i
,用交叉熵函数计算其与真实标签的损失,并通过反向传播更新网络权重,之后开启下一次迭代;(9)第i+1次迭代重复步骤(2)至(8),并以此类推步骤3、在迭代学习结束后,将原始图像输入网络,由主干网络提取到特征{F
L

s+1
,...,F
L
‑1,F
L
},用注意力...

【专利技术属性】
技术研发人员:孙俊杨祺李超陈祺东吴豪方伟吴小俊
申请(专利权)人:匀熵科技无锡有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1