基于注意力交互及反事实注意力的细粒度图像识别方法技术

技术编号:37436337 阅读:22 留言:0更新日期:2023-05-06 09:08
本发明专利技术属于图像处理技术领域,公开了基于注意力交互及反事实注意力的细粒度图像识别方法,提取图像特征后,通过空间注意力机制学习物体各部位的空间分布,通过自通道特征交互融合模块捕获互补特征并与关键特征进行融合,以提升识别性能,通过增强反事实注意力机制模块定位反事实区域,将关键性区分区域和反事实区域的预测结果进行做差,将差值作为注意力的强效监督信号,提高网络学习有效注意力的能力。通过本发明专利技术方法有效提高细粒度图像识别精度。度。度。

【技术实现步骤摘要】
基于注意力交互及反事实注意力的细粒度图像识别方法


[0001]本专利技术属于图像处理
,涉及深度学习、细粒度图像识别技术,具体涉及基于注意力交互及反事实注意力的细粒度图像识别方法。

技术介绍

[0002]细粒度图像识别又被称作子类别图像识别,其与传统图像识别不同的是旨在区分同属一个类的不同子类。而不同子类之间往往过于相似,同时由于存在着姿态、光照、遮挡、背景等干扰因素,可能具有相似的外观和形状,细粒度图像间呈类间差异小、类内差异大的特点。鉴于现实中对图像识别精度的高要求,细粒度图像识别成为计算机视觉的重要研究方向。
[0003]早期的细粒度图像识别方法通过人类注释的边界框/部位注释(例如,鸟的头部、身体)进行基于部位的特征表示来解决这个问题。然而,在标记过程中需要专业的知识和大量的注释时间。因此,对于实际的细粒度图像识别任务,需要花费大量时间和资源进行注释的强监督方法并非最优。为了解决这个问题,研究重点转移到仅提供类别标签的弱监督方法,通过定位不同部位来学习区分性特征。目前,细粒度图像识别的研究方法集中在放大、裁剪局部可区分性区域。具体来说,这种方法在特征提取网络中,添加了一个注意力机制分支网络用于学习注意力权重,特征提取网络对输入图像提取特征之后,将特征图作为注意力机制分支网络的输入得到注意力特征图,注意力特征图与原始特征图进行融合增强关键特征,然后放大、裁剪关键特征,以此加强对于识别任务更有利的细粒度特征。
[0004]这种常见的利用注意力机制放大并裁剪关键区域的方法虽然取得了一些效果,但仍有几个关键问题。具体而言,现有的细粒度图像识别方法主要是通过注意力机制对不同通道的特征附以权重,强化区分性强的通道以定位关键区域,却忽略了通道之间的互补性;并且注意力机制模块只受到损失函数监督,缺乏一个强效的监督信号来指导学习过程,忽略了预测结果和注意力之间的因果关系。

技术实现思路

[0005]针对现有技术存在的不足,本专利技术提供基于注意力交互及反事实注意力的细粒度图像识别方法,通过最大化反事实注意力与事实注意力的差异对注意力机制进行优化,并有效利用鉴别特征和互补信息共同参与识别,提高识别精度。具体来说是,(1)首先针对现有方法忽略了更细微的互补信息以及如何有效地利用鉴别特征和互补信息共同参与识别的问题,提出了自通道特征交互融合模块,该模块对一张图像不同通道之间的交互进行建模,这可以为每个通道捕获通道互补特征,然后将互补特征与关键特征进行融合得到融合特征;其次通过引入排序损失函数有效地利用关键特征和融合特征共同参与识别,提高识别精度;(2)针对注意力机制缺乏一个强效的监督信号来指导学习过程,并忽略了预测结果和注意力之间的因果关系的问题,本专利技术设计了增强反事实注意力机制模块,通过比较事实(学到的注意力)和反事实(无关的注意力)对最终预测结果的影响,量化注意力的质量;
然后最大化这种差异,促使网络学习更有效的注意力,降低训练集的片面性影响,提高识别精度。
[0006]为了解决上述技术问题,本专利技术采用的技术方案是:
[0007]基于注意力交互及反事实注意力的细粒度图像识别方法,包括以下步骤:
[0008]步骤1:特征提取:将图像I输入到特征提取网络,得到特征图,其中C、H、W分别是特征图的高度、宽度和通道数。
[0009]步骤2:通过空间注意力机制学习物体各部位的空间分布:将步骤1得到的特征图F经过空间注意力机制学习物体各部位的空间分布,表示为,其中M表示注意力的个数,注意力图A可计算为:;其中表示覆盖局部区域的注意力图,表示空间注意力机制,由卷积层和ReLU激活函数组成。
[0010]步骤3:通过自通道特征交互融合模块捕获互补特征并与关键特征进行融合:将步骤2中得到的注意力图A输入到自通道特征交互融合模块,通过探索图像内的通道相关性以提取互补特征,并将互补特征与关键特征进行融合;具体方法如下:首先将注意力图A压缩成特征矩阵:;其中,。
[0011]然后将与 进行双线性插值运算得到双线性矩阵,通过在双线性矩阵前添加负号,再经过softmax函数得到权重矩阵:;其中表示的转置,表示通道i和通道j之间的空间关系。
[0012]将权重矩阵W与特征矩阵相乘得到包含互补特征的特征矩阵:。
[0013]将特征矩阵转换为包含互补特征的注意力图并与注意力图A进行融合得到:;其中表示融合注意力图,既包含了关键特征又包含了互补特征。
[0014]步骤4:根据步骤2中得到的注意力图A,构造反事实注意力图:将注意力图A中的关键区域进行遮挡,得到掩码图,在中,关键区域的位置已经被遮挡,通过来构造反事实注意力图。
[0015]步骤5:将特征图转化为特征向量:将步骤2、步骤3、步骤4得到的注意力图、融合注意力图、反事实注意力图分别转化为特征矩阵;得到对应特征矩阵后,通过全连接层将其转换为特征向量。
[0016]步骤6:计算损失:根据步骤5得到的特征向量,计算损失,对模型进行优化。
[0017]重复训练步骤2

步骤6。
[0018]进一步的,步骤2中,经过步骤1得到的特征图F输入到注意力机制模块中,得到注意力图,所述注意力机制模块包括通道注意力机制模块和空间注意力机制模块,具体步骤如下:首先将特征图F输入到通道注意力机制模块得到通道注意力图:其中表示第c 个通道的特征图,表示第c个通道的特征向量,z表示所有通道的特征向量。
[0019]将特征向量z进行加权得到权重向量s:;其中表示ReLU激活函数,、均是参数,其中、,r表示通道降维的超参数。
[0020]得到权重向量s后,将特征图F与权重向量s进行融合,得到通道注意力图:;其中表示权重向量s和特征图F进行通道级相乘,得到通道注意力图。
[0021]将通道注意力图输入到空间注意力模块,在空间维度上捕获注意力,得到注意力图A:;其中包含1
×
1卷积核、归一化层和ReLU激活函数,通过后得到既包含通道维度又包含空间维度的注意力图A。
[0022]进一步的,步骤4中,构造反事实注意力图的具体步骤如下:将注意力图A中的关键区域进行遮挡,得到掩码图:;其中表示注意力图A在空间位置索引位置对应的值,为设定的阈值,如果中的值大于阈值,就将对应位置的值乘以抑制因子进行遮挡,抑制因子是一个超参数;如果中的值小于或等于阈值,则对应位置的值不变。
[0023]通过上式,得到了掩码图,在中,关键区域的位置已经被遮挡,通过来构造反事实注意力图:;
其中random(A)表示根据注意力图A生成对应的随机特征图,random_map表示随机特征图,代表在特征图random_map中,关键区域和非关键区域是随机的。
[0024]得到随机特征图random_map后,将random_map与进行相乘得到反事实注意力图:;其中在反事实注意力图中,由于使得关键区域被遮挡,所以random_map只能作用在非关键区域,则中的关键区域即为无关区域。...

【技术保护点】

【技术特征摘要】
1.基于注意力交互及反事实注意力的细粒度图像识别方法,其特征在于,包括以下步骤:步骤1:特征提取:将图像I输入到特征提取网络,得到特征图,其中C、H、W分别是特征图的高度、宽度和通道数;步骤2:通过空间注意力机制学习物体各部位的空间分布:将步骤1得到的特征图F经过空间注意力机制学习物体各部位的空间分布,表示为,其中M表示注意力的个数,注意力图A可计算为:;其中表示覆盖局部区域的注意力图,表示空间注意力机制,由卷积层和ReLU激活函数组成;步骤3:通过自通道特征交互融合模块捕获互补特征并与关键特征进行融合:将步骤2中得到的注意力图A输入到自通道特征交互融合模块,通过探索图像内的通道相关性以提取互补特征,并将互补特征与关键特征进行融合;具体方法如下:首先将注意力图A压缩成特征矩阵:;其中,;然后将与 进行双线性插值运算得到双线性矩阵,通过在双线性矩阵前添加负号,再经过softmax函数得到权重矩阵:;其中表示的转置,表示通道i和通道j之间的空间关系;将权重矩阵W与特征矩阵相乘得到包含互补特征的特征矩阵:;将特征矩阵转换为包含互补特征的注意力图并与注意力图A进行融合得到:;其中表示融合注意力图,既包含了关键特征又包含了互补特征;步骤4:根据步骤2中得到的注意力图A,构造反事实注意力图:将注意力图A中的关键区域进行遮挡,得到掩码图,在中,关键区域的位置已经被遮挡,通过来构造反事实注意力图;步骤5:将特征图转化为特征向量:将步骤2、步骤3、步骤4得到的注意力图、融合注意力图、反事实注意力图分别转化为特征矩阵;得到对应特征矩阵后,通过全连接层将其转换为特征向量;步骤6:计算损失:
根据步骤5得到的特征向量,计算损失,对模型进行优化;重复训练步骤2

步骤6。2.根据权利要求1所述的基于注意力交互及反事实注意力的细粒度图像识别方法,其特征在于,步骤2中,经过步骤1得到的特征图F输入到注意力机制模块中,得到注意力图,所述注意力机制模块包括通道注意力机制模块和空间注意力机制模块,具体步骤如下:首先将特征图F输入到通道注意力机制模块得到通道注意力图:;;其中表示第c 个通道的特征图,表示第c个通道的特征向量,z表示所有通道的特征向量;将特征向量z进行加权得到权重向量s:;其中表示ReLU激活函数,、均是参数,其中 , ,r表示通道降维的超参数;得到权重向量s后,将特征图F与权重向量s进行融合,得到通道注意力图:;其中表示权重向量s和特征图F进行通道级相乘,得到通道注意力图;将通道注意力图输入到空间注意力模块,在空间维度上捕获注意力,得到注意力图A:;其中包含1<...

【专利技术属性】
技术研发人员:魏志强安辰黄磊
申请(专利权)人:中国海洋大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1