用于卷积神经网络的注意力权重模块和方法技术

技术编号:28447247 阅读:44 留言:0更新日期:2021-05-15 21:08
本申请公开了一种用于卷积神经网络的注意力权重模块和方法。该注意力权重模块包括:提取单元,被配置为从输入至卷积神经网络的特征图中提取特征向量;生成单元,被配置为将特征向量馈送至完全连接层,以生成注意力向量;权重分配单元,被配置为基于注意力向量将权重分配至特征图。本发明专利技术的注意权重块可以通过同时考虑空间注意权重和通道关系权重来提取更多语义信息,从而卷积神经网络可以具有更强大的表达能力。的表达能力。的表达能力。

【技术实现步骤摘要】
用于卷积神经网络的注意力权重模块和方法


[0001]本专利技术涉及图像处理领域。具体地,本专利技术涉及注意力权重模块和方法。

技术介绍

[0002]近年来,深度神经网络(深度学习)在模式识别领域得到了大量应用,并取得了许多突破性成果,例如,利用深度神经网络实现目标检测、人脸识别、语义分割等。这些成果的取得与深度神经网络能够学习具有强表达能力的特征(图像的表示方法)息息相关。与传统的手工提取特征的方法相比,手工方法通过引入专家知识提取图像的底层(low-level)特征,而深度神经网络依靠数据驱动,能够学习图像的层级式的特征,包含了丰富的底层(low-level),中层(mid-level),和高层(high-level)特征。这种工作方式类似于人类的视觉系统,因而,在识别效果上要优于手工方法。
[0003]人工视觉系统中,越来越多的研究关注于卷积神经网络中的注意力机制。人类注意力机制的研究表明,人类视觉系统可以快速索引图像中的重要区域,这一机制在信息处理方面显得极为重要,可以高效地应对繁杂的信息。受到这个启发,注意力机制已经嵌入到深度神经网络结构中。现阶段,已经有一些方案试图将注意力机制引入到卷积神经网络中,这些方案大致分为以下两类:
[0004]1)注意力机制应用于特征图空间维度:人类视觉会关注于图像中的重点区域,忽略图像中不重要的部分。与处理整张图像信息相比,在训练过程中精细处理图像中某一区域的图像信息,计算量及训练检测时间都会显著减少,在图像处理方面可获得特定区域的更多信息,网络模型泛化能力增强
[0005]2)注意力机制应用于特征图通道维度:卷积神经网络中最重要的部分就是卷积操作,卷积核在空间维度和通道维度提取图像特征,将注意力机制应用于通道维度以寻找通道之间的内在联系,可以显著提高卷积神经网络的特征提取性能。
[0006]例如,在将注意力机制引入到卷积神经网络中的现有技术中,提出了RAN(Residual Attention Network for Image Classification,图像分类的残留注意力网络):这种方法是通过堆叠生成注意意识特征的注意力模块来构建的。在每个注意模块内,使用自下而上、自上而下的前馈结构来展开前馈并将空间注意过程反馈到单个前馈过程中。该技术的不足之处在于:(1)RAN忽略了各个通道之间关系的重要性,并平等对待每个特征图。(2)RAN在没有其他计算机视觉任务的情况下对分类任务进行实验。
[0007]图1示出了将注意力机制引入到卷积神经网络中的一种现有技术的示例。应用注意力机制于卷积神经网络中的空间维度,可以提取感兴趣区域,获取更好的检测效果。STN(Spatial Transformer Networks)使卷积神经网络的深层结构具有空间不变性(平移不变性和旋转不变性),极大的增强了网络的泛化能力。STN引进了一种可学习的采样模块,即,空间变换器(Spatial Transformer),其在不需要引入额外的数据标签的情况下实现了在网络中对特征图进行空间变换操作。此模块可插入到现有卷积神经网络模型中,使得特征图具有空间变换能力,动态变化特征图的感受野,使得整个网络的空间不变性增强。如图1
所示,为STN中最重要的空间变换器的结构,其中θ表示一个回归自网络,T
θ
表示以参数θ为变换矩阵的某种变换。网络通过训练空间变换器参数,学习U特定区域的空间变化,然后输出V。其本质是对特征图的空间域的注意力(attention),使模型获取更好的空间不变性。
[0008]尽管STN在特征图空间域上对图像进行处理,具有对图像内容空间变化一定的鲁棒性,但是STN忽略了图像特征图通道域之间的相关关系,孤立的等同每个通道域特征图对卷积神经网络所起到的作用,失去了网络一定的泛化能力。
[0009]图2示出了将注意力机制引入到卷积神经网络中的另一种现有技术的示例。与空间注意力机制不同的是,特征注意力机制引起了更广泛的关注。SE-Net主要包含两个操作:压缩(Squeeze)和激活(Excitation)。SE-Net希望显示地建模特征通道之间的相互相关关系,采用一种“特征重标定”策略。具体来说,就是通过学习的方式来自动获取到每个特征的重要程度,然后根据这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。如图2所示,其示出了SE模块200,在SE模块200中,首先是压缩(Squeeze),在空间维度进行特征压缩,将每个二维的特征通道变成一个实数,这个实数在某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配。其次是激活(Excitation)操作,它是一个类似于循环神经网络中门的机制,通过参数来为每个特征通道生成权重,其中参数被学习用来显式地建模特征通道间地相关性。最后是权重重标定(Reweight)操作,将激活(Excitation)的输出权重当作特征选择后的每个特征通道的重要性,然后逐通道加权到先前的特征上,完成在通道维度上的原始特征重标定。
[0010]SE-Net通过搜索特征图通道之间的相关性来增强DCNN(深度卷积神经网络)的表示能力。SE-Net分配了样本特定的关注向量到特征图,可以有选择地强调信息特征,而抑制不那么有用的特征。SE-Net在ILSVRC 2017分类提交中获得了第一名,并显着降低了错误率。然而,SE-Net没有充分利用要素地图中的空间关系,而是将相同的权重分配给要素地图通道内的所有点。SE-Net虽然显式建模了特征通道之间的相互相关关系,SE-Net通过网络根据loss函数学习特征权重,使得有效的特征通道权重大,效果小的特征通道权重小,完成了对特征通道的权重重标定SE模块并不是一个完整的网络结构,而是一个子结构,它可以嵌入到其它分类或检测模型中,SE模块在提升网络检测性能的同时,不可避免地增加了一些参数和计算量。
[0011]SE-Net没有在空间维度上对特征图进行有效的处理,人类视觉研究表明,人类视觉可快速注意到关键区域,而SE-Net在空间域上未进行处理,对图像空间信息变换不具有鲁棒性。
[0012]综上,将注意力机制应用于特征图空间维度,可以使深度神经网络对图像空间信息的复杂度更具有鲁棒性,特征通道维度具有相同的权重,不利于卷积核提取网络特征。将注意力机制应用于特征图通道维度,可以使网络特征通道具有针对于当前数据特征的权重,SE-Net(Squeeze-and-Excitation Network)赋予特征图的通道维度以不同的权重,使得有效的特征图权重大,无效或效果小的特征图权重小,可达到更好的检测准确率。本专利技术即是在SE-Net的基础上,训练卷积神经网络中的卷积核,赋予卷积核空间和通道维度上以不同的权重,从而提高网络性能。

技术实现思路

[0013]本专利技术提出了一种新颖的注意力机制,用于卷积神经网络的注意力权重块(AWB,attention weight block)。
[0014]传统的CNN会平等对待每个卷积核和特征图,并且卷积核在测试阶段完全独立于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于卷积神经网络的注意力权重模块,其特征在于,所述注意力权重模块包括:提取单元,被配置为从输入至所述卷积神经网络的特征图中提取特征向量;生成单元,被配置为将所述特征向量馈送至完全连接层,以生成注意力向量;权重分配单元,被配置为基于所述注意力向量将权重分配至所述特征图。2.根据权利要求1所述的注意力权重模块,其特征在于,所述注意力权重模块还包括:分组单元,被配置为将所述注意力向量分为两个以上的注意力向量组,并且所述权重分配单元,被配置为基于所述注意力向量或基于所述注意力向量组将权重分配至所述特征图。3.根据权利要求1所述的注意力权重模块,其特征在于所述提取单元通过空间自适应池化处理从所述特征图中提取所述特征向量。4.根据权利要求3所述的注意力权重模块,其特征在于,所述空间自适应池化处理具有随机采样因子,并且所述空间自适应池化处理包括平均池化处理和最大池化处理。5.根据权利要求1所述的注意力权重模块,其特征在于在所述生成单元中,所述完全连接层包括第一完全连接层和第二完全连接层,其中,所述特征向量依次通过:所述第一完全连接层、ReLU函数、所述第二完全连接层、sigmoid函数。6.一种用于卷积神经网络的卷积层的注意力权重模块,其特征在于,所述注意力权重模块包括:提取单元,被配置为从输入至所述卷积神经网络的第一特征图中提取特征向量z,所述第一特征图的维度为H
×
W
×
C;生成单元,被配置为将所述特征向量z馈送至完全连接层,以生成注意力向量s;权重修正单元,被配置为基于所述注意力向量s修正所述卷积层的卷积核W,得到修正后的卷积核W
rec
;卷积单元,配置为将所述修正后的卷积核W
rec
与所述第一特征图进行卷积,从而得到第二特征图。7.根据权利要求6所述的注意力权重模块,其特征在于,所述注意力权重模块还包括:分组单元,被配置为将所述注意力向量s分为两个以上的注意力向量组,并且所述权重修正单元,被配置为基于所述注意力向量s或基于所述注意力向量组修正所述卷积层的卷积核W,得到修正后的卷积核W
rec
。8.根据权利要求6所述的注意力权重模块,其特征在于,所述提取单元通过空间自适应池化处理从所述特征图中提取所述特征向量。9.根据权利要求8所述的注意力权重模块,其特征在于,所述空间自适应池化处理具有随机采样因子k,所述特征向量z的维度为C
×
k
×
k,并且所述空间自适应池化处理包括平均池化处理和最大池化处理。10.根据权利要求9所述的注意力权重模块,其特征在于在所述生成单元中,所述完全连接层包括第一完全连接层和第二完全连接层,所述第一完全连接层的维度W1=λ/r
×
C
×
k
×
k,所述第二完全连接层的维度W2=λ/r
×
λ,其中,r为预设的下采样因子,λ为所述注意力向量s的长度,其中,在所述生成单元中,所述特征向量z依次通过以下各项从而生成所述注意力向量s:所述第一完全连接层、ReLU函数、所述第二
完全连接层、sigmoid函数,其中,所述注意力向量s的计算公式如下:s=σ(W2δ(W1z))。11.根据权利要求7所述的注意力权重模块,其特征在于其中,在所述权重修正单元基于所述注意力向量s修改所述卷积层的卷积核W的情况下,得到修正后的卷积核W
rec
表述如下:W
rec
=F
rec
(W,s)其中,在所述权重修正单元基于所述注意力向量组修正所述卷积层的卷积核W的情况下,所述权重修正单元基于所述注意力向量组对卷积核组进行修改正,得到用于每个卷积核组的修正后的卷积核Wrec,表述如下:W
rec,i
=W
i
·
s
i%g
,i∈[0,C
′-
1]s
j
=s[j
·
C:(j+1)
·
C],j∈[0,n-1]其中,
·
为逐通道乘法,W
rec,i
是修正之后的第i个卷积核,g是每个卷积核组中的卷积核数目,s=n*C。12.一种用于卷积神经网络的批量归一化层的注意力权重模块,其特征在于,所述注意力权重模块包括:归一化单元,被配置对输入数据X={x1,x2,...,x
m
}进行处理,以计算批处理数据均值,计算批数据方差,并对xi进行归一化;提取单元,被配置为从输入至所述卷积神经网络的第一特征图中提取特征向量z,所述特征图的维度为H
×
W
×
C;生成单元,被配置为将所述特征向量z馈送至完全连接层,以生成注意力向量s;参数修正单元,被配置为基于所述注意力向量s修正所述批量归一化层的参数β和γ,得到修正后的参数β
rec
和γ
rec
;卷积单元,配置为将所述修正后的参数β
rec
和γ
rec
与所述第一特征图进行卷积,从而得到第二特征图。13.根据权利要求12所述的注意力权重模块,其特征在于,参数修正单元,被配置为基于所述注意力向量s修正所述批量归一化层的参数β和γ,得到修正后的参数β
rec
和γ
rec
,所述修正后的参数β
rec
和γ
rec
的计算公式如下:γ
rec
=F
rec
(γ,s)=γ
·
s[0:C)β
rec
=F
rec
(β,s)=β
·
s[C:2C)其中,所述注意力向量s的长度为2*C。14.根据权利要求12所述的注意力权重模块,其特征在于,所述第二特征图为γ
rec
xi+β
rec
。15.一种用于卷积神经网络的修正线性层的注意力权重模块,其特征在于,所述注意力权重模块包括:输入单元,被配置接收输入数据X={x1,x2,...,x
m
};提取单元,被配置为从输入至所述卷积神经网络的第一特征图中提取特征向量z,所述特征图的维度为H
×...

【专利技术属性】
技术研发人员:李永吴岳辛王伟刚叶翔张高鑫李婉婷刘莹施方李珂嘉
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1