用于卷积神经网络的注意力权重模块和方法技术

技术编号：28447247 阅读：44 留言：0更新日期：2021-05-15 21:08

本申请公开了一种用于卷积神经网络的注意力权重模块和方法。该注意力权重模块包括：提取单元，被配置为从输入至卷积神经网络的特征图中提取特征向量；生成单元，被配置为将特征向量馈送至完全连接层，以生成注意力向量；权重分配单元，被配置为基于注意力向量将权重分配至特征图。本发明专利技术的注意权重块可以通过同时考虑空间注意权重和通道关系权重来提取更多语义信息，从而卷积神经网络可以具有更强大的表达能力。的表达能力。的表达能力。

全部详细技术资料下载

【技术实现步骤摘要】
用于卷积神经网络的注意力权重模块和方法

[0001]本专利技术涉及图像处理领域。具体地，本专利技术涉及注意力权重模块和方法。

技术介绍

[0002]近年来，深度神经网络(深度学习)在模式识别领域得到了大量应用，并取得了许多突破性成果，例如，利用深度神经网络实现目标检测、人脸识别、语义分割等。这些成果的取得与深度神经网络能够学习具有强表达能力的特征(图像的表示方法)息息相关。与传统的手工提取特征的方法相比，手工方法通过引入专家知识提取图像的底层(low-level)特征，而深度神经网络依靠数据驱动，能够学习图像的层级式的特征，包含了丰富的底层(low-level)，中层(mid-level)，和高层(high-level)特征。这种工作方式类似于人类的视觉系统，因而，在识别效果上要优于手工方法。
[0003]人工视觉系统中，越来越多的研究关注于卷积神经网络中的注意力机制。人类注意力机制的研究表明，人类视觉系统可以快速索引图像中的重要区域，这一机制在信息处理方面显得极为重要，可以高效地应对繁杂的信息。受到这个启发，注意力机制已经嵌入到深度神经网络结构中。现阶段，已经有一些方案试图将注意力机制引入到卷积神经网络中，这些方案大致分为以下两类：
[0004]1)注意力机制应用于特征图空间维度：人类视觉会关注于图像中的重点区域，忽略图像中不重要的部分。与处理整张图像信息相比，在训练过程中精细处理图像中某一区域的图像信息，计算量及训练检测时间都会显著减少，在图像处理方面可获得特定区域的更多信息，网络模型泛化能力增强...

【技术保护点】

【技术特征摘要】
1.一种用于卷积神经网络的注意力权重模块，其特征在于，所述注意力权重模块包括：提取单元，被配置为从输入至所述卷积神经网络的特征图中提取特征向量；生成单元，被配置为将所述特征向量馈送至完全连接层，以生成注意力向量；权重分配单元，被配置为基于所述注意力向量将权重分配至所述特征图。2.根据权利要求1所述的注意力权重模块，其特征在于，所述注意力权重模块还包括：分组单元，被配置为将所述注意力向量分为两个以上的注意力向量组，并且所述权重分配单元，被配置为基于所述注意力向量或基于所述注意力向量组将权重分配至所述特征图。3.根据权利要求1所述的注意力权重模块，其特征在于所述提取单元通过空间自适应池化处理从所述特征图中提取所述特征向量。4.根据权利要求3所述的注意力权重模块，其特征在于，所述空间自适应池化处理具有随机采样因子，并且所述空间自适应池化处理包括平均池化处理和最大池化处理。5.根据权利要求1所述的注意力权重模块，其特征在于在所述生成单元中，所述完全连接层包括第一完全连接层和第二完全连接层，其中，所述特征向量依次通过：所述第一完全连接层、ReLU函数、所述第二完全连接层、sigmoid函数。6.一种用于卷积神经网络的卷积层的注意力权重模块，其特征在于，所述注意力权重模块包括：提取单元，被配置为从输入至所述卷积神经网络的第一特征图中提取特征向量z，所述第一特征图的维度为H
×
W
×
C；生成单元，被配置为将所述特征向量z馈送至完全连接层，以生成注意力向量s；权重修正单元，被配置为基于所述注意力向量s修正所述卷积层的卷积核W，得到修正后的卷积核W
rec
；卷积单元，配置为将所述修正后的卷积核W
rec
与所述第一特征图进行卷积，从而得到第二特征图。7.根据权利要求6所述的注意力权重模块，其特征在于，所述注意力权重模块还包括：分组单元，被配置为将所述注意力向量s分为两个以上的注意力向量组，并且所述权重修正单元，被配置为基于所述注意力向量s或基于所述注意力向量组修正所述卷积层的卷积核W，得到修正后的卷积核W
rec
。8.根据权利要求6所述的注意力权重模块，其特征在于，所述提取单元通过空间自适应池化处理从所述特征图中提取所述特征向量。9.根据权利要求8所述的注意力权重模块，其特征在于，所述空间自适应池化处理具有随机采样因子k，所述特征向量z的维度为C
×
k
×
k，并且所述空间自适应池化处理包括平均池化处理和最大池化处理。10.根据权利要求9所述的注意力权重模块，其特征在于在所述生成单元中，所述完全连接层包括第一完全连接层和第二完全连接层，所述第一完全连接层的维度W1＝λ/r
×
C
×
k
×
k，所述第二完全连接层的维度W2＝λ/r
×
λ，其中，r为预设的下采样因子，λ为所述注意力向量s的长度，其中，在所述生成单元中，所述特征向量z依次通过以下各项从而生成所述注意力向量s：所述第一完全连接层、ReLU函数、所述第二
完全连接层、sigmoid函数，其中，所述注意力向量s的计算公式如下：s＝σ(W2δ(W1z))。11.根据权利要求7所述的注意力权重模块，其特征在于其中，在所述权重修正单元基于所述注意力向量s修改所述卷积层的卷积核W的情况下，得到修正后的卷积核W
rec
表述如下：W
rec
＝F
rec
(W，s)其中，在所述权重修正单元基于所述注意力向量组修正所述卷积层的卷积核W的情况下，所述权重修正单元基于所述注意力向量组对卷积核组进行修改正，得到用于每个卷积核组的修正后的卷积核Wrec，表述如下：W
rec,i
＝W
i
·
s
i％g
,i∈[0,C
′-
1]s
j
＝s[j
·
C:(j+1)
·
C],j∈[0,n-1]其中，
·
为逐通道乘法，W
rec，i
是修正之后的第i个卷积核，g是每个卷积核组中的卷积核数目，s＝n*C。12.一种用于卷积神经网络的批量归一化层的注意力权重模块，其特征在于，所述注意力权重模块包括：归一化单元，被配置对输入数据X＝{x1,x2,...,x
m
}进行处理，以计算批处理数据均值，计算批数据方差，并对xi进行归一化；提取单元，被配置为从输入至所述卷积神经网络的第一特征图中提取特征向量z，所述特征图的维度为H
×
W
×
C；生成单元，被配置为将所述特征向量z馈送至完全连接层，以生成注意力向量s；参数修正单元，被配置为基于所述注意力向量s修正所述批量归一化层的参数β和γ，得到修正后的参数β
rec
和γ
rec
；卷积单元，配置为将所述修正后的参数β
rec
和γ
rec
与所述第一特征图进行卷积，从而得到第二特征图。13.根据权利要求12所述的注意力权重模块，其特征在于，参数修正单元，被配置为基于所述注意力向量s修正所述批量归一化层的参数β和γ，得到修正后的参数β
rec
和γ
rec
，所述修正后的参数β
rec
和γ
rec
的计算公式如下：γ
rec
＝F
rec
(γ,s)＝γ
·
s[0:C)β
rec
＝F
rec
(β,s)＝β
·
s[C:2C)其中，所述注意力向量s的长度为2*C。14.根据权利要求12所述的注意力权重模块，其特征在于，所述第二特征图为γ
rec
xi+β
rec
。15.一种用于卷积神经网络的修正线性层的注意力权重模块，其特征在于，所述注意力权重模块包括：输入单元，被配置接收输入数据X＝{x1,x2,...,x
m
}；提取单元，被配置为从输入至所述卷积神经网络的第一特征图中提取特征向量z，所述特征图的维度为H
×...

【专利技术属性】
技术研发人员：李永，吴岳辛，王伟刚，叶翔，张高鑫，李婉婷，刘莹，施方，李珂嘉，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人