基于复合注意力的原始特征注入网络的视觉问答方法技术

技术编号：28742728 阅读：23 留言：0更新日期：2021-06-06 16:39

本发明专利技术公开了基于复合注意力的原始特征注入网络的视觉问答方法。以往的方法主要采用注意机制和密集的迭代操作进行细粒度匹配。然而，这些方法使得图像区域的自相关信息被忽略，这将导致整体语义理解上的偏差。此外，我们注意到在多次双边共同注意力操作之后，图像的一些有价值但不被关注的边缘信息常常被完全忽视。本发明专利技术首次提出了基于复合注意力的原始特征注入网络来研究图像和问题之间的对应关系。设计一个具有复合注意的区域强化网络，通过考虑区域间的关系，利用双边信息和自相关性，挖掘更完整的视觉语义并避免理解偏差。并提出原始特征注入模块，恢复图像有价值但不被关注的边缘信息。本发明专利技术在VQA2.0上进行大量实验证明了提出模型的有效性。验证明了提出模型的有效性。

全部详细技术资料下载

【技术实现步骤摘要】
基于复合注意力的原始特征注入网络的视觉问答方法

[0001]本专利技术属于视觉问答的方法，涉及计算机视觉和自然语言处理的

技术介绍

[0002]视觉问答在大多数研究中被表述为一个分类问题，图像和问题作为输入，答案作为输出类别(由于可能答案的数量有限)。由于视觉问答任务是在深度学习方法得到广泛普及后提出的，目前几乎所有视觉问答解决方案都是使用CNN对图像输入进行建模，而使用RNN对问题进行建模。注意机制在视觉问答中得到了广泛的研究。这包括视觉注意力，它专注于处理在哪里看的问题，以及问题注意力，它专注于解决在哪里阅读的问题。由于图像和问题是两种不同的模态，因此将两种模态联合嵌入到一起以统一描述图像/问题对是很简单的。
[0003]现有模型的常见做法是分别提取视觉和语言特征，然后将它们合并到一个公共空间中。然后根据这些融合的双峰特征预测输入问题的答案。在早期研究中，研究人员采用了一些相对简单的融合方法，例如特征向量的特征连接，相乘和点积。Fukui等人证明了更复杂的融合方法确实可以提高预测精度，因此他们引入了双线性(合并)方法。在他们的工作中，将视觉和语言特征两个向量的外积用于融合。由于外部输出具有很高的尺寸特征，因此他们采用了Gao等人的概念。Gao等人压缩了融合的特征，并将其命名为MCB合并方法。但是，为了确保性能稳定，MCB的压缩特征仍然倾向于是高维的，Kim等人使用了两个特征向量的Hadamard乘积来提出低秩双线性池，称为多峰低秩双线性池(MLB)。Yu等人提出了一种多峰分解双线性池(MFB)，...

【技术保护点】

【技术特征摘要】
1.基于复合注意力的原始特征注入网络的视觉问答方法，其特征在于，所述方法包括以下步骤：S1.构建视觉特征增强模块，根据输入图像区域之间的相关性来挖掘更完整的视觉特征。S2.结合S1中的强化特征，在整体的深层框架中利用图像和问题双边信息生成特征。S3.构建原始信息注入模块，恢复图像有价值但不被关注的边缘信息。S4.结合S2中的网络和S3中的网络构建基于复合注意力的原始特征注入网络架构。S5.基于复合注意力的原始特征注入网络的训练和视觉问答。2.根据权利要求1所述的基于复合注意力的原始特征注入网络的视觉问答方法，其特征在于，所述S1的具体过程为：本发明的视觉特征增强模块根据输入图像区域之间的相关性来挖掘更完整的视觉特征。通过考虑图像中区域与区域之间的关联度，从而降低整体语义理解上的偏差。我们在下面描述详细的操作：给定一个特征F∈R
d
×
K
，分别通过3个1*1的卷积核生成F
q
，F
k
，F
v
。F
q
＝W
q
F，F
k
＝W
k
F，F
v
＝W
v
F
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中是1*1卷积核的权重矩阵，H＝2048。由F
q
，F
k
计算出F的注意力F
A
。F
A
＝softmax(F
qT
F
k
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中F
qT
表示矩阵的转置，softmax()指的是softmax函数。再令F
v
与F
A
相乘后经过平均池化层得到F
A
′
。F
A
′
＝mp(F
v
F
AT
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中mp()指的是meanpoling函数。最后，通过F
A
′
和F相加得到视觉特征增强模块的输出。F
s
＝W
s
F
A
′
+F
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中W
s
是权重矩阵，其维数是2048*2048。该方法可以将图像区域根据它们的语义相关性设置为不同的优先级。可以根据需要将区域增强模块重复用于不同级别的表示增强。3.根据权利要求1所述的基于复合注意力的原始特征注入网络的视觉问答方法，其特征在于，所述S2的具体过程为：本发明的复合注意机制，在一个整体的深层框架中更好地利用图像和问题的双边信息和自相关性。它实现了视觉特征增强模块和协同注意力结构的结合。问题文本的特征T
l
和图像的特征I
l
被输入到复合注意力处理模块中。同时，I
l
也被发送到视觉特征增强模块以计算图像区域的相关性，对应的输出表示为I
ls
，由下式给出：I
ls
＝S
I
(I
l
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中S
I
()表示视觉特征增强模块函数。再将生成的I
ls
和文本特征T
l
作为协同注意力的输入，生成考虑到双边信息的数据，T
lsc
和I
lsc
：[T
lsc
，I
lsc
]＝CoA([T
l<...

【专利技术属性】
技术研发人员：吴春雷，路静，王雷全，吴杰，段海龙，
申请(专利权)人：中国石油大学华东，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人