基于复合注意力的原始特征注入网络的视觉问答方法技术

技术编号:28742728 阅读:23 留言:0更新日期:2021-06-06 16:39
本发明专利技术公开了基于复合注意力的原始特征注入网络的视觉问答方法。以往的方法主要采用注意机制和密集的迭代操作进行细粒度匹配。然而,这些方法使得图像区域的自相关信息被忽略,这将导致整体语义理解上的偏差。此外,我们注意到在多次双边共同注意力操作之后,图像的一些有价值但不被关注的边缘信息常常被完全忽视。本发明专利技术首次提出了基于复合注意力的原始特征注入网络来研究图像和问题之间的对应关系。设计一个具有复合注意的区域强化网络,通过考虑区域间的关系,利用双边信息和自相关性,挖掘更完整的视觉语义并避免理解偏差。并提出原始特征注入模块,恢复图像有价值但不被关注的边缘信息。本发明专利技术在VQA2.0上进行大量实验证明了提出模型的有效性。验证明了提出模型的有效性。

【技术实现步骤摘要】
基于复合注意力的原始特征注入网络的视觉问答方法


[0001]本专利技术属于视觉问答的方法,涉及计算机视觉和自然语言处理的


技术介绍

[0002]视觉问答在大多数研究中被表述为一个分类问题,图像和问题作为输入,答案作为输出类别(由于可能答案的数量有限)。由于视觉问答任务是在深度学习方法得到广泛普及后提出的,目前几乎所有视觉问答解决方案都是使用CNN对图像输入进行建模,而使用RNN对问题进行建模。注意机制在视觉问答中得到了广泛的研究。这包括视觉注意力,它专注于处理在哪里看的问题,以及问题注意力,它专注于解决在哪里阅读的问题。由于图像和问题是两种不同的模态,因此将两种模态联合嵌入到一起以统一描述图像/问题对是很简单的。
[0003]现有模型的常见做法是分别提取视觉和语言特征,然后将它们合并到一个公共空间中。然后根据这些融合的双峰特征预测输入问题的答案。在早期研究中,研究人员采用了一些相对简单的融合方法,例如特征向量的特征连接,相乘和点积。Fukui等人证明了更复杂的融合方法确实可以提高预测精度,因此他们引入了双线性(合并)方法。在他们的工作中,将视觉和语言特征两个向量的外积用于融合。由于外部输出具有很高的尺寸特征,因此他们采用了Gao等人的概念。Gao等人压缩了融合的特征,并将其命名为MCB合并方法。但是,为了确保性能稳定,MCB的压缩特征仍然倾向于是高维的,Kim等人使用了两个特征向量的Hadamard乘积来提出低秩双线性池,称为多峰低秩双线性池(MLB)。Yu等人提出了一种多峰分解双线性池(MFB),它使用矩阵分解技术来计算融合特征,从而减少了参数数量并提高了收敛速度。
[0004]注意力机制在许多视觉和语言处理任务中都是有效的,例如字幕生成,动作识别,自然语言处理等等。无一例外地将其引入视觉问答,并被证明对回答预测很有帮助。到目前为止,已经开发了许多方法,其中常用的是在图像区域中引导注意力。根据图像特征的类型,方法分为两类。一方面,区域提案的视觉特征用于关注对象,这些注意力对象由边框或区域提案网络生成。从卷积特征中提取另一种视觉特征。
[0005]有几种创建和使用注意力图的方法。Yang等人开发了一个叠加式注意力网络,该网络以顺序的方式在图像上生成多个注意力图,旨在执行多个推理步骤。Kim等人通过将其合并到剩余的体系结构中以产生更好的关注信息来扩展了此想法。Chen等人提出了一种结构化的注意力模型,该模型可以对跨区域的关系进行编码,旨在正确回答涉及复杂区域之间的关系的问题。Duy

Kien Nguyen等人提出了著名的协同注意机制,以更好地融合图像和疑问词的表示形式。然而,现有的注意力模型主要考虑图像区域和疑问词之间的可能相互作用,而忽略了图像区域本身的自相关信息。另外,一些网络结构是多层迭代的,通常使得经过多次双边共同关注操作后,一些有价值但无人看管的原始图像边缘信息被完全遗忘了。

技术实现思路

[0006]本专利技术的目的是为了解决在基于堆叠注意力机制的视觉问答方法中,很少考虑图像中不同区域的关系,对所有区域一视同仁。并且,过于关注问题词与图像区域的匹配,忽视了图像有价值但不被关注的边缘信息。
[0007]本专利技术为解决上述技术问题采取的技术方案是:
[0008]S1.构建视觉特征增强模块,根据输入图像区域之间的相关性来挖掘更完整的视觉特征。
[0009]S2.结合S1中的强化特征,在整体的深层框架中利用图像和问题双边信息生成特征。
[0010]S3.构建原始信息注入模块,恢复图像有价值但不被关注的边缘信息。
[0011]S4.结合S2中的网络和S3中的网络构建基于复合注意力的原始特征注入网络架构。
[0012]S5.基于复合注意力的原始特征注入网络的训练和视觉问答。
[0013]本专利技术的视觉特征增强模块根据输入图像区域之间的相关性来挖掘更完整的视觉特征。通过考虑图像中区域与区域之间的关联度,从而降低整体语义理解上的偏差。我们在下面描述详细的操作:
[0014]给定一个特征F∈R
d
×
K
,分别通过3个1*1的卷积核生成F
q
,F
k
,F
v

[0015]F
q
=W
q
F,F
k
=W
k
F,F
v
=W
v
F
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0016]其中是1*1卷积核的权重矩阵,H=2048。
[0017]由F
q
,F
k
计算出F的注意力F
A

[0018]F
A
=softmax(F
qT
F
k
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0019]其中F
qT
表示矩阵的转置,softmax()指的是softmax函数。
[0020]再令F
v
与F
A
相乘后经过平均池化层得到F
A


[0021]F
A

=mp(F
v
F
AT
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0022]其中mp()指的是meanpoling函数。
[0023]最后,通过F
A

和F相加得到视觉特征增强模块的输出。
[0024]F
s
=W
s
F
A

+F
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0025]其中W
s
是权重矩阵,其维数是2048*2048。该方法可以将图像区域根据它们的语义相关性设置为不同的优先级。可以根据需要将区域增强模块重复用于不同级别的表示增强。
[0026]本专利技术的复合注意机制,在一个整体的深层框架中更好地利用图像和问题的双边信息和自相关性。它实现了视觉特征增强模块和协同注意力结构的结合。
[0027]问题文本的特征T
l
和图像的特征I
l
被输入到复合注意力处理模块中。同时,I
l
也被发送到视觉特征增强模块以计算图像区域的相关性,对应的输出表示为I
ls
,由下式给出:
[0028]I
ls
=S
I
(I
l
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0029]其中S
I
(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于复合注意力的原始特征注入网络的视觉问答方法,其特征在于,所述方法包括以下步骤:S1.构建视觉特征增强模块,根据输入图像区域之间的相关性来挖掘更完整的视觉特征。S2.结合S1中的强化特征,在整体的深层框架中利用图像和问题双边信息生成特征。S3.构建原始信息注入模块,恢复图像有价值但不被关注的边缘信息。S4.结合S2中的网络和S3中的网络构建基于复合注意力的原始特征注入网络架构。S5.基于复合注意力的原始特征注入网络的训练和视觉问答。2.根据权利要求1所述的基于复合注意力的原始特征注入网络的视觉问答方法,其特征在于,所述S1的具体过程为:本发明的视觉特征增强模块根据输入图像区域之间的相关性来挖掘更完整的视觉特征。通过考虑图像中区域与区域之间的关联度,从而降低整体语义理解上的偏差。我们在下面描述详细的操作:给定一个特征F∈R
d
×
K
,分别通过3个1*1的卷积核生成F
q
,F
k
,F
v
。F
q
=W
q
F,F
k
=W
k
F,F
v
=W
v
F
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中是1*1卷积核的权重矩阵,H=2048。由F
q
,F
k
计算出F的注意力F
A
。F
A
=softmax(F
qT
F
k
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中F
qT
表示矩阵的转置,softmax()指的是softmax函数。再令F
v
与F
A
相乘后经过平均池化层得到F
A

。F
A

=mp(F
v
F
AT
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中mp()指的是meanpoling函数。最后,通过F
A

和F相加得到视觉特征增强模块的输出。F
s
=W
s
F
A

+F
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中W
s
是权重矩阵,其维数是2048*2048。该方法可以将图像区域根据它们的语义相关性设置为不同的优先级。可以根据需要将区域增强模块重复用于不同级别的表示增强。3.根据权利要求1所述的基于复合注意力的原始特征注入网络的视觉问答方法,其特征在于,所述S2的具体过程为:本发明的复合注意机制,在一个整体的深层框架中更好地利用图像和问题的双边信息和自相关性。它实现了视觉特征增强模块和协同注意力结构的结合。问题文本的特征T
l
和图像的特征I
l
被输入到复合注意力处理模块中。同时,I
l
也被发送到视觉特征增强模块以计算图像区域的相关性,对应的输出表示为I
ls
,由下式给出:I
ls
=S
I
(I
l
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中S
I
()表示视觉特征增强模块函数。再将生成的I
ls
和文本特征T
l
作为协同注意力的输入,生成考虑到双边信息的数据,T
lsc
和I
lsc
:[T
lsc
,I
lsc
]=CoA([T
l<...

【专利技术属性】
技术研发人员:吴春雷路静王雷全吴杰段海龙
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1