当前位置: 首页 > 专利查询>东北大学专利>正文

一种多阶图像特征与问题交互的图像问答方法技术

技术编号:32492316 阅读:16 留言:0更新日期:2022-03-02 09:59
本发明专利技术设计一种多阶图像特征与问题交互的图像问答方法,涉及计算机视觉和自然语言处理领域。首先计算问题和图像的交叉注意力,本质是计算问题在图像中相关的区域,降低图像的噪声,进一步提取图像的一阶、二阶和高阶特征,从而,让图像特征中选出跟问题最相关的那部分特征,最后将融合后的特征送到分类器中,预测正确的答案,使模型预测答案的准确率有显著提高。高。

【技术实现步骤摘要】
一种多阶图像特征与问题交互的图像问答方法


[0001]本专利技术涉及计算机视觉和自然语言处理领域,尤其涉及一种多阶图像特征与问题交互的图像问答方法。

技术介绍

[0002]图像问答是将图像和自然语言问题作为输入,并生成自然语言答案作为输出,可以把它看做成多模态学习任务,这使它受到了计算机视觉和自然语言处理(NLP)领域的广泛关注。在过去几年中,图像

文本匹配、图像字幕和图像问答等许多视觉语言任务都取得了显著进展。与其他多模态学习任务相比,图像问答是一项更具挑战性的任务,它可以表示为一个多分类问题,根据一幅图像来预测给定问题的正确答案。除了回答给定的问题,图像问答在教育和盲人援助等实际生活中也有各种应用。
[0003]图像问答现有最直接的解决方法是联合嵌入方法,联合嵌入方法(joint embedding)的动机是深度神经网络在计算机视觉和NLP中的进步,使用卷积和递归神经网络(CNN和RNN)来学习共同特征空间嵌入的图像和句子,这允许将它们一起送到预测答案的分类器。
[0004]除联合嵌入方法外,还有引入了自下而上和自上而下的注意力机制的方式来学习图像每个对象的注意,而不是对空间网格的注意,该方法也是率先将图像自注意力引入图像问答任务中的。也有提出了一种问题引导的注意方法,将问题映射到视觉空间,并制定了一个可设置的卷积核来搜索图像注意区域。基于堆叠注意力网络的图像问答方法则提出了一种堆叠注意网络来迭代学习注意。最后,还有使用多模态双线性池化方法,将来自图像空间网格的视觉特征与来自问题的文本特征相结合。
[0005]数据集使用的是图像问答系列数据集(当前有两个版本,分别是VQAv1和VQAv2),由于VQAv1中存在语言偏见,其中问题与特定的答案高度相关,而在VQAv2通过收集每个问题产生不同答案的互补图像来缓解这种语言偏见。所以,对于图像问答这个任务,现有方法均是在图像问答2.0自然图像数据集上进行实验。
[0006]联合嵌入方法的一个局限性是,当正确答案在图像局部区域时,图像的全局特征可能会丢失关键的信息(例如,“桌子上有什么物体?”)。现有的模型都是采用各种注意力机制来融合图像和文本特征,这些注意力机制只考虑了问题在图像中关键的区域,没有考虑问题自身所产生的作用,即问题中哪些单词对表示这个句子的句意更有作用。除此之外,更重要的一点是现有方法均忽略了图像特征中底层和高层特征所代表的不同信息,而这一点对模型能否正确预测答案也起到了很大的作用。

技术实现思路

[0007]针对现有技术的不足,本专利技术提出一种多阶图像特征与问题交互的图像问答方法。一种多阶图像特征与问题交互的图像问答方法,具体步骤为:
[0008]步骤1:获取图像问答系列VQAv2数据集并对其进行预处理;
[0009]利用包含自下而上注意力的Faster

Rcnn模型提取VQAv2数据集中图像的特征X∈R
m
×
dx
,提取到图像中的前m个对象,每个对象通过图像id和每个对象的特征两个属性来表示,其中,每个对象特征用一个d
x
维度的向量来表示;
[0010]步骤2:计算图像对应问题的自注意力T=[t1;...;t
n
]∈R
n
×
dy
以及利用门循环单元网络GRU提取问题特征;
[0011]首先要通过正则的方式对问题进行预处理,将问题中的特殊符号去掉以及将大写转换成小写;然后使用glove语料库,找到问题中相应单词的特征,将每个单词转换成一个300维的向量;最后对问题做自注意力计算,使问题中的每个单词具有一个权重:T=[t1;...;t
n
]∈R
n
×
dy
,把它送到门循环网络GRU中,输出一个维度是1024的向量Y表示整个问题的特征;
[0012]其中,R表示实数,t
n
表示问题中每个单词的特征,n表示单词个数,d
y
表示每个单词特征向量的维度;
[0013]步骤3:建立Guided

Attention Deep FM模块,即GADF模块,将GADF模块分成引导注意力Guided

Attention和DEEP FM两部分,利用GADF模块对上述步骤1和步骤2得到的图像特征和问题特征进行交叉注意力计算;并提取降噪后图像的一阶、二阶和高阶特征;
[0014]步骤3.1:通过引导注意力Guided

Attention对图像特征进行降噪处理,计算问题特征和图像特征的交叉注意力,选出图像中和问题相关度高的区域,得到图像中问题关注的对象,具体为:
[0015]首先,用由维度是d
key
的查询向量querys,以及维度是d
value
的值向量values组成的放缩点积scaled dot

product注意力,将d
key
和d
value
的维度统一成d;通过计算querys和所有keys的点积,每个点积除以并用softmax函数获得querys上的注意权值:
[0016][0017]attention_output=Attention(Q,K,V)
[0018]其中,Q、K、V分别表示querys、keys、values;表示k维度的向量,K
T
表示querys向量的转置;
[0019]进一步提高图像中问题关注的特征的表示能力,引入由h个并联的“头”组成的多头注意,每个头部对应一个独立的点积注意力函数:
[0020][0021]MultiHead(Q,K,V)=Concat(head1,...,head
h
)W
O
[0022]其中,W
iQ
,W
iK
,W
iV
∈R
d
×
dh
,i表示头的个数,W
o
∈R
h
×
db
×
d
,R是实数,h表示头的个数,a
h
表示隐藏层的维度,d表示最后输出的维度,head
h
表示每个头输出特征;
[0023]使用引导注意力Guided

Attention计算交叉注意力时,将预处理的图像特征X∈R
m
×
dx
作为引导注意力Guided

Attention中的X输入,也是上述公式中的Q,问题特征Y作为引导注意力Guided

Attention中的Y输入,问题特征Y来引导图像特征X的注意力学习;最后,经过计算得到图像中问题所关注的对象特征Z∈R
m
×
dx

[0024本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多阶图像特征与问题交互的图像问答方法,其特征在于,包括以下步骤:步骤1:获取图像问答系列VQAv2数据集并对其进行预处理,得到图像特征;步骤2:计算图像对应问题的自注意力以及利用门循环单元GRU提取问题特征;步骤3:建立Guided

Attention Deep FM模块,即GADF模块,将GADF模块分成引导注意力Guided

Attention和DEEP FM两部分,通过引导注意力Guided

Attention对图像特征进行降噪处理,计算问题特征和图像特征的交叉注意力,选出图像中和问题相关度高的区域,得到图像中问题关注的对象;DEEP FM提取降噪后图像的一阶、二阶和高阶特征;步骤4:将提取的一阶、二阶和高阶特征与问题特征进行融合,将融合后的特征送到分类器中,预测图像中问题关注的答案。2.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法,其特征在于,步骤1中所述的获取图像问答系列VQAv2数据集并对其进行预处理,得到图像特征具体为:利用包含自下而上注意力的Faster

Rcnn模型提取VQAv2数据集中图像的特征X∈R
m
×
dx
,提取到图像中的前m个对象,每个对象通过图像id和每个对象的特征两个属性来表示,其中,每个对象特征用一个d
x
维度的向量来表示。3.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法,其特征在于,步骤2中所述的计算图像对应问题的自注意力以及利用门循环单元GRU提取问题特征具体为:首先要通过正则的方式对问题进行预处理,将问题中的特殊符号去掉以及将大写转换成小写;然后使用glove语料库,找到问题中相应单词的特征,将每个单词转换成一个300维的向量;最后对问题做自注意力计算,使问题中的每个单词具有一个权重:T=[t1;...;t
n
]∈R
n
×
dy
,把它送到门循环网络GRU中,输出一个维度是1024的向量Y表示整个问题的特征;其中,R表示实数,t
n
表示问题中每个单词的特征,n表示单词个数,d
y
表示每个单词特征向量的维度。4.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法,其特征在于,步骤3中所述的引导注意力Guided

Attention具体为:首先,用由维度是d
key
的查询向量querys,以及维度是d
value
的值向量values组成的放缩点积scaled dot

product注意力,将d
key
和d
value
的维度统一成d;通过计算querys和所有keys的点积,每个点积除以并用softmax函数获得querys上的注意权值:attention_output=Attention(Q,K,V)其中,Q、K、V分别表示querys、keys、values;表示k维度的向量,K
T
表示querys向量的转置;进一步提高图像中问题关注的特征的表示能力,引入由h个并联的“头”组成的多头注意,每个头部对应一个...

【专利技术属性】
技术研发人员:田晓琛郭贵冰
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1