一种图像内容理解与视觉问答VQA方法、存储介质和终端技术

技术编号:28785336 阅读:12 留言:0更新日期:2021-06-09 11:20
本发明专利技术公开了一种图像内容理解与视觉问答VQA方法、存储介质和终端,方法包括以下步骤:将图像和待回答问题输入至训练好的预测模块进行回答;所述预测模块包括顺次连接的融合注意力模块、双线性模型和分类器,所述分类器输出回答。本发明专利技术按照“对图像和问题进行特征表示、对图像和陈述性语句进行特征表示、融合特征矩阵、根据问题特征学习图像特征、根据正确陈述性语句学习图像特征、使用正确陈述性语句正确引导模型、得出结果”的思路,完成图像内容的题解与视觉问答(VQA)任务;因此提供了一种图像和问题关键词之间的密集交互的融合注意力方法,能够学习图像和文本的密集交互,从而进行图像和问题关键词之间的关系推断。而进行图像和问题关键词之间的关系推断。而进行图像和问题关键词之间的关系推断。

【技术实现步骤摘要】
一种图像内容理解与视觉问答VQA方法、存储介质和终端


[0001]本专利技术涉及计算机
,一种图像内容理解与视觉问答VQA方法、存储介质和终端。

技术介绍

[0002]最近几年,图像内容理解与视觉问答(VQA)引起了越来越多的兴趣。全局特征的多模态融合是最直接的VQA解决方案。一般处理思路就是将图像和问题先表示为全局特征,然后再用多模态融合模型进行答案的概率预测。
[0003]除了理解图像的视觉内容,VQA还需要完全理解自然语言问题的语义。因此,有必要同时学习文本对问题的注意和图像的视觉注意。目前问题的表示主要用LSTM,多模态融合主要用残差网络。目前融合造成的问题在于,对一张图进行全局特征表示也许会损失一些关键信息,而这些信息可能涉及到问题中的图像局部区域,解决办法大多还是用的注意力机制。目前所采用的协同注意力网络是在每个模态中分别学习其注意力分布,然后进行融合。
[0004]由于目前解决VQA问题的网络结构是在每个模态中分别学习其注意力分布,然后再进行融合,因此有几个缺陷:(1)网络只能够学习到多模态之间粗糙的交互,而忽视了图像和文本的密集交互,目前的协同注意力也不够进行图像和问题关键词之间的关系推断;(2)图像问答(VQA)这项任务的准确率不高。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提供一种图像内容理解与视觉问答VQA方法、存储介质和终端。
[0006]本专利技术的目的是通过以下技术方案来实现的:
[0007]本专利技术的第一方面,提供一种图像内容理解与视觉问答VQA方法,包括以下步骤:
[0008]将图像和待回答问题输入至训练好的预测模块进行回答;所述预测模块包括顺次连接的融合注意力模块、双线性模型和分类器,所述分类器输出回答;所述预测模块的训练包括以下子步骤:
[0009]将图像和问题分别提取特征后进行输入融合注意力模块,将得到的图像融合特征I(f)和问题融合特征Q(f)进行拼接得到第一拼接结果;
[0010]将图像和所述问题的正确性陈述分别提取特征后输入融合注意力模块,将得到的图像融合特征I(t)和陈述融合特征S(t)进行拼接得到第二拼接结果;
[0011]将第一拼接结果和第二拼接结果进行loss计算得到结果Loss(f);
[0012]将图像融合特征I(f)和问题融合特征Q(f)输入双线性模型中编码得到融合后的特征Z,并通过分类器得到分类结果;
[0013]将所述问题的正确答案和所述分类结果分别转换为第一向量A(t)和第二向量A(f);
[0014]将第一向量A(t)和第二向量A(f)进行loss计算得到结果Loss(c);
[0015]将结果Loss(f)和结果Loss(c)进行数学运算得到最终结果Loss;
[0016]利用所述最终结果Loss对融合注意力模块、双线性模型和分类器进行优化;利用Loss(f)对融合注意力模块进行优化。
[0017]进一步地,将图像提取特征,具体包括:
[0018]对输入的图像采用自下而上的方式,使用在Visual Genome数据上训练好的Faster R

CNN进行特征表示;对于每一个目标,使用卷积层进行平均池化得到特征,记为Xi;最终将图像中的特征表示为一个图像特征矩阵X。
[0019]进一步地,将问题提取特征,具体包括:
[0020]对输入的问题进行划分得到单词,之后再用词嵌入方法将每一个单词转化为一个向量,然后再输入一个单层的循环神经网络,最终输出一个问题特征矩阵Y(f);
[0021]将问题的正确性陈述提取特征,具体包括:
[0022]对输入的陈述句子进行划分得到单词,之后再用词嵌入方法将每一个单词转化为一个向量,然后再输入一个单层的循环神经网络,最终输出一个陈述特征矩阵Y(t)。
[0023]进一步地,所述融合注意力模块包括第一自注意力模块、第二自注意力模块和评分注意力模块;
[0024]第一自注意力模块接收图像特征,第二自注意力模块接收问题特征或陈述特征,第一自注意力模块的结果和第二自注意力模块的结果均输出至评分注意力模块,输出图像融合特征I(f)和问题融合特征Q(f)、或者输出图像融合特征I(t)和陈述融合特征S(t)。
[0025]进一步地,所述第一自注意力模块和第二自注意力模块均包括:
[0026]对图像特征、问题特征或陈述特征的输入,通过嵌入变换变为矩阵,分别与三个矩阵Wq、Wk、Wv做点乘,得到三个权重矩阵Qi、Ki、Vi;其中Wq、Wk、Wv为使用均匀分布的三个可训练的权重矩阵;
[0027]将矩阵Qi和矩阵Ki做点乘得到得分Score(i),将矩阵Qi分别和矩阵K(i+1)、K(i+2)、

、K(i+n)做点乘,得到得分Score(i+1)、Score(i+2)、

、Score(i+n);
[0028]对[Score(i),Score(i+1),

,Score(i+n)]做SoftMax得到比例[Ratio(i),Ratio(i+1),

,Ratio(i+n)];
[0029]用得分比例[Ratio(i),Ratio(i+1),

,Ratio(i+n)]与[Vi,V(i+1),

,V(i+n)]相乘,得到加权后的值,将这些值加起来得到Ti,即为一张n*n的注意力机制的图,每一个单词就对应一个权重E(i,j),这个带权重的图就是第一自注意力模块和第二自注意力模块的输出。
[0030]进一步地,所述评分注意力模块包括:
[0031]图像特征经过第一自注意力模块输出的特征为ISM,问题特征或陈述特征经过第二自注意力模块输出的特征为QM,ISM和QM均为n*n的矩阵,每一个位置都存放着相对某行、某列的比值;
[0032]对ISM和QM的i行j列进行点乘,得到矩阵V:
[0033]V
(ISM,QM)
=(ISM
(i,j)
*QM
(i,j)
)(i≤n,j≤n)
[0034]对矩阵V进行归一化得到V
(i,j)


[0035][0036]使V
(i,j)

与ISM相乘,最后得出的矩阵与权重a相乘得到最终的矩阵S,并将S进行归一化得到权重矩阵M:
[0037]M
i
=softmax(a*V
(i,j)

*ISM
(i,j)
)(i≤n,j≤n)
[0038]最终获得的图像特征IM为:
[0039][0040]式中,表示得到的图像特征,m表示具体训练时网络循环的次数。
[0041]进一步地,所述将第一拼接结果和第二拼接结果进行loss计算得到结果Loss(f),本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像内容理解与视觉问答VQA方法,其特征在于:包括以下步骤:将图像和待回答问题输入至训练好的预测模块进行回答;所述预测模块包括顺次连接的融合注意力模块、双线性模型和分类器,所述分类器输出回答;所述预测模块的训练包括以下子步骤:将图像和问题分别提取特征后进行输入融合注意力模块,将得到的图像融合特征I(f)和问题融合特征Q(f)进行拼接得到第一拼接结果;将图像和所述问题的正确性陈述分别提取特征后输入融合注意力模块,将得到的图像融合特征I(t)和陈述融合特征S(t)进行拼接得到第二拼接结果;将第一拼接结果和第二拼接结果进行loss计算得到结果Loss(f);将图像融合特征I(f)和问题融合特征Q(f)输入双线性模型中编码得到融合后的特征Z,并通过分类器得到分类结果;将所述问题的正确答案和所述分类结果分别转换为第一向量A(t)和第二向量A(f);将第一向量A(t)和第二向量A(f)进行loss计算得到结果Loss(c);将结果Loss(f)和结果Loss(c)进行数学运算得到最终结果Loss;利用所述最终结果Loss对融合注意力模块、双线性模型和分类器进行优化;利用Loss(f)对融合注意力模块进行优化。2.根据权利要求1所述的一种图像内容理解与视觉问答VQA方法,其特征在于:将图像提取特征,具体包括:对输入的图像采用自下而上的方式,使用在Visual Genome数据上训练好的Faster R

CNN进行特征表示;对于每一个目标,使用卷积层进行平均池化得到特征,记为Xi;最终将图像中的特征表示为一个图像特征矩阵X。3.根据权利要求1所述的一种图像内容理解与视觉问答VQA方法,其特征在于:将问题提取特征,具体包括:对输入的问题进行划分得到单词,之后再用词嵌入方法将每一个单词转化为一个向量,然后再输入一个单层的循环神经网络,最终输出一个问题特征矩阵Y(f);将问题的正确性陈述提取特征,具体包括:对输入的陈述句子进行划分得到单词,之后再用词嵌入方法将每一个单词转化为一个向量,然后再输入一个单层的循环神经网络,最终输出一个陈述特征矩阵Y(t)。4.根据权利要求1所述的一种图像内容理解与视觉问答VQA方法,其特征在于:所述融合注意力模块包括第一自注意力模块、第二自注意力模块和评分注意力模块;第一自注意力模块接收图像特征,第二自注意力模块接收问题特征或陈述特征,第一自注意力模块的结果和第二自注意力模块的结果均输出至评分注意力模块,输出图像融合特征I(f)和问题融合特征Q(f)、或者输出图像融合特征I(t)和陈述融合特征S(t)。5.根据权利要求4所述的一种图像内容理解与视觉问答VQA方法,其特征在于:所述第一自注意力模块和第二自注意力模块均包括:对图像特征、问题特征或陈述特征的输入,通过嵌入变换变为矩阵,分别与三个矩阵Wq、Wk、Wv做点乘,得到三个权重矩阵Qi、Ki、Vi;其中Wq、Wk、Wv为使用均匀分布的三个可训练的权重矩阵;将矩阵Qi和矩阵Ki做点乘得到得分Score(i),将矩阵Qi分别和矩阵K(i)、K(i+1)、K(i+
2)、

、K(i+n)做点乘,得到得分Score(i+1)、Score(i+2)、

、Score(i+n);对[Score(i),Score(i+1),

,Score(i+n)]做SoftMax得到比例[Ratio(i),Ratio(i+1),

,Ratio(...

【专利技术属性】
技术研发人员:匡平张婷
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1