一种多阶图像特征与问题交互的图像问答方法技术

技术编号：32492316 阅读：16 留言：0更新日期：2022-03-02 09:59

本发明专利技术设计一种多阶图像特征与问题交互的图像问答方法，涉及计算机视觉和自然语言处理领域。首先计算问题和图像的交叉注意力，本质是计算问题在图像中相关的区域，降低图像的噪声，进一步提取图像的一阶、二阶和高阶特征，从而，让图像特征中选出跟问题最相关的那部分特征，最后将融合后的特征送到分类器中，预测正确的答案，使模型预测答案的准确率有显著提高。高。

全部详细技术资料下载

【技术实现步骤摘要】
一种多阶图像特征与问题交互的图像问答方法

[0001]本专利技术涉及计算机视觉和自然语言处理领域，尤其涉及一种多阶图像特征与问题交互的图像问答方法。

技术介绍

[0002]图像问答是将图像和自然语言问题作为输入，并生成自然语言答案作为输出，可以把它看做成多模态学习任务，这使它受到了计算机视觉和自然语言处理(NLP)领域的广泛关注。在过去几年中，图像
‑
文本匹配、图像字幕和图像问答等许多视觉语言任务都取得了显著进展。与其他多模态学习任务相比，图像问答是一项更具挑战性的任务，它可以表示为一个多分类问题，根据一幅图像来预测给定问题的正确答案。除了回答给定的问题，图像问答在教育和盲人援助等实际生活中也有各种应用。
[0003]图像问答现有最直接的解决方法是联合嵌入方法，联合嵌入方法(joint embedding)的动机是深度神经网络在计算机视觉和NLP中的进步，使用卷积和递归神经网络(CNN和RNN)来学习共同特征空间嵌入的图像和句子，这允许将它们一起送到预测答案的分类器。
[0004]除联合嵌入方法外，还有引入了自下而上和自上而下的注意力机制的方式来学习图像每个对象的注意，而不是对空间网格的注意，该方法也是率先将图像自注意力引入图像问答任务中的。也有提出了一种问题引导的注意方法，将问题映射到视觉空间，并制定了一个可设置的卷积核来搜索图像注意区域。基于堆叠注意力网络的图像问答方法则提出了一种堆叠注意网络来迭代学习注意。最后，还有使用多模态双线性池化方法，将来自图像空间网格的视觉特征与来自问...

【技术保护点】

【技术特征摘要】
1.一种多阶图像特征与问题交互的图像问答方法，其特征在于，包括以下步骤：步骤1：获取图像问答系列VQAv2数据集并对其进行预处理，得到图像特征；步骤2：计算图像对应问题的自注意力以及利用门循环单元GRU提取问题特征；步骤3：建立Guided
‑
Attention Deep FM模块，即GADF模块，将GADF模块分成引导注意力Guided
‑
Attention和DEEP FM两部分，通过引导注意力Guided
‑
Attention对图像特征进行降噪处理，计算问题特征和图像特征的交叉注意力，选出图像中和问题相关度高的区域，得到图像中问题关注的对象；DEEP FM提取降噪后图像的一阶、二阶和高阶特征；步骤4：将提取的一阶、二阶和高阶特征与问题特征进行融合，将融合后的特征送到分类器中，预测图像中问题关注的答案。2.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法，其特征在于，步骤1中所述的获取图像问答系列VQAv2数据集并对其进行预处理，得到图像特征具体为：利用包含自下而上注意力的Faster
‑
Rcnn模型提取VQAv2数据集中图像的特征X∈R
m
×
dx
，提取到图像中的前m个对象，每个对象通过图像id和每个对象的特征两个属性来表示，其中，每个对象特征用一个d
x
维度的向量来表示。3.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法，其特征在于，步骤2中所述的计算图像对应问题的自注意力以及利用门循环单元GRU提取问题特征具体为：首先要通过正则的方式对问题进行预处理，将问题中的特殊符号去掉以及将大写转换成小写；然后使用glove语料库，找到问题中相应单词的特征，将每个单词转换成一个300维的向量；最后对问题做自注意力计算，使问题中的每个单词具有一个权重：T＝[t1；...；t
n
]∈R
n
×
dy
，把它送到门循环网络GRU中，输出一个维度是1024的向量Y表示整个问题的特征；其中，R表示实数，t
n
表示问题中每个单词的特征，n表示单词个数，d
y
表示每个单词特征向量的维度。4.根据权利要求1所述的一种多阶图像特征与问题交互的图像问答方法，其特征在于，步骤3中所述的引导注意力Guided
‑
Attention具体为：首先，用由维度是d
key
的查询向量querys，以及维度是d
value
的值向量values组成的放缩点积scaled dot
‑
product注意力，将d
key
和d
value
的维度统一成d；通过计算querys和所有keys的点积，每个点积除以并用softmax函数获得querys上的注意权值：attention_output＝Attention(Q，K，V)其中，Q、K、V分别表示querys、keys、values；表示k维度的向量，K
T
表示querys向量的转置；进一步提高图像中问题关注的特征的表示能力，引入由h个并联的“头”组成的多头注意，每个头部对应一个...

【专利技术属性】
技术研发人员：田晓琛，郭贵冰，
申请(专利权)人：东北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人