一种基于深层推理注意力机制的视觉问答方法技术

技术编号:33243731 阅读:30 留言:0更新日期:2022-04-27 17:50
本发明专利技术提供一种基于深层推理注意力机制的视觉问答方法,其特征是:包括以下步骤:步骤一:获取文本特征和图像特征编码向量;步骤二:将文本特征和图像特征映射到同一个空间进行交互推理学习;步骤三:答案预测。本发明专利技术的主要目的是解决如何高效的提取视觉特征和文本特征,同时对其实现更细粒度的推理。本发明专利技术引入记忆网络模型去存储关键信息,进而提升模型的推理能力。通过在基准数据集VQAv2数据集测试,该模型取得了有竞争力的结果。该模型取得了有竞争力的结果。该模型取得了有竞争力的结果。

【技术实现步骤摘要】
一种基于深层推理注意力机制的视觉问答方法


[0001]本专利技术属于自然语言和计算机视觉两种学科的交叉任务领域,具体涉及一种基于深层推理注意力机制的视觉问答方法。

技术介绍

[0002]视觉问答(Visual Question Answering,VQA)任务,就是给定一张图像以及一句以自然语言表达的任意相关问题,通过特征提取和多模态融合推理模型的训练,模型将自动推理并给出答案,该任务更接近人类的分析和认知能力,如附图1所示。随着研究的深入,视觉问答任务不仅需要考虑图像特征的提取和自然语言问题特征的提取,还要考虑如何将两种特征更细粒度地融合,提取有用的信息。其中,基于注意力机制的方法是目前的一个主流研究方法,广泛应用在视觉问答模型中。在视觉问答任务中,主要包括视觉注意力和文本注意力,但在多模态的融合中只能捕捉到表面信息,忽略了其他丰富的信息。有研究者提出协同注意力模型去提取图像和文本的高级语义信息,以便更细粒度的融合多模态信息,例如视觉关系和关系推理。然而,结合最新研究表明,这些模型对于文本和图像关键信息的提取和定位仍然存在偏差,以及对文本特征本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深层推理注意力机制的视觉问答方法,其特征是:包括以下步骤:步骤一:获取文本特征和图像特征编码向量;步骤二:将文本特征和图像特征映射到同一个空间进行交互推理学习;步骤三:答案预测。2.根据权利要求1所述的一种基于深层推理注意力机制的视觉问答方法,其特征是:所述步骤一具体为:对于文本问题特征,首先将输入问题分割为单词,每个问题规定为14个单词(不足用0补齐,超出则舍弃),其次将问题中每个单词转换为词向量,使用大规模语料库Glove进行预训练,最后使用LSTM和Transformer提取问题中关键语义信息。问题特征提取输出为特征q,输出尺寸为14
×
300的单词序列。对于图像特征,使用自上而下的注意力提取图像特征,基于目标检测模型Faster R

CNN来提取图像目标区域特征(ResNet

101为基础卷积网络),整个图像特征提取模型在Visua...

【专利技术属性】
技术研发人员:苏丽韩遥
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1