【技术实现步骤摘要】
一种基于多模态双向导向注意力的视觉问答方法
[0001]本专利技术涉及计算机视觉与自然语言处理两个领域,具体涉及利用自注意力机制和导向注意力机制得到不同模态的加权注意特征,尤其涉及以协同注意为基础,增加图像对问题的引导。
技术介绍
[0002]视觉问答任务旨在给出一幅图像及与图像相关的问题,回答出问题的正确答案。该任务涉及到视觉和文本两种模态的学习,架起了计算机视觉和自然语言处理领域间的桥梁。早期的视觉问答模型,主要通过提取图像和问题的全局特征,再经过简单的特征融合,分类后产生一个预测答案。这种方法虽简单直接,却丢失了重要的局部信息,不利于回答针对局部区域提出的问题。为获得更细节性的特征,视觉问答引入了注意力机制的使用,很大程度上提升了多模态任务的性能表现。
[0003]视觉问答任务中首先引入的是视觉注意力,从输入问题中学习图像区域的特征表示。然而除视觉特征外,提取文本中关键有效的信息也同等重要,因此,同时学习图像和文本注意的协同注意力被提出。大部分基于协同注意的深度模型与相应的浅层模型及粗糙交互的模型相比,并没有表 ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态双向导向注意力的视觉问答方法,其特征在于包括以下步骤:步骤一:特征提取,首先使用目标检测网络提取图像区域中间特征,再对问题进行单词划分,词嵌化,通过单层的LSTM网络提取出问题中间特征;步骤二:将图像和问题中间特征分别作为双向导向注意力模块的两路输入,经过层层自注意和导向注意,分别输出加权的问题特征和图像特征;步骤三:对注意力模块输出的图像和问题特征进行简化,再经过线性融合,最终得到融合后的特征;步骤四:将融合后的特征输入一个N类分类器训练,得到最终的问题答案。2.根据权利要求1所述的基于多模态双向导向注意力的视觉问答方法,其特征在于步骤一中图像特征提取采用目标检测网络Faster R-CNN,以自底向上的注意方式提取一系列图像区域特征;问题特征提取采用先将问题句子划分为单词,再通过300-D Glove词嵌将每个单词转化为词向量,最后通过单层的LSTM获得问题单词特征序列。3.根据权利要求1所述的基于多模态双向导向注意力的视觉问...
【专利技术属性】
技术研发人员:何小海,鲜荣,吴晓红,卿粼波,吴小强,滕奇志,任超,
申请(专利权)人:四川大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。