基于细粒度图像特征和外部知识相融合的视觉问答方法技术

技术编号:26762690 阅读:32 留言:0更新日期:2020-12-18 23:14
本发明专利技术公开了一种基于细粒度图像特征和外部知识相融合的视觉问答方法,该方法由四个步骤构成:细粒度图像特征提取、文本处理与特征提取、基于外部知识库的问题知识检索和多模态特征融合及答案预测。细粒度图像特征提取用于提取图像的分区域视觉特征;文本处理与特征提取对视觉问题问句进行处理并得到问句的整体特征;基于外部知识库的问题知识检索通过引入Freebase知识图谱作为模型的外部知识库为视觉问题答案的预测补充必需的常识或特定的知识;多模态特征融合及答案预测中利用基于相似度特征融合方法进行多模态特征融合,并利用融合后的视觉问题特征对问题答案进行预测。本方法具有较好的性能,对视觉问题的答案具有较高的预测准确率。

【技术实现步骤摘要】
基于细粒度图像特征和外部知识相融合的视觉问答方法
本专利技术属于智能信息处理领域,具体涉及一种视觉问答方法。
技术介绍
视觉问答(VisualQuestionAnswering,VQA)是一个结合计算机视觉和自然语言处理研究的交叉学科,其研究目标是让计算机能够对视觉问题的答案进行预测。具体过程为向计算机输入一张图像和一个与图像相关的开放式问题,视觉问答系统首先需要理解视觉问题文本的语义,然后结合与问题相关的图像视觉信息,从而进行答案预测。视觉问答任务要求计算机能够深入理解视觉问题中图像的内容、问题的语义,部分问题的解答还要求计算机掌握相关的常识或特定的知识,因此视觉问答研究中涉及到多项人工智能技术,包括细粒度识别、物体识别、行为识别和自然语言处理等,这就使得视觉问答比传统的计算机视觉研究在图像语义理解方面有着更高的要求和更大的挑战。现有技术中已经有一些关于视觉问答的研究,但其所使用的是全局图像特征,无法得到和问题文本高相关度的细粒度视觉特征,对细粒度视觉问题的适用性差;大多方法仅关注视觉问题本身的内容,其应用场景受到了很大限制;本文档来自技高网...

【技术保护点】
1.一种基于细粒度图像特征和外部知识相融合的视觉问答方法,其特征在于,包括以下步骤:/n步骤1:细粒度图像特征提取;/n步骤1-1:以原始图像作为输入,采用无监督图像分割算法对图像进行区域分割,每个分割区域采用不同的RGB颜色值进行标记;再将图像尺寸变为d

【技术特征摘要】
1.一种基于细粒度图像特征和外部知识相融合的视觉问答方法,其特征在于,包括以下步骤:
步骤1:细粒度图像特征提取;
步骤1-1:以原始图像作为输入,采用无监督图像分割算法对图像进行区域分割,每个分割区域采用不同的RGB颜色值进行标记;再将图像尺寸变为d1×d1×3;
步骤1-2:选取已预训练的VGG-16网络,将VGG-16网络的全连接层和Softmax层去除后作为图像特征提取器;把原始图像输入图像特征提取器,将图像特征提取器最后一个卷积层的输出作为原始图像的特征图,输出的特征图尺寸为d2×d2×512;
步骤1-3:采用ROI投影法将步骤1-1中原始图像的分割区域映射到特征图,按映射结果对特征图进行区域分割,并建立原始图像分割区域和特征图分割区域一一对应关系;再对特征图经过最大池化操作,得到特征图中各分割区域的图像特征向量,每个分割区域的图像特征向量为512维,每个分割区域的图像特征向量的值为该分割区域内每个维度的特征图最大值;
步骤2:文本处理与特征提取;
步骤2-1:使用NLTK工具包对视觉问题问句进行分词,分词的结果被转换为one-hot词向量;
步骤2-2:采用词嵌入技术GloVe将one-hot词向量嵌入到词向量空间;
步骤2-3:再采用LSTM网络对词向量进行编码,将最后时刻的LSTM单元的隐状态向量作为问题文本特征向量q;
步骤3:基于外部知识库的问题知识检索;
步骤3-1:使用NLTK词性标注工具对视觉问题问句进行分词和词性标注,标注视觉问题问句中的名词和动词;再对名词和动词进行词形还原,单复数名词统一为单数形式,动词的时态变式均统一为该动词的原形;
步骤3-2:将步骤3-1标注的名词和动词输入作为外部知识库的知识图谱,将名词和动词作为关键词进行搜索,为视觉问题问句匹配相应的知识三元组;
步骤3-3:采用TransE算法对知识图谱中的实体和关系进行编码,获得每个匹配的知识三元组所包含的实体和关系对应的编码向量,编码向量的维数为H1;并将每个匹配的知识三元组按照头实体向量、关...

【专利技术属性】
技术研发人员:宋凌云李建鳌尚学群俞梦真彭杨柳李伟李战怀
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1