基于图像视觉到文本转换的视觉问答问题解决方法技术

技术编号:23161709 阅读:22 留言:0更新日期:2020-01-21 21:59
本发明专利技术公开了一种基于图像视觉到文本转换的视觉问答问题解决方法。本发明专利技术一种基于图像视觉到文本转换的视觉问答问题解决方法,包括:步骤1)获取一副图像,提取CNN特征;步骤2)构建和学习图像密集字幕深度网络;步骤3)构建属性网络;步骤4)执行深度游走,对每一个获取的图像标题提取知识库增强特征;步骤5)对所有的知识库增强特征执行平均池化,获取单幅图像的知识库增强特征;步骤6)执行问题为导向的Doc2Vec特征提取;步骤7)融合知识库增强特征、Doc2Vec特征和视觉特征送入Softmax层实现分类,并最终获取给定问题的答案。本发明专利技术的有益效果:基于密集字幕方法,本发明专利技术将VQA问题转化为文本问答问题。

Visual Question Answering Based on image vision to text conversion

【技术实现步骤摘要】
基于图像视觉到文本转换的视觉问答问题解决方法
本专利技术涉及一种解决视觉问答(VisualQuestionAnswering,VQA)问题的图像视觉到文本转换方法,该方法针对VQA问题中的开放性问答任务提出,是该任务的一种新颖的解决方案,属于计算机视觉和自然语言处理的交叉领域。
技术介绍
近年来,作为视觉理解的研究方向,VQA受到越来越多的关注,且备受挑战。VQA实现了视觉图像的自然语言“问答”,是一种视觉理解和语言处理的联合问题。VQA与图像标注和文本问答任务有关,但比两者都复杂。VQA模型需要基于对图像的理解以自由形式回答开放式问题。通常,VQA模型分别提取视觉图像和文本问题的特征,然后将它们组合起来进行多模态融合,最后学习分类器输出答案。目前,往往通过卷积神经网络(ConvolutionalNeuralNetworks,CNN)和递归神经网络(RecurrentNeuralNetworks,RNN)的组合来实现图像和问题的特征提取。多模态融合方法包括元素乘积法,多模紧致双线性法,多模态分解双线性池化方法,注意力机制法,基于知识库增强方法等。传统技术存在以下技术问题:与图像标注类似,某些算法依赖于将CNN特征传递给RNN语言模型。但是,VQA问题比图像标注更具挑战性,因为要回答一个文本问题,往往需要图像中并不存在的信息,例如常识性知识。因此,VQA问题严格来讲已经超过了人工智能的范畴,它需要超出单个子域的多模态知识。
技术实现思路
本专利技术要解决的技术问题是提供一种基于图像视觉到文本转换的视觉问答问题解决方法,通过图像视觉特征到文本的转换,跨越视觉图像与文本问题之间的“语义鸿沟”,以此解决VQA问题中的技术难题。为实现上述目的,本专利技术采用的技术方案为:一种基于图像视觉到文本转换的视觉问答问题解决方法,该方法包括视觉特征提取、知识库增强特征提取、问题为导向的矢量特征提取、特征融合和分类。除了使用一个用于图像表示的密集字幕网络,该方法将知识库增强方案和问题导向的doc2vec方法联合起来以回答给出的文本问题。图像密集字幕网络为每个视觉图像生成具有自然语言的密集描述,而新颖的问题导向的doc2vec方法旨在将自然语言文本转换为矢量特征。特别地,一种基于属性网络的知识库增强方案,用于提供外部知识。获取矢量特征后,融合图像视觉特征学习分类器以给出答案。具体包括以下步骤:步骤1)获取一副图像,提取CNN特征;步骤2)构建和学习图像密集字幕深度网络;步骤3)构建属性网络;步骤4)执行深度游走,对每一个获取的图像标题提取知识库增强特征;步骤5)对所有的知识库增强特征执行平均池化,获取单幅图像的知识库增强特征;步骤6)执行问题为导向的Doc2Vec特征提取;步骤7)融合知识库增强特征、Doc2Vec特征和视觉特征送入Softmax层实现分类,并最终获取给定问题的答案。在另外的一个实施例中,所述步骤2)中的图像密集字幕深度网络构建和学习方法具体包括:步骤21)提取图像的CNN特征;步骤22)上述特征输入到局部化层,获取区域特征;步骤23)区域特征输入到全链接识别网络,输出区域编码特征;步骤24)区域编码特征输入到长短时记忆网络(Long-Short-Term-Memory,LSTM),输出密集图像描述。在另外的一个实施例中所述局部化层提出感兴趣区域并返回有关区域的重要信息,包括区域坐标、区域分数和区域特征。在另外的一个实施例中,所述步骤3)中的属性网络构建方法具体包括:步骤31)给定训练集,对每一副图像应用密集字幕深度网络提取图像描述;步骤32)集合相同图像类别内的所有图像标注为一个文本;步骤33)重复步骤32),遍历训练集中包含的所有图像子类;步骤34)对同一文本中的成对属性词,计算词激活力和亲和力;步骤35)以属性词为网络节点,以亲和力为边缘权重构建属性网络。在另外的一个实施例中,所述步骤6)中的问题为导向的Doc2Vec方法具体包括:步骤61)添加图像标注获取的每一个图像描述句子为段矢量表示中段矩阵的一列;步骤62)添加图像描述中每一个属性词,作为词矩阵中的一列;步骤63)添加文本问题中的每一个词,作为词矩阵中的一列;步骤64)学习段向量(paragraphvector)表示模型。在另外的一个实施例中,融合知识库增强特征、Doc2Vec特征和视觉特征后送入Softmax层实现分类。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。本专利技术的有益效果:1、基于密集字幕方法,本专利技术将VQA问题转化为文本问答问题。我们的Img2Doc方案成功地将VQA问题从“图像vs文本”级别转化为“文本vs文本”级别,即所有文本问答算法都可以用于VQA,有效地减少了视觉图像与自然语言之间的语义鸿沟。2、本专利技术采用基于属性网络的知识库增强方案。作为以前研究的重要发现,属性和外部知识可以有效地提高图像字幕和VQA的性能。因此,受到我们之前对语义概念网络构建的研究的启发,本文提出了一种基于属性网络的知识库增强方案,可以成功地提高VQA算法性能。3、本专利技术提出了问题导向的doc2vec方法,将自然语言文本转换为矢量特征。在获得视觉图像的自然语言描述之后,我们需要将文本描述转换为矢量特征。本专利技术提出了一种新的问题导向的doc2vec方法用于VQA问题,与以前的某些方法不同,它是针对VQA任务特定的,适用于可变长度的文本。附图说明图1是本专利技术基于图像视觉到文本转换的视觉问答问题解决方法中的VQA模型框架图。图2是本专利技术基于图像视觉到文本转换的视觉问答问题解决方法中的语义概念网络构建流程图。图3是本专利技术基于图像视觉到文本转换的视觉问答问题解决方法中的语义概念网络构建流程图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好地理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。一种基于图像视觉到文本转换的视觉问答问题解决方法,如图1所示,整个模型包括视觉特征提取、密集字幕深度网络、属性网络、问题为导向的Doc2Vec、图像和文本特征融合及分类器。视觉特征提取旨在提取图像的深度视觉特征,密集字幕深度网络实现图像密集字幕的生成,属性网络挖掘属性词的共现模式以增强语义表达,问题为导向的Doc2Vec获取低维矢量特征,最后融合图像视觉特征、属性特征和低维矢量特征,将融合特征输入分类器以解决视觉问答问题。基于上述VQA模型,本本文档来自技高网...

【技术保护点】
1.一种基于图像视觉到文本转换的视觉问答问题解决方法,其特征在于,包括:/n步骤1)获取一副图像,提取CNN特征。/n步骤2)构建和学习图像密集字幕深度网络;/n步骤3)构建属性网络;/n步骤4)执行深度游走,对每一个获取的图像标题提取知识库增强特征;/n步骤5)对所有的知识库增强特征执行平均池化,获取单幅图像的知识库增强特征;/n步骤6)执行问题为导向的Doc2Vec特征提取;/n步骤7)融合知识库增强特征、Doc2Vec特征和视觉特征后分类,并最终获取给定问题的答案。/n

【技术特征摘要】
1.一种基于图像视觉到文本转换的视觉问答问题解决方法,其特征在于,包括:
步骤1)获取一副图像,提取CNN特征。
步骤2)构建和学习图像密集字幕深度网络;
步骤3)构建属性网络;
步骤4)执行深度游走,对每一个获取的图像标题提取知识库增强特征;
步骤5)对所有的知识库增强特征执行平均池化,获取单幅图像的知识库增强特征;
步骤6)执行问题为导向的Doc2Vec特征提取;
步骤7)融合知识库增强特征、Doc2Vec特征和视觉特征后分类,并最终获取给定问题的答案。


2.如权利要求1所述的基于图像视觉到文本转换的视觉问答问题解决方法,其特征在于,所述步骤2)中的图像密集字幕深度网络构建和学习方法具体包括:
步骤21)提取图像的CNN特征;
步骤22)上述特征输入到局部化层,获取区域特征;
步骤23)区域特征输入到全链接识别网络,输出区域编码特征;
步骤24)区域编码特征输入到长短时记忆网络(Long-Short-Term-Memory,LSTM),输出密集图像描述。


3.如权利要求2所述的基于图像视觉到文本转换的视觉问答问题解决方法,其特征在于,所述局部化层提出感兴趣区域并返回有关区域的重要信息,包括区域坐标、区域分数和区域特征。


4.如权利要求1所述的基于图像视觉到文本转换的视觉问答问题解决方法,其特征在于,所述步骤3)中的属性网络构建方法具体包括:
步骤31)给定训练集,对每一副图像应用密集字幕深度网络提取图...

【专利技术属性】
技术研发人员:李群李华康孔令军张坤胡伏原
申请(专利权)人:苏州派维斯信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1