【技术实现步骤摘要】
基于图像视觉到文本转换的视觉问答问题解决方法
本专利技术涉及一种解决视觉问答(VisualQuestionAnswering,VQA)问题的图像视觉到文本转换方法,该方法针对VQA问题中的开放性问答任务提出,是该任务的一种新颖的解决方案,属于计算机视觉和自然语言处理的交叉领域。
技术介绍
近年来,作为视觉理解的研究方向,VQA受到越来越多的关注,且备受挑战。VQA实现了视觉图像的自然语言“问答”,是一种视觉理解和语言处理的联合问题。VQA与图像标注和文本问答任务有关,但比两者都复杂。VQA模型需要基于对图像的理解以自由形式回答开放式问题。通常,VQA模型分别提取视觉图像和文本问题的特征,然后将它们组合起来进行多模态融合,最后学习分类器输出答案。目前,往往通过卷积神经网络(ConvolutionalNeuralNetworks,CNN)和递归神经网络(RecurrentNeuralNetworks,RNN)的组合来实现图像和问题的特征提取。多模态融合方法包括元素乘积法,多模紧致双线性法,多模态分解双线性池化方法,注意力 ...
【技术保护点】
1.一种基于图像视觉到文本转换的视觉问答问题解决方法,其特征在于,包括:/n步骤1)获取一副图像,提取CNN特征。/n步骤2)构建和学习图像密集字幕深度网络;/n步骤3)构建属性网络;/n步骤4)执行深度游走,对每一个获取的图像标题提取知识库增强特征;/n步骤5)对所有的知识库增强特征执行平均池化,获取单幅图像的知识库增强特征;/n步骤6)执行问题为导向的Doc2Vec特征提取;/n步骤7)融合知识库增强特征、Doc2Vec特征和视觉特征后分类,并最终获取给定问题的答案。/n
【技术特征摘要】
1.一种基于图像视觉到文本转换的视觉问答问题解决方法,其特征在于,包括:
步骤1)获取一副图像,提取CNN特征。
步骤2)构建和学习图像密集字幕深度网络;
步骤3)构建属性网络;
步骤4)执行深度游走,对每一个获取的图像标题提取知识库增强特征;
步骤5)对所有的知识库增强特征执行平均池化,获取单幅图像的知识库增强特征;
步骤6)执行问题为导向的Doc2Vec特征提取;
步骤7)融合知识库增强特征、Doc2Vec特征和视觉特征后分类,并最终获取给定问题的答案。
2.如权利要求1所述的基于图像视觉到文本转换的视觉问答问题解决方法,其特征在于,所述步骤2)中的图像密集字幕深度网络构建和学习方法具体包括:
步骤21)提取图像的CNN特征;
步骤22)上述特征输入到局部化层,获取区域特征;
步骤23)区域特征输入到全链接识别网络,输出区域编码特征;
步骤24)区域编码特征输入到长短时记忆网络(Long-Short-Term-Memory,LSTM),输出密集图像描述。
3.如权利要求2所述的基于图像视觉到文本转换的视觉问答问题解决方法,其特征在于,所述局部化层提出感兴趣区域并返回有关区域的重要信息,包括区域坐标、区域分数和区域特征。
4.如权利要求1所述的基于图像视觉到文本转换的视觉问答问题解决方法,其特征在于,所述步骤3)中的属性网络构建方法具体包括:
步骤31)给定训练集,对每一副图像应用密集字幕深度网络提取图...
【专利技术属性】
技术研发人员:李群,李华康,孔令军,张坤,胡伏原,
申请(专利权)人:苏州派维斯信息科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。