基于图像视觉到文本转换的视觉问答问题解决方法技术

技术编号：23161709 阅读：38 留言：0更新日期：2020-01-21 21:59

本发明专利技术公开了一种基于图像视觉到文本转换的视觉问答问题解决方法。本发明专利技术一种基于图像视觉到文本转换的视觉问答问题解决方法，包括：步骤1)获取一副图像，提取CNN特征；步骤2)构建和学习图像密集字幕深度网络；步骤3)构建属性网络；步骤4)执行深度游走，对每一个获取的图像标题提取知识库增强特征；步骤5)对所有的知识库增强特征执行平均池化，获取单幅图像的知识库增强特征；步骤6)执行问题为导向的Doc2Vec特征提取；步骤7)融合知识库增强特征、Doc2Vec特征和视觉特征送入Softmax层实现分类，并最终获取给定问题的答案。本发明专利技术的有益效果：基于密集字幕方法，本发明专利技术将VQA问题转化为文本问答问题。

Visual Question Answering Based on image vision to text conversion

全部详细技术资料下载

【技术实现步骤摘要】
基于图像视觉到文本转换的视觉问答问题解决方法
本专利技术涉及一种解决视觉问答(VisualQuestionAnswering，VQA)问题的图像视觉到文本转换方法，该方法针对VQA问题中的开放性问答任务提出，是该任务的一种新颖的解决方案，属于计算机视觉和自然语言处理的交叉领域。
技术介绍
近年来，作为视觉理解的研究方向，VQA受到越来越多的关注，且备受挑战。VQA实现了视觉图像的自然语言“问答”，是一种视觉理解和语言处理的联合问题。VQA与图像标注和文本问答任务有关，但比两者都复杂。VQA模型需要基于对图像的理解以自由形式回答开放式问题。通常，VQA模型分别提取视觉图像和文本问题的特征，然后将它们组合起来进行多模态融合，最后学习分类器输出答案。目前，往往通过卷积神经网络(ConvolutionalNeuralNetworks，CNN)和递归神经网络(RecurrentNeuralNetworks，RNN)的组合来实现图像和问题的特征提取。多模态融合方法包括元素乘积法，多模紧致双线性法，多模态分解双线性池化方法，注意力...

【技术保护点】
1.一种基于图像视觉到文本转换的视觉问答问题解决方法，其特征在于，包括：/n步骤1)获取一副图像，提取CNN特征。/n步骤2)构建和学习图像密集字幕深度网络；/n步骤3)构建属性网络；/n步骤4)执行深度游走，对每一个获取的图像标题提取知识库增强特征；/n步骤5)对所有的知识库增强特征执行平均池化，获取单幅图像的知识库增强特征；/n步骤6)执行问题为导向的Doc2Vec特征提取；/n步骤7)融合知识库增强特征、Doc2Vec特征和视觉特征后分类，并最终获取给定问题的答案。/n

【技术特征摘要】
1.一种基于图像视觉到文本转换的视觉问答问题解决方法，其特征在于，包括：
步骤1)获取一副图像，提取CNN特征。
步骤2)构建和学习图像密集字幕深度网络；
步骤3)构建属性网络；
步骤4)执行深度游走，对每一个获取的图像标题提取知识库增强特征；
步骤5)对所有的知识库增强特征执行平均池化，获取单幅图像的知识库增强特征；
步骤6)执行问题为导向的Doc2Vec特征提取；
步骤7)融合知识库增强特征、Doc2Vec特征和视觉特征后分类，并最终获取给定问题的答案。

2.如权利要求1所述的基于图像视觉到文本转换的视觉问答问题解决方法，其特征在于，所述步骤2)中的图像密集字幕深度网络构建和学习方法具体包括：
步骤21)提取图像的CNN特征；
步骤22)上述特征输入到局部化层，获取区域特征；
步骤23)区域特征输入到全链接识别网络，输出区域编码特征；
步骤24)区域编码特征输入到长短时记忆网络(Long-Short-Term-Memory，LSTM)，输出密集图像描述。

3.如权利要求2所述的基于图像视觉到文本转换的视觉问答问题解决方法，其特征在于，所述局部化层提出感兴趣区域并返回有关区域的重要信息，包括区域坐标、区域分数和区域特征。

4.如权利要求1所述的基于图像视觉到文本转换的视觉问答问题解决方法，其特征在于，所述步骤3)中的属性网络构建方法具体包括：
步骤31)给定训练集，对每一副图像应用密集字幕深度网络提取图...

【专利技术属性】
技术研发人员：李群，李华康，孔令军，张坤，胡伏原，
申请(专利权)人：苏州派维斯信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人