一种基于复杂网络分析方法的视觉问答问题解决方法技术

技术编号:20177708 阅读:29 留言:0更新日期:2019-01-23 00:39
本发明专利技术公开了一种基于复杂网络分析方法的视觉问答问题解决方法,包括语义概念网络构建、非随机深度游走、图像和文本特征融合及分类器,语义概念网络构建旨在挖掘概念的共现模式以增强语义表达,非随机深度游走实现复杂网络关系到低维特征的映射,在构建图像语义概念网络的基础上,应用深度游走算法学习语义概念网络中节点的潜在关系,并将复杂网络中的节点映射成一个低维特征向量,多项式逻辑回归融合图像和文本特征以解决视觉问答问题。本发明专利技术深入挖掘了概念共生模式和集群概念的层次结构,有效地集成了图像的视觉和语义特征,以及自然语言特征,为解决视觉问答问题提供了一种可行途径。

A Visual Question Answering Method Based on Complex Network Analysis

The invention discloses a visual question answering solution based on complex network analysis method, including semantic concept network construction, non-random depth walk, image and text feature fusion and classifier. Semantic concept network construction aims at mining concept co-occurrence patterns to enhance semantic expression, and non-random depth walk realizes mapping of complex network related to low-dimensional features. Based on the construction of image semantic conceptual network, depth walk algorithm is applied to learn the potential relationship of nodes in semantic conceptual network, and the nodes in complex network are mapped to a low-dimensional feature vector. Polynomial logistic regression is used to fuse image and text features to solve the visual question-and-answer problem. The invention deeply excavates the conceptual symbiosis pattern and the hierarchical structure of cluster concept, effectively integrates the visual and semantic features of images, as well as the natural language features, and provides a feasible way to solve the visual question answering problem.

【技术实现步骤摘要】
一种基于复杂网络分析方法的视觉问答问题解决方法
本专利技术涉及一种解决视觉问答(VisualQuestionAnswering,VQA)问题的复杂网络分析方法,该方法对VQA中的开放性问答任务是一种新颖的解决方案,同时保证视觉问答的准确性需求,属于计算机视觉和自然语言处理领域。
技术介绍
近年来,随着人工智能的高速发展,人们对智能的需求越来越多样化,其中视觉问答模型作为计算机视觉与自然语言处理的交叉领域,也备受关注,但其准确率还远远未达到用户满意的业务体验。开发能够回答关于视觉图像的任意自然语言问题的计算机视觉程序仍然被认为是一项雄心勃勃且必要的工作。该工作结合了计算机视觉中的各种子任务,如目标检测和识别,场景和属性分类,计数和自然语言处理,甚至知识和常识推理。在VQA中,计算机从足够的数据或大数据中学习视觉和语义特征,以回答关于人类所提出的图像的任意问题。虽然,研究人员已提出众多方法,VQA一直是一个开放的问题,所提出的模型的准确性和鲁棒性都需要进一步地改进。VQA算法可分为以下几种:1)基准模型;2)基于贝叶斯的模型;3)双线性池化方法;4)注意力模型;5)基于图像语义概念的模型等。目前,注意力模型是研究热点。然而,大量研究表明仅仅关注注意力模型似乎不够。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种基于复杂网络分析方法的视觉问答问题解决方法,本专利技术基于VQA的基准模型,通过语义概念网络构建和深度游走深度学习图像和文本语义,解决视觉问答中的技术难题。VQA需要在问题和图像之间绘制推论和建模关系,一旦问题和图像被特征化,它们之间的共现统计建模可以帮助得出关于正确答案的推论。语义概念的提取和分析对于视觉图像的语义表示至关重要,更重要的是,语义相关优于视觉相关可以有效地减少“语义鸿沟”。对于视觉属性非常相似的场景,视觉检测器很容易混淆。添加上下文信息可以有效减少甚至完全消除测试结果的不确定性。技术方案:为实现上述目的,本专利技术采用的技术方案为:一种基于复杂网络分析方法的视觉问答问题解决方法,包括语义概念网络构建、非随机深度游走、图像和文本特征融合及分类器,语义概念网络构建旨在挖掘概念的共现模式以增强语义表达,非随机深度游走实现复杂网络关系到低维特征的映射,在构建图像语义概念网络的基础上,应用深度游走算法学习语义概念网络中节点的潜在关系,并将复杂网络中的节点映射成一个低维特征向量,从而挖掘高维数据中的低维结构,提取到的特征向量既包含节点即语义概念本身的属性,也包含节点即语义概念之间的关系属性,多项式逻辑回归融合图像和文本特征,将融合后图像和文本特征输入分类器以解决视觉问答问题。具体包括以下步骤:步骤1)给定一幅图像提取它的卷积神经网络特征;步骤2)给定图像对应的一个文本问题提取它的词袋特征;步骤3)给定训练集,对训练集中每幅图像进行目标检测,提取检测目标对应的语义概念,集合训练集中的所有问答对提取的语义概念组建语义概念词汇表;步骤4)应用语义概念词汇表,基于词激活力构建语义概念网络;步骤5)提取给定图像的语义概念,并根据其在图像中的位置信息组成语义概念序列;步骤6)把获取的语义概念序列输入到之前构建好的语义概念网络中,执行非随机深度游走,由此获取深度游走特征矢量;步骤7)融合深度游走特征矢量、步骤1)提取的卷积神经网络特征以及步骤2)提取的词袋特征得到融合特征;步骤8)将融合特征应用分类器给出问题答案。优选的:所述步骤4中的基于词激活力构建语义概念网络的方法:步骤41)计算概念词汇表中两两成对概念的词激活力和亲和力,词激活力的定义如下式所示,在一个语料库中,假设给定一对词,记为词一i和词二j的词频一fi和词频二fj,以及他们的共生频率fij,那么词激活力wafij预测了词一i和词二j表现出的激活力强度,其中dij是词一i和词二j共生频率中词一i和词二j前向距离的平均值,对成对词汇词一i和词二j,他们之间的亲和力计算公式为:Kij={k|wafki>0orwafkj>0},Lij={l|wafil>0orwafjl>0},OR(x,y)=min(x,y)/max(x,y).其中,OR(x,y)表示两个查询词入链和出链的平均重叠率,Kij表示入链词集合,Lij表示出链词集合,k表示入链词,wafki表示词k和词i间的激活力强度,wafkj表示表示词k和词j间的激活力强度,wafil表示词i和词l间的激活力强度,wafjl表示词j和词l间的激活力强度;步骤42),构建网络结构N=(V,E,W),其中V表示节点集,E表示连接节点的边缘集,局部共现活跃性或者亲和力,作为边缘权重W的衡量标准。优选的:所述分类器为Softmax分类器。本专利技术相比现有技术,具有以下有益效果:(1)本专利技术采用称为词激活力的复杂网络建模方法构建语义概念网络。其中,网络中的每个节点表示一个单独的概念,边缘表示个体概念间的共现关系,每个成对共现关系的重要性由亲和力表示。该专利技术突破了个体概念检测器的局限性,完成了从视觉相关到语义相关的替换,所构建的概念网络为理解图像语义和捕获图像语义概念之间的共现关系提供了更有用的信息。(2)本专利技术提出了基于复杂网络分析方法和深度游走的VQA模型。在语义概念网络构建的基础上,采用深度游走方案实现图像语义概念和文本问题共现模式的有效挖掘。将低维深度游走特征提取融合图像特征和文本特征输入到分类器以生成答案。附图说明图1基于复杂网络分析方法的VQA模型框架图;图2语义概念网络构建流程图;图3基于深度游走的VQA实现流程图。具体实施方式下面结合附图和具体实施例,进一步阐明本专利技术,应理解这些实例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。一种基于复杂网络分析方法的视觉问答问题解决方法,包括语义概念网络构建、非随机深度游走、图像和文本特征融合及分类器,语义概念网络构建旨在挖掘概念的共现模式以增强语义表达,非随机深度游走实现复杂网络关系到低维特征的映射,在构建图像语义概念网络的基础上,应用深度游走算法学习语义概念网络中节点的潜在关系,利用深度学习的方法进行训练,并将复杂网络中的节点映射成一个低维特征向量,从而挖掘高维数据中的低维结构,提取到的特征向量既包含节点即语义概念本身的属性,也包含节点即语义概念之间的关系属性,多项式逻辑回归融合图像和文本特征,将融合后图像和文本特征输入分类器以解决视觉问答问题。如图1所示,整个模型架构中包含语义概念提取、图像卷积神经网络特征提取、问题文本特征提取、语义概念网络构建、非随机深度游走、特征融合以及答案生成。本专利技术构建了一个基于词激活力的语义概念网络,然后应用深度游走的社交网络分析方法挖掘语义概念的共现模式,提取场景、人与物体之间的关系,最后利用视觉图像特征、问题文本特征和深度游走向量的融合特征完成VQA任务。基于上述VQA模型,本专利技术提出的VQA模型的实现方法包括以下步骤:1)给定一幅图像提取它的卷积神经网络特征;2)给定图像对应的一个文本问题提取它的词袋特征;3)提取训练集的语义概念,组成概念词汇表;4)应用语义概念词汇表,基于词激活力构建语义概念网络;5)提取给定本文档来自技高网...

【技术保护点】
1.一种基于复杂网络分析方法的视觉问答问题解决方法,其特征在于:包括语义概念网络构建、非随机深度游走、图像和文本特征融合及分类器,语义概念网络构建旨在挖掘概念的共现模式以增强语义表达,非随机深度游走实现复杂网络关系到低维特征的映射,在构建图像语义概念网络的基础上,应用深度游走算法学习语义概念网络中节点的潜在关系,并将复杂网络中的节点映射成一个低维特征向量,从而挖掘高维数据中的低维结构,提取到的特征向量既包含节点即语义概念本身的属性,也包含节点即语义概念之间的关系属性,多项式逻辑回归融合图像和文本特征,将融合后图像和文本特征输入分类器以解决视觉问答问题。

【技术特征摘要】
1.一种基于复杂网络分析方法的视觉问答问题解决方法,其特征在于:包括语义概念网络构建、非随机深度游走、图像和文本特征融合及分类器,语义概念网络构建旨在挖掘概念的共现模式以增强语义表达,非随机深度游走实现复杂网络关系到低维特征的映射,在构建图像语义概念网络的基础上,应用深度游走算法学习语义概念网络中节点的潜在关系,并将复杂网络中的节点映射成一个低维特征向量,从而挖掘高维数据中的低维结构,提取到的特征向量既包含节点即语义概念本身的属性,也包含节点即语义概念之间的关系属性,多项式逻辑回归融合图像和文本特征,将融合后图像和文本特征输入分类器以解决视觉问答问题。2.根据权利要求1所述基于复杂网络分析方法的视觉问答问题解决方法,其特征在于:包括以下步骤:步骤1)给定一幅图像提取它的卷积神经网络特征;步骤2)给定图像对应的一个文本问题提取它的词袋特征;步骤3)给定训练集,对训练集中每幅图像进行目标检测,提取检测目标对应的语义概念,集合训练集中的所有问答对提取的语义概念组建语义概念词汇表;步骤4)应用语义概念词汇表,基于词激活力构建语义概念网络;步骤5)提取给定图像的语义概念,并根据其在图像中的位置信息组成语义概念序列;步骤6)把获取的语义概念序列输入到之前构建好的语义概念网络中,执行非随机深度游走,由此获取深度游走特征矢量;步骤7)融合深度游走特征矢量、步骤1)提取的卷积神经网络特征以及步骤2)提取的词袋特征得到融合特...

【专利技术属性】
技术研发人员:李群肖甫徐鼎周剑
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1