The invention discloses a visual question answering solution based on complex network analysis method, including semantic concept network construction, non-random depth walk, image and text feature fusion and classifier. Semantic concept network construction aims at mining concept co-occurrence patterns to enhance semantic expression, and non-random depth walk realizes mapping of complex network related to low-dimensional features. Based on the construction of image semantic conceptual network, depth walk algorithm is applied to learn the potential relationship of nodes in semantic conceptual network, and the nodes in complex network are mapped to a low-dimensional feature vector. Polynomial logistic regression is used to fuse image and text features to solve the visual question-and-answer problem. The invention deeply excavates the conceptual symbiosis pattern and the hierarchical structure of cluster concept, effectively integrates the visual and semantic features of images, as well as the natural language features, and provides a feasible way to solve the visual question answering problem.
【技术实现步骤摘要】
一种基于复杂网络分析方法的视觉问答问题解决方法
本专利技术涉及一种解决视觉问答(VisualQuestionAnswering,VQA)问题的复杂网络分析方法,该方法对VQA中的开放性问答任务是一种新颖的解决方案,同时保证视觉问答的准确性需求,属于计算机视觉和自然语言处理领域。
技术介绍
近年来,随着人工智能的高速发展,人们对智能的需求越来越多样化,其中视觉问答模型作为计算机视觉与自然语言处理的交叉领域,也备受关注,但其准确率还远远未达到用户满意的业务体验。开发能够回答关于视觉图像的任意自然语言问题的计算机视觉程序仍然被认为是一项雄心勃勃且必要的工作。该工作结合了计算机视觉中的各种子任务,如目标检测和识别,场景和属性分类,计数和自然语言处理,甚至知识和常识推理。在VQA中,计算机从足够的数据或大数据中学习视觉和语义特征,以回答关于人类所提出的图像的任意问题。虽然,研究人员已提出众多方法,VQA一直是一个开放的问题,所提出的模型的准确性和鲁棒性都需要进一步地改进。VQA算法可分为以下几种:1)基准模型;2)基于贝叶斯的模型;3)双线性池化方法;4)注意力模型;5)基于图像语义概念的模型等。目前,注意力模型是研究热点。然而,大量研究表明仅仅关注注意力模型似乎不够。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种基于复杂网络分析方法的视觉问答问题解决方法,本专利技术基于VQA的基准模型,通过语义概念网络构建和深度游走深度学习图像和文本语义,解决视觉问答中的技术难题。VQA需要在问题和图像之间绘制推论和建模关系,一旦问题和图像被特征化,它 ...
【技术保护点】
1.一种基于复杂网络分析方法的视觉问答问题解决方法,其特征在于:包括语义概念网络构建、非随机深度游走、图像和文本特征融合及分类器,语义概念网络构建旨在挖掘概念的共现模式以增强语义表达,非随机深度游走实现复杂网络关系到低维特征的映射,在构建图像语义概念网络的基础上,应用深度游走算法学习语义概念网络中节点的潜在关系,并将复杂网络中的节点映射成一个低维特征向量,从而挖掘高维数据中的低维结构,提取到的特征向量既包含节点即语义概念本身的属性,也包含节点即语义概念之间的关系属性,多项式逻辑回归融合图像和文本特征,将融合后图像和文本特征输入分类器以解决视觉问答问题。
【技术特征摘要】
1.一种基于复杂网络分析方法的视觉问答问题解决方法,其特征在于:包括语义概念网络构建、非随机深度游走、图像和文本特征融合及分类器,语义概念网络构建旨在挖掘概念的共现模式以增强语义表达,非随机深度游走实现复杂网络关系到低维特征的映射,在构建图像语义概念网络的基础上,应用深度游走算法学习语义概念网络中节点的潜在关系,并将复杂网络中的节点映射成一个低维特征向量,从而挖掘高维数据中的低维结构,提取到的特征向量既包含节点即语义概念本身的属性,也包含节点即语义概念之间的关系属性,多项式逻辑回归融合图像和文本特征,将融合后图像和文本特征输入分类器以解决视觉问答问题。2.根据权利要求1所述基于复杂网络分析方法的视觉问答问题解决方法,其特征在于:包括以下步骤:步骤1)给定一幅图像提取它的卷积神经网络特征;步骤2)给定图像对应的一个文本问题提取它的词袋特征;步骤3)给定训练集,对训练集中每幅图像进行目标检测,提取检测目标对应的语义概念,集合训练集中的所有问答对提取的语义概念组建语义概念词汇表;步骤4)应用语义概念词汇表,基于词激活力构建语义概念网络;步骤5)提取给定图像的语义概念,并根据其在图像中的位置信息组成语义概念序列;步骤6)把获取的语义概念序列输入到之前构建好的语义概念网络中,执行非随机深度游走,由此获取深度游走特征矢量;步骤7)融合深度游走特征矢量、步骤1)提取的卷积神经网络特征以及步骤2)提取的词袋特征得到融合特...
【专利技术属性】
技术研发人员:李群,肖甫,徐鼎,周剑,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。