一种基于图卷积的视觉问答增强方法技术

技术编号:22444538 阅读:30 留言:0更新日期:2019-11-02 04:28
本发明专利技术公开了一种基于图卷积的视觉问答增强方法。本发明专利技术包括以下步骤:步骤1、分别提取图片和问题的特征表示;步骤2、提取基于问题生成的图片中各目标之间的关系;步骤3、将带有问题信息的图片生成为graph,并且为每个顶点挑选最相关的目标,为每个顶点生成新的特征表示之后,对graph进行最大池化和分类。本发明专利技术利用GCN网络和图片中物体之间的关系来探索高层次语义,对视觉问答技术有较大意义。

An enhancement method of visual Question Answering Based on graph convolution

【技术实现步骤摘要】
一种基于图卷积的视觉问答增强方法
本专利技术属于计算机视觉、自然语言
,特别地,本专利技术涉及一种基于图卷积的视觉问答增强方法。技术背景视觉问答(VQA)是近年来备受关注的新兴话题。它结合了计算机视觉和自然语言处理(NLP)这两个领域,并要求我们在这两个领域都有很好的理解。VQA系统将图像和自由形式的自然语言问题作为输入,并生成自然语言答案作为输出。大多数VQA方法将任务视为分类任务,并分别提取图像和问题特征。之后,他们探索了从深度卷积神经网络(CNNs)学习的图像表示的多模态特征融合以及从时间序列模型(如长期短期记忆(LSTM)和门控递归神经网络(GRU)中获得的问题表示。)网络)以捕获多模态特征之间的相互作用。这些融合模型使用双线性池化和基于注意力的方式等。然而,这些方法并不真正理解得到答案的推理过程,而没有选择与图片中的异议最相关的目标,使得信息变得非常多余的。卷积神经网络(CNNs)已经在计算机视觉和自然语言处理等领域取得了最新水平,能够处理欧几里德数据结构并有效地探索特征表示。欧几里德数据是指数据然而,在现实世界中存在大量的非欧几里德数据,例如社交多媒体网络数据,化学复合结构数据和知识图数据等。诸如CNN之类的神经网络结构不能有效地处理这种图形结构。由ThomasKpif提出的Data.Graph卷积神经网络(GCN)可以在同一时间执行节点特征信息和结构信息的端到端学习,旨在将CNN应用于图域。空间GCN是一种更直观的方式,只需要在拓扑图上提取空间特征,然后找到与每个顶点相邻的邻居在基于问题的图像物体之间的关系能让图像有一个更好的语义解释。例如,假设一个图像有两个人,一个是骑自行车,另一个是站在自行车旁边,然后询问骑自行车的是男人还是女人。如果我们使用之前从图像中学到的关系,例如{人,骑,自行车},我们会把注意力放在骑自行车的人上,而不是图片中的其他人。作为物体的关系,关系为理解具有多个对象的任务中的交互和语义信息提供了新的视角。
技术实现思路
本专利技术的目的是为了利用GCN网络和图片中物体之间的关系来解决视觉问答不能很好探索高层次语义的问题,在VQA的任务中,图像中的物体之间的关系可以帮助我们理解推理的过程,允许我们根据问题为每个顶点选择最相关的节点。在本专利技术中,我们提出了一个有效的,用于视觉问答的新颖,基于图形的方法。我们以场景结构的形式探索了语义结构,这是从一个问题条件下的图像中学习的图形。边界框对象检测被定义为图形节点,而对象之间的关系用于表示图形边缘,证明我们提出的方法可以学习更高级别的语义信息,并进一步提高VQA的性能。本专利技术提出的一种基于图卷积的视觉问答增强方法,其过程包括以下步骤:步骤1、分别提取图片和问题的特征表示;步骤2、提取基于问题生成的图片中各目标之间的关系;步骤3、将带有问题信息的图片生成为graph,并且为每个顶点挑选最相关的目标,为每个顶点生成新的特征表示之后,对graph进行最大池化和分类。本专利技术的特点及有益效果:本专利技术实现了一种基于图卷积的视觉问答增强方法,利用GCN网络和图片中物体之间的关系来探索高层次语义,对视觉问答技术有较大意义。首先利用GRU获得问题的特征表示学习、利用从FasterR-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示使得模型的输入特征能够更好地表达任务所需要的信息,在源头上提高模型的准确率,之后引入的GCN网络能够我们以场景结构的形式探索了语义结构,同时VQA的任务中,图像中的物体之间的关系可以帮助我们理解推理的过程,允许我们根据问题为每个节点选择最相关的节点。附图说明图1为本专利技术方法总体流程图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。本专利技术提出的基于图卷积的视觉问答增强方法,如图1所示,我们模型的第一步首先首先提取特征,利用GRU获得问题的特征表示、利用从FasterR-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示;之后图形学习器学习基于问题的图像对象的邻接矩阵,并添加通过关系特征检测器检测到的物体间的关系。最后我们处理图形特征,并结合问题来形成多类别分类以预测正确的答案。具体实现过程如下:步骤1、分别提取图片和问题的特征表示;步骤2、提取基于问题生成的图片中各目标之间的关系,构建关系特征检测器;步骤3、将带有问题信息的图片生成为graph,并且为每个顶点挑选最相关的目标,为每个顶点生成新的特征表示之后,对graph进行最大池化和分类。步骤2所述的构建关系特征检测器,具体如下:为了对图像的更深层次的语义信息进行建模,对象之间的关系非常有用。单个对象的属性(如类别,位置和属性)以及表示为关系的对象之间的交互都是有用的。在我们的框架中,所有属性都用作训练功能的监督。我们通过检测器提取单个对象提议,然后使用对象类别,位置,属性和关系训练模型。具体来说,带有resnet101的faster-rcnn在我们的框架中被用作对象检测器。在我们的工作中,我们采用模型的输出并应用NMS操作并按IOU阈值选择32个对象。然后,通过平均池层,将特征中的提议集成到2048个维度。对象特征vi是在faster-rcnn中从RPN中生成,其中i=0,1,2,...,k-1,为了学习单实例属性以及原始检测操作,我们还设置了一个属性分类器来学习实例属性。因此,单个的属性学习概况如下:其中W*和b*是可学习的参数,*是连接操作。LOCi,CLSi和ATTi是第i个物体的边界框、类和属性预测。同时,在我们的工作中,学习关系数据反映的对象的交互是至关重要的,它直接显示关系标签的质量和关系数据在语义任务中的力量。具体来说,我们通过以下等式实现实体之间的关系:Ni=W1vi+b1公式4Ri,j=W2(Ni+Nj)+b2公式5其中,W1、W2、b1、b2是用于将实例映射到关系域的可学习参数,Ni是用于将单个的实例特征映射到关系域的节点,Ri,j是提议实例的关系预测i和j。在关系训练中,提出的特征首先由完全连接的层映射到关系空间。然后,我们融合映射的功能以获得提出的特征之间的关系标签。由于我们的作品中有k个特征,所有k*(k-1)个关系组合都参与训练。实际标签由锚点设置和检测ROI分配。目标标签是VrR-VG数据集中的所有关系以及一个附加的无关系的标签。在训练过程中,单个实体的位置、类别、属性和实体关系参与并监督特征学习。因此,这些功能包含单个实体的所有信息以及实体之间的所有交互。图形学习器:我们引入了一个图像卷积网络(GCN)图学习器,用于捕获基于问题的图形的语义信息,如图1的中间部分所示。我们构造了一个无向图其中v(|v|=N)是所有检测到的区域顶点的集合,并且每个表示每个图像物体的特征向量。ε是要学习的图形关系边缘的集合和是对应的邻接矩阵。目前,GCN有一个大致相同的架构,关于每个顶点邻域的编码信息,在我们的模型中定义为:其中,W是一个权重矩阵,b偏向量和σ(·)是一个非线性激活函数,如ReLU。代表顶点vi的邻居集,也包括自己。以邻接矩阵M的形式对图结构进行代表性描述,与顶点相乘表示,对于每个顶点,我们把所有相邻顶点的特征向量都加起来。我们还将关系特征检测本文档来自技高网
...

【技术保护点】
1.一种基于图卷积的视觉问答增强方法,其特征在于包括以下步骤:步骤1、分别提取图片和问题的特征表示;步骤2、提取基于问题生成的图片中各目标之间的关系,构建关系特征检测器;步骤3、将带有问题信息的图片生成为graph,并且为每个顶点挑选最相关的目标,为每个顶点生成新的特征表示之后,对graph进行最大池化和分类。

【技术特征摘要】
1.一种基于图卷积的视觉问答增强方法,其特征在于包括以下步骤:步骤1、分别提取图片和问题的特征表示;步骤2、提取基于问题生成的图片中各目标之间的关系,构建关系特征检测器;步骤3、将带有问题信息的图片生成为graph,并且为每个顶点挑选最相关的目标,为每个顶点生成新的特征表示之后,对graph进行最大池化和分类。2.根据权利要求1所述的一种基于图卷积的视觉问答增强方法,其特征在于步骤2所述的构建关系特征检测器,具体如下:首先将带有resnet101的faster-rcnn在框架中被用作对象检测器;其次采用模型的输出并应用NMS操作并按IOU阈值选择32个对象;最后通过平均池层,将特征中的提议集成到2048个维度;对象特征vi是在faster-rcnn中从RPN中生成,其中i=0,1,2,...,k-1,为了学习单实例属性以及原始检测操作,设置属性分类器来学习实例属性;因此单个的属性学习概况如下:其中W*和b*是可学习的参数,*是连接操作;LOCi,CLSi和ATTi是第i个物体的边界框、类和属性预测;学习关系数据能够直接显示关系标签的质量和关系数据在语义任务中的力量;因此通过以下等式实现实体之间的关系:Ni=W1vi+b1公式4Ri,j=W2(Ni+Nj)+b2公式5其中,W1、W2、b1、b2是用于将实例映射到关系域的可学习参数,Ni是用于将单个的实例特征映射到关系域的节点,Ri,j是提议实例的关系预测i和j;在关系训练中,提出的特征首先由全连接层映射到关系空间;然后,融合映射的功能以获得提出的特征之间的关系标签;设作品中有k个特征,所有k*(k-1)个关系组合都参与训练;实际标签由锚点设置和检测ROI分配;目标标签是VrR-VG数据集中的所有关系以及一个附加的无关系的标...

【专利技术属性】
技术研发人员:颜成钢俞灵慧孙垚棋张继勇张勇东
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1