一种基于超关系学习网络的场景图生成方法技术

技术编号:29134600 阅读:18 留言:0更新日期:2021-07-02 22:30
本发明专利技术公开了一种基于超关系学习的场景图生成方法。本发明专利技术包括以下步骤:1、通过目标自注意力网络加强目标交互,融合目标的特征。2、通过目标‑关系注意力网络加强目标和关系的交互,融合目标和关系之间的特征。3、通过超关系注意力网络去整合超关系的传递推理。4、模型训练,将目标损失函数和关系损失函数放入优化器,通过反向传播算法对网络参数进行梯度回传和更新。本发明专利技术提出一种针对场景图生成的深度神经网络,特别是提出一种超关系学习网络,充分利用目标和关系之间的交互和传递推理,提高了场景图生成中关系的推理能力,并且在场景图生成领域中的性能得到了很大的提升。

【技术实现步骤摘要】
一种基于超关系学习网络的场景图生成方法
本专利技术提出一种基于超关系学习(Hyper-relationshipLearningNetwork)的场景图生成方法(HLN)。HLN起源于超图,使用多层的注意力网络是目标之间相互作用。进一步提出了目标关系注意力网络(OR-GAT)去自主在目标和关系之间相互作用,融合特征。本专利技术首次提出了超关系注意力网络去整合超关系的传递推理。其中超关系指的是三个目标之间关系的子集。通过目标之间相互作用,目标和关系之间的相互作用以及超关系的传递推理明显的提升了关系的预测效果。
技术介绍
场景图生成(SGG)目的是为了检测物体并预测对象关系。然后,这些检测到的对象和关系构成图像的场景图。场景图生成不仅能基于视觉内容提供去理解图像的关系,也同样有益于那些高层次的视觉应用的知识表示,例如视觉问答。场景图生成任务的目标就是让计算机能自动生成一种语义化的图结构,从而作为图像的表示。图像中的目标对应场景图中的节点,目标间的关系对应场景图中的边,边也能表示目标的各种属性,如颜色等。相对于向量表示来说,这种结构化表示的方法显得更加直观,场景图也可以看成是小型的知识图谱,因此能广泛的应用于知识管理、推理、检索、推荐等领域。除此之外,场景图的表示方法是模态无关的,自然语言、视频、语音等数据同样可以表示成类似结构,因此对于融合多模态信息很有潜力。早期的视觉关系检测工作将视觉关系三元组作为整体进行检测,即同时预测主语-谓语-宾语。然而由于视觉关系类别众多,这类方法需要大量的训练数据,且受限于早期标注数据规模和模型计算能力,其预测关系类别有限、精度不高,比如Sadeghi等人提出的视觉关系检测方法仅能对13种常见的简单关系进行预测,而Desai等人提出的人与周围环境互动方法仅能检测8种简单的人的动作。2016年,Lu等人将视觉关系检测任务拆分为目标检测和谓语检测两个子任务,并分别采用不同的模块进行处理。此时,目标检测模块仅需要获取目标类别的训练数据,而谓语检测模块仅需要获取谓语类别的训练数据。这种策略将原本的乘积式训练标注空间,转换为相加式的训练标注空间,不仅降低了视觉关系检测方法对数据标注的依赖,并且由于不同模块负责不同的子任务,有效地提升了检测结果。Lu等人的方法将视觉关系检测类别提升到了70类。直到现在,几乎所有的视觉关系检测方法均采用这种做法。另一类视觉关系检测方法则注重于挖掘主语和宾语信息本身的关联。Zhang等人提出的VTransE方法中,利用VGG-16网络提取主语和宾语的视觉特征,利用FasterR-CNN目标识别网络获取主语和宾语的类别信息,同时结合主语和宾语在图像中的位置提取空间信息,然后采用文本中的词嵌入模型,将主语和宾语进行嵌入组合获取最终的关系预测。而Zoom-Net网络则充分利用主语和宾语之间的空间特性,构建多尺度金字塔网络,对主语、宾语、以及主语宾语联合目标提取视觉信息并融合,充分利用主语和宾语的视觉特性获取最终的预测结果。而Liang等人则利用张量理论对现有的关系对进行分解,从而在获取主语和宾语目标类别基础上,直接预测两者之间的关系。Jae等人则构建了强化学习网络,同时利用目标属性这一额外信息联合训练预测关系。Dai等人构建深度神经网络对目标的关系进行深度融合,从而获取最终的预测结果。随着科技的不断发展,计算机视觉应用和需求的愈加深入和广泛,当前的计算机视觉研究已经不仅限于识别视觉数据个体自身信息,如图像分类(ImageClassification)和目标检测(ObjectDetection)等,同时扩展到理解数据和数据之间的关联推理研究,如图像场景描述(ImageCaptioning)和视觉问答(VisualQuestionAnswering)等。视觉关系检测(VisualRelationshipDetection)指检测视觉场景中两个不同目标之间的关系,这些被检测的关系不仅可以作为视觉场景信息表示以辅助并加深视觉场景的理解,同时可以作为视觉的关联性知识指导并应用于计算机视觉领域中其他的相关任务,如细粒度目标检测、图像描述、视觉问答等。随着卷积神经网络(ConvolutionalNeuralNetwork,CNN)、图神经网络(GraphNeuralNetwork,GNN)等深度学习方法的不断进步,视觉基因数据库(VisualGenome,VG)、开放图像库(OpenImage)等大规模跨媒体知识库的逐步建立,视觉关系检测得到了飞速地发展,且已经成为了当前计算机视觉领域中一项基本且重要的研究。在视觉关系检测方法中,视觉关系通常以三元组的形式表示,即主语-谓语-宾语(Subject-Predicate-Object)。主语和宾语表示两个不同的目标,而谓语则描述主语和宾语这一目标对之间的关系,比如人-穿-衣服、人-骑-马等。综上所述,场景图生成领域是一个值得深入研究的课题,本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的场景图生成方法。场景图生成提供了整个图像的简要图。因此,场景图生成的一个关键点就是建模并且利用目标与目标之间的关系。但是,大多数场景图生成方法无法理解关系和目标的交互。相对很少有工作探讨了关系交互,不幸的是,这些方法都丢失了有价值信息并且需要很高的时间复杂度。具体而言,主要存在如下两方面的难点:(1)当前大多数场景图生成方法利用目标之间相互作用进行关系预测,但这些方法仅是利用对象之间的简单交互。所以,如何更好的利用目标与目标之间的相互作用去融合目标之间的特征,为之后的关系预测传递更有效的特征是一个影响关系预测算法性能的重要因素。(2)最近关于无偏差场景图生成的研究将关系预测问题归咎于训练集的偏差。这些研究提出了采用无偏策略的无偏场景图生成方法。然而,现有的无偏SGG方法仍然忽略关系连接。因为大多数他们忽略了关系的内在联系,在需要考虑周围关系的关系预测中,大多数场景图生成方法可以利用对象的交互作用,并且表现不佳。但是,他们无法理解关系交互。相对很少有工作探讨了关系交互,不幸的是,这些方法都丢失了有价值信息并且需要很高的时间复杂度。所以,如何利用关系和目标之间的内在联系是关系预测中的一个难点问题。(3)目前,没有任何的方法考虑关系的高层次连接,即传递的推断。传递推断是指通过合并两个目标和另一个中间目标之间的关系来推断两个目标之间的关系。利用传递推理可以更好地组织和整合周围的关系。但是,关系的高层次连接对关系预测的性能影响尤为显著。所以如何进行关系的高层次连接也是关系预测中的一个难点。
技术实现思路
本专利技术提供了一种基于超关系学习网络的场景图生成方法。本专利技术主要包含三点:1、使用目标自注意力网络作为目标分类的方法。选择注意力网络是因为注意力机制能对输入的目标的交互进行建模。能够考虑全局的目标的影响,将关系隐含在目标当中。2、提出目标-关系注意力网络使目标和关系交互。首先通过目标-关系注意力机制使关系的信息传递给目标,其中使用遮掩机制,只传递和该目标有关的关系的信息。之后,使用目标-关系本文档来自技高网
...

【技术保护点】
1.一种基于超关系学习的场景图生成方法,其特征在于:/n构建超关系学习网络,超关系学习网络包括目标框生成网络、目标分类网络和关系预测网络;超关系学习网络首先通过目标框生成网络得到目标框;然后目标分类网络基于目标之间的相互作用,使用自注意力机制预测每个目标的位置和类别;最后在关系预测网络中,先将两个被检测的目标组成一个关系对,其次通过目标-关系注意力层使目标和关系交互,使用超关系注意力层探索目标-关系的传递推理;具体的:/n步骤(1)、构建目标框生成网络/n使用Faster R-CNN作为目标框生成网络;给定一幅图像I,目标框生成网络生成目标框的集合B={b

【技术特征摘要】
1.一种基于超关系学习的场景图生成方法,其特征在于:
构建超关系学习网络,超关系学习网络包括目标框生成网络、目标分类网络和关系预测网络;超关系学习网络首先通过目标框生成网络得到目标框;然后目标分类网络基于目标之间的相互作用,使用自注意力机制预测每个目标的位置和类别;最后在关系预测网络中,先将两个被检测的目标组成一个关系对,其次通过目标-关系注意力层使目标和关系交互,使用超关系注意力层探索目标-关系的传递推理;具体的:
步骤(1)、构建目标框生成网络
使用FasterR-CNN作为目标框生成网络;给定一幅图像I,目标框生成网络生成目标框的集合B={bi},i∈[N];对于每个目标框bi,目标框生成网络提供一个空间特征pi∈R9、一个视觉特征和一个目标类别概率空间特征pi包括相对边界的目标框坐目标框的中心坐标和相对比例其中(xi1,yi1,xi2,yi2)是目标框bi的左上角和右下角的坐标;w和h是图像I的宽和高;dv表示视觉特征的维度;c0+1是目标的类别总数,其中包括一个背景类;R9表示一个9维的实数矩阵;表示dv维度的实数矩阵;
步骤(2)、构建目标分类网络
使用自注意力机制预测每个目标的位置和类别,选择自注意力层是因为自注意力机制能对输入的目标的交互进行建模;
步骤(3)、构建关系预测网络
先将两个被检测的目标组成一个关系对,其次通过目标-关系注意力层使目标和关系交互,使用超关系注意力层探索目标-关系的传递推理;
步骤(4)、对超关系学习网络模型进行训练
将图像标注的真实目标类别和目标分类网络预测的64个目标类别,放入softmax交叉熵损失中计算损失;并计算真实目标框和预测目标框的回归损失,由L2损失计算;将给定的真实关系和预测得到的256个预测关系,放入二值交叉熵损失中计算损失;并利用反向传播算法对超关系学习网络模型中目标分类网络和关系预测网络的各个参数进行梯度回传,不断优化,直至整个超关系学习网络模型收敛。


2.根据权利要求1所述的一种基于超关系学习的场景图生成方法,其特征在于步骤(1)所述的构建目标框生成网络,具体实现如下:
1-1、首先使用FPN多尺度结构提取图像中各个候选框的特征,FPN结构自顶向下共有4层,每层提取2000个候选框;
1-2、然后使用RoiAlign操作提取每个候选框在图像上对应的特征,再使用非极大值抑制方法筛选出1000个候选框及其对应的特征;
1-3、最后使用正负样本1∶3的比例在这1000个候选框中采样64个目标框;并且得到这64个目标框的空间特征pi∈R9、视觉特征和目标类别概率


3.根据权利要求1所述的一种基于超关系学习的场景图生成方法,其特征在于步骤(2)所述的构建目标分类网络,具体如下:
2-1、目标初始化
假设给定一个目标框集合B={bi},i∈[N],那么目标oi的初始化特征xi通过融合视觉特征目标类别概率和空间特征pi而成,这些特征均从相对应的目标框bi得到,所以目标oi的特征xi表示为:



其中FCo(*)=Wo(*)+bo表示一个线性变换函数,Wo和bo分别是权重矩阵这偏置;σ表示一个非线性变换函数,使用ReLU函数;”||”表示连接符号;Embo(*)是基于预先训练好的word2vec模型的词嵌入参数;
2-2、使用目标自注意力网络进行目标的交互
输入目标的特征集合为其中do是目标的特征集合X的特征维度,N表示特征集合X中目标的个数;使用一个自注意力层去更新目标特征的过程表示为:
X′=FFNo(SAo(X))(2)
其中X′表示更新后的目标的特征集合;SAo(*)就是进行目标之间交互的一个自注意力网络层;这个自注意力网络层被定义为:



其中Qo(*)、Ko(*)、Vo(*)是三个同维度的线性变换函数,分别表示自注意力机制过程中的query、key、value;是Qo(*)和Ko(*)输出的维度,则是一个比例因子;FFNo(*)是一个由两个全连接层组成的前馈神经网络:



自注意力网络中采用了多头的策略,同时还使用残差连接和归一化的方式添加到每个自注意力网络和前馈神经网络中,即:
X=X+LN(Fun(X))(5)
其中,公式(5)右边的X是输入的目标的特征集合,公式(5)左边的X表示经过一轮残差连接和归一化处理后的特征集合,LN(*)表示层归一化方法,Fun(*)代表的是每一个注意力网络或者前馈神经网络;
2-3、目标分类
在经过多层自注意力网络层后,最后使用交叉熵损失函数进行目标分类。


4.根据权利要求1所述的一种基于超关系学习的场景图生成方法,其特征在于步骤(3)所述的构建关系预测网络,具体如下:
3-1、目标和关系的初始化
在经过目标分类网络后,已知有N个被检测的目标类别O=(oi)和N个被检测到的目标框B={bi},i∈[N];那么目标oi的特征就可以初始化为:



其中,和分别是目标oi的视觉特征和空间特征,是目标分类网络中经过最后一层自注意力网络得到的语义特征;Embr(l′i)是基于目标分类网络中预测每一个类别l′i的词嵌入向量,并且它是一个one-hot向量;
任意两个目标oi和oj的关系框vij的特征表示为:



其中,FCv3,FCv1,FCv2均表示线性变换函数;yi表示目标oi经过初始化后的特征,yj表示目标oj经过初始化后的特征...

【专利技术属性】
技术研发人员:俞俊陈志刘晓鹏张健张驰詹忆冰
申请(专利权)人:杭州电子科技大学人民日报社
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1