一种基于超关系学习网络的场景图生成方法技术

技术编号：29134600 阅读：18 留言：0更新日期：2021-07-02 22:30

本发明专利技术公开了一种基于超关系学习的场景图生成方法。本发明专利技术包括以下步骤：1、通过目标自注意力网络加强目标交互，融合目标的特征。2、通过目标‑关系注意力网络加强目标和关系的交互，融合目标和关系之间的特征。3、通过超关系注意力网络去整合超关系的传递推理。4、模型训练，将目标损失函数和关系损失函数放入优化器，通过反向传播算法对网络参数进行梯度回传和更新。本发明专利技术提出一种针对场景图生成的深度神经网络，特别是提出一种超关系学习网络，充分利用目标和关系之间的交互和传递推理，提高了场景图生成中关系的推理能力，并且在场景图生成领域中的性能得到了很大的提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于超关系学习网络的场景图生成方法
本专利技术提出一种基于超关系学习(Hyper-relationshipLearningNetwork)的场景图生成方法(HLN)。HLN起源于超图，使用多层的注意力网络是目标之间相互作用。进一步提出了目标关系注意力网络(OR-GAT)去自主在目标和关系之间相互作用，融合特征。本专利技术首次提出了超关系注意力网络去整合超关系的传递推理。其中超关系指的是三个目标之间关系的子集。通过目标之间相互作用，目标和关系之间的相互作用以及超关系的传递推理明显的提升了关系的预测效果。
技术介绍
场景图生成(SGG)目的是为了检测物体并预测对象关系。然后，这些检测到的对象和关系构成图像的场景图。场景图生成不仅能基于视觉内容提供去理解图像的关系，也同样有益于那些高层次的视觉应用的知识表示，例如视觉问答。场景图生成任务的目标就是让计算机能自动生成一种语义化的图结构，从而作为图像的表示。图像中的目标对应场景图中的节点，目标间的关系对应场景图中的边，边也能表示目标的各种属性，如颜色等。相对于向量表示来说，这种结构化表示的方法显得更加直观，场景图也可以看成是小型的知识图谱，因此能广泛的应用于知识管理、推理、检索、推荐等领域。除此之外，场景图的表示方法是模态无关的，自然语言、视频、语音等数据同样可以表示成类似结构，因此对于融合多模态信息很有潜力。早期的视觉关系检测工作将视觉关系三元组作为整体进行检测，即同时预测主语-谓语-宾语。然而由于视觉关系类别众多，这类方法需要大量的训练数据，且受限于早期标注数据...

【技术保护点】
1.一种基于超关系学习的场景图生成方法，其特征在于：/n构建超关系学习网络，超关系学习网络包括目标框生成网络、目标分类网络和关系预测网络；超关系学习网络首先通过目标框生成网络得到目标框；然后目标分类网络基于目标之间的相互作用，使用自注意力机制预测每个目标的位置和类别；最后在关系预测网络中，先将两个被检测的目标组成一个关系对，其次通过目标-关系注意力层使目标和关系交互，使用超关系注意力层探索目标-关系的传递推理；具体的：/n步骤(1)、构建目标框生成网络/n使用Faster R-CNN作为目标框生成网络；给定一幅图像I，目标框生成网络生成目标框的集合B＝{b

【技术特征摘要】
1.一种基于超关系学习的场景图生成方法，其特征在于：
构建超关系学习网络，超关系学习网络包括目标框生成网络、目标分类网络和关系预测网络；超关系学习网络首先通过目标框生成网络得到目标框；然后目标分类网络基于目标之间的相互作用，使用自注意力机制预测每个目标的位置和类别；最后在关系预测网络中，先将两个被检测的目标组成一个关系对，其次通过目标-关系注意力层使目标和关系交互，使用超关系注意力层探索目标-关系的传递推理；具体的：
步骤(1)、构建目标框生成网络
使用FasterR-CNN作为目标框生成网络；给定一幅图像I，目标框生成网络生成目标框的集合B＝{bi}，i∈[N]；对于每个目标框bi，目标框生成网络提供一个空间特征pi∈R9、一个视觉特征和一个目标类别概率空间特征pi包括相对边界的目标框坐目标框的中心坐标和相对比例其中(xi1，yi1，xi2，yi2)是目标框bi的左上角和右下角的坐标；w和h是图像I的宽和高；dv表示视觉特征的维度；c0+1是目标的类别总数，其中包括一个背景类；R9表示一个9维的实数矩阵；表示dv维度的实数矩阵；
步骤(2)、构建目标分类网络
使用自注意力机制预测每个目标的位置和类别，选择自注意力层是因为自注意力机制能对输入的目标的交互进行建模；
步骤(3)、构建关系预测网络
先将两个被检测的目标组成一个关系对，其次通过目标-关系注意力层使目标和关系交互，使用超关系注意力层探索目标-关系的传递推理；
步骤(4)、对超关系学习网络模型进行训练
将图像标注的真实目标类别和目标分类网络预测的64个目标类别，放入softmax交叉熵损失中计算损失；并计算真实目标框和预测目标框的回归损失，由L2损失计算；将给定的真实关系和预测得到的256个预测关系，放入二值交叉熵损失中计算损失；并利用反向传播算法对超关系学习网络模型中目标分类网络和关系预测网络的各个参数进行梯度回传，不断优化，直至整个超关系学习网络模型收敛。

2.根据权利要求1所述的一种基于超关系学习的场景图生成方法，其特征在于步骤(1)所述的构建目标框生成网络，具体实现如下：
1-1、首先使用FPN多尺度结构提取图像中各个候选框的特征，FPN结构自顶向下共有4层，每层提取2000个候选框；
1-2、然后使用RoiAlign操作提取每个候选框在图像上对应的特征，再使用非极大值抑制方法筛选出1000个候选框及其对应的特征；
1-3、最后使用正负样本1∶3的比例在这1000个候选框中采样64个目标框；并且得到这64个目标框的空间特征pi∈R9、视觉特征和目标类别概率

3.根据权利要求1所述的一种基于超关系学习的场景图生成方法，其特征在于步骤(2)所述的构建目标分类网络，具体如下：
2-1、目标初始化
假设给定一个目标框集合B＝{bi}，i∈[N]，那么目标oi的初始化特征xi通过融合视觉特征目标类别概率和空间特征pi而成，这些特征均从相对应的目标框bi得到，所以目标oi的特征xi表示为：

其中FCo(*)＝Wo(*)+bo表示一个线性变换函数，Wo和bo分别是权重矩阵这偏置；σ表示一个非线性变换函数，使用ReLU函数；”||”表示连接符号；Embo(*)是基于预先训练好的word2vec模型的词嵌入参数；
2-2、使用目标自注意力网络进行目标的交互
输入目标的特征集合为其中do是目标的特征集合X的特征维度，N表示特征集合X中目标的个数；使用一个自注意力层去更新目标特征的过程表示为：
X′＝FFNo(SAo(X))(2)
其中X′表示更新后的目标的特征集合；SAo(*)就是进行目标之间交互的一个自注意力网络层；这个自注意力网络层被定义为：

其中Qo(*)、Ko(*)、Vo(*)是三个同维度的线性变换函数，分别表示自注意力机制过程中的query、key、value；是Qo(*)和Ko(*)输出的维度，则是一个比例因子；FFNo(*)是一个由两个全连接层组成的前馈神经网络：

自注意力网络中采用了多头的策略，同时还使用残差连接和归一化的方式添加到每个自注意力网络和前馈神经网络中，即：
X＝X+LN(Fun(X))(5)
其中，公式(5)右边的X是输入的目标的特征集合，公式(5)左边的X表示经过一轮残差连接和归一化处理后的特征集合，LN(*)表示层归一化方法，Fun(*)代表的是每一个注意力网络或者前馈神经网络；
2-3、目标分类
在经过多层自注意力网络层后，最后使用交叉熵损失函数进行目标分类。

4.根据权利要求1所述的一种基于超关系学习的场景图生成方法，其特征在于步骤(3)所述的构建关系预测网络，具体如下：
3-1、目标和关系的初始化
在经过目标分类网络后，已知有N个被检测的目标类别O＝(oi)和N个被检测到的目标框B＝{bi}，i∈[N]；那么目标oi的特征就可以初始化为：

其中，和分别是目标oi的视觉特征和空间特征，是目标分类网络中经过最后一层自注意力网络得到的语义特征；Embr(l′i)是基于目标分类网络中预测每一个类别l′i的词嵌入向量，并且它是一个one-hot向量；
任意两个目标oi和oj的关系框vij的特征表示为：

其中，FCv3，FCv1，FCv2均表示线性变换函数；yi表示目标oi经过初始化后的特征，yj表示目标oj经过初始化后的特征...

【专利技术属性】
技术研发人员：俞俊，陈志，刘晓鹏，张健，张驰，詹忆冰，
申请(专利权)人：杭州电子科技大学，人民日报社，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人