一种基于全局上下文交互的场景图生成方法及系统及设备技术方案

技术编号：33956728 阅读：17 留言：0更新日期：2022-06-29 23:41

本发明专利技术公开了一种基于全局上下文交互的场景图生成方法及系统及设备，1)基于物体视觉特征、空间坐标、语义标签等多种特征融合的向量联合表示；2)基于双向门控循环神经网络的全局特征生成；3)基于全局特征向量的消息迭代传递机制；4)基于目标与关系状态表示的场景图生成。本发明专利技术所公开的基于全局上下文交互的场景图生成方法，同现存的场景图生成方法相比，通过上下文交互充分利用图像的全局特征，更具有应用广泛性；同时，得到上下文交互后的全局特征后进行目标对与其关系间的消息传递，利用目标间的潜在联系更新现有状态，进行更准确的场景图生成，具有实际应用的优势。具有实际应用的优势。具有实际应用的优势。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于全局上下文交互的场景图生成方法及系统及设备

[0001]本专利技术属于计算机视觉领域，特别涉及一种基于全局上下文交互的场景图生成方法及系统及设备。

技术介绍

[0002]由<主语
‑
关系
‑
宾语>三元组构成的场景图能够描述图像中的物体及物体对之间的场景结构关系。场景图主要有两个方面的优点：首先，场景图的<主语
‑
关系
‑
宾语>三元组具有结构化的语义内容，相较于自然语言文本，在细粒化的信息获取与处理过程中有明显优势；其次，场景图能够充分表示图像中的物体及场景结构关系，在多种计算机视觉任务中有广泛的应用前景，例如：在车辆自动驾驶领域，使用场景图进行环境建模可以为决策系统提供更全面的环境信息；在语义图像检索任务中，图像供应商通过场景图对图像的场景结构关系进行建模，使得用户仅需要对主要目标或关系进行描述即可检索到符合需求的图像。基于海量图片以及下游任务对场景图的实时要求，使用计算机进行场景图生成逐渐成为研究热点，对图像理解领域具有重要的意义。
[0003]现有的基于消息传递的场景图生成方法目标检查的结果构建目标节点和关系边，并基于消息传递机制，利用循环神经网络在局部子图内进行状态更新，将消息传递后的特征用于关系预测。此种方法采用基于局部上下文思想的消息传递机制，忽略目标之间的隐含约束，仅将目标节点的视觉特征作为初始状态，对关系的检测仅依赖于其主宾语节点特征、联合视觉特征的反复交流，模...

【技术保护点】

【技术特征摘要】
1.一种基于全局上下文交互的场景图生成方法，其特征在于，包括对输入图像I进行目标检测，得到其目标集合O＝(o1，o2，
…
，o
n
)，以及对应的视觉特征集合V＝(v1，v2，
…
，v
n
)、坐标特征集合B＝(b1，b2，
…
，b
n
)、预分类标签集合L＝(l1，l2，
…
，l
n
)、两两目标坐标并集框内的视觉特征C＝(c
i
→
j
，i≠j)；利用神经网络将各目标的绝对位置坐标，转化得到目标视觉与坐标特征的联合表示向量f
i
；根据特征融合向量F＝(f1，f2，
…
，f
n
)，得到局上下文目标特征γ
i
与其类别特征向量g
i
，使用神经网络将目标的全局上下文目标特征γ
i
与其类别特征向量g
i
进行融合，得到此目标的全局特征c
i
；基于每个目标的全局特征向量c
i
，每个关系的特征向量c
i
→
j
，初始化其隐藏状态进而初始计算各节点传入消息各边传入消息并进行迭代传递，利用循环神经网络更新隐藏状态并进行消息聚合得到各时刻i的传入消息直至达到设置的迭代次数，然后利用目标节点与关系边的最终状态生成能够反映图像中目标与目标间关系的场景图。2.根据权利要求1所述的一种基于全局上下文交互的场景图生成方法，其特征在于，利用神经网络将各目标的绝对位置坐标，转化为在图像中相对位置编码并扩充为相对位置特征s
i
，将目标视觉特征v
i
转为512维，采用特征融合方法，将相对位置特征向量s
i
和视觉特征v
i
进行拼接并转换，得到目标视觉与坐标特征的联合表示向量f
i
。3.根据权利要求2所述的一种基于全局上下文交互的场景图生成方法，其特征在于，基于特征融合的向量联合表示中，使用Faster
‑
RCNN模型对输入图像I进行目标检测得到后，将目标的绝对位置坐标转化为在图像中相对位置编码b
i
，对于目标o
i
，其坐标(x1，y1，x2，y2)，其中x1，y1，x2，y2分别代表其矩形回归框左上与右下坐标，相对位置编码计算公式：式中，wid代表图像I原有宽度，hei代表图像I原有高度；然后，使用全连接层将相对位置编码b
i
扩充为128维特征s
i
：s
i
＝σ(W
s
b
i
+b
s
)，其中，σ代表ReLU激活函数，W
s
与b
s
为线性变换参数，由神经网络自行学习调整；同时，采用相同方法将目标检测得到的目标视觉特征v
i
进行维度变换，使用全连接层将4096维特征转为512维；随后，将经过维度变换的相对位置特征向量s
i
和视觉特征v
i
进行拼接并转换，最终得到512维目标视觉与坐标特征融合向量f
i
，计算流程如下所示：f
i
＝σ(W
f
[s
i
，v
i
]+b
f
)，式中，[
·
]代表拼接操作，σ代表ReLU激活函数，W
f
与b
f
为线性变换参数。4.根据权利要求1所述的一种基于全局上下文交互的场景图生成方法，其特征在于，根据特征融合向量F＝(f1，f2，
…
，f
n
)，利用双向门控循环神经网络BiGRU得到全局上下文目标特征γ＝(γ1，γ2，
…
，γ
n
)；利用目标检测模块对目标的分类结果L＝(l1，l2，
…
，l
n
)，得到各目标的类别特征向量g
i
，使用神经网络将目标的全局上下文目标特征γ
i
与其类别特征向
量g
i
进行融合，得到此目标的全局特征c
i
。5.根据权利要求4所述的一种基于全局上下文交互的场景图生成方法，其特征在于，基于双向门控循环神经网络的全局特征生成过程中，得到目标集合的特征融合向量F＝(f1，f2，
…
，f
n
)后，将其按照相对坐标中的x坐标由左向右进行排序，并按序输入双向门控循环神经网络BiGRU中实现全局上下文交互，得到全局上下文目标特征γ＝(γ1，γ2，
…
，γ
n
)；随后，利用目标检测对目标的分类结果L＝(l1，l2，
…
，l
n
)，计算分类标签的Glove词嵌入向量，得到128维的目标类别特征向量g
i
，最后，将每个目标的全局上下文目标特征γ
i
与其类别特征向量g
i
进行融合，得到此目标的全局...

【专利技术属性】
技术研发人员：罗敏楠，杨名帆，郑庆华，董怡翔，刘欢，秦涛，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人