一种基于全局上下文交互的场景图生成方法及系统及设备技术方案

技术编号:33956728 阅读:17 留言:0更新日期:2022-06-29 23:41
本发明专利技术公开了一种基于全局上下文交互的场景图生成方法及系统及设备,1)基于物体视觉特征、空间坐标、语义标签等多种特征融合的向量联合表示;2)基于双向门控循环神经网络的全局特征生成;3)基于全局特征向量的消息迭代传递机制;4)基于目标与关系状态表示的场景图生成。本发明专利技术所公开的基于全局上下文交互的场景图生成方法,同现存的场景图生成方法相比,通过上下文交互充分利用图像的全局特征,更具有应用广泛性;同时,得到上下文交互后的全局特征后进行目标对与其关系间的消息传递,利用目标间的潜在联系更新现有状态,进行更准确的场景图生成,具有实际应用的优势。具有实际应用的优势。具有实际应用的优势。

【技术实现步骤摘要】
一种基于全局上下文交互的场景图生成方法及系统及设备


[0001]本专利技术属于计算机视觉领域,特别涉及一种基于全局上下文交互的场景图生成方法及系统及设备。

技术介绍

[0002]由<主语

关系

宾语>三元组构成的场景图能够描述图像中的物体及物体对之间的场景结构关系。场景图主要有两个方面的优点:首先,场景图的<主语

关系

宾语>三元组具有结构化的语义内容,相较于自然语言文本,在细粒化的信息获取与处理过程中有明显优势;其次,场景图能够充分表示图像中的物体及场景结构关系,在多种计算机视觉任务中有广泛的应用前景,例如:在车辆自动驾驶领域,使用场景图进行环境建模可以为决策系统提供更全面的环境信息;在语义图像检索任务中,图像供应商通过场景图对图像的场景结构关系进行建模,使得用户仅需要对主要目标或关系进行描述即可检索到符合需求的图像。基于海量图片以及下游任务对场景图的实时要求,使用计算机进行场景图生成逐渐成为研究热点,对图像理解领域具有重要的意义。
[0003]现有的基于消息传递的场景图生成方法目标检查的结果构建目标节点和关系边,并基于消息传递机制,利用循环神经网络在局部子图内进行状态更新,将消息传递后的特征用于关系预测。此种方法采用基于局部上下文思想的消息传递机制,忽略目标之间的隐含约束,仅将目标节点的视觉特征作为初始状态,对关系的检测仅依赖于其主宾语节点特征、联合视觉特征的反复交流,模型无法考虑图像的整体结构,全局信息未在关系预测中发挥作用,因此,限制了模型的预测能力。此外,现有方法未能利用物体坐标,没有从空间角度分析目标间的视觉关系。针对以上问题,本专利技术提出了一种基于全局上下文交互的场景图生成方法。对现存的场景图生成方法:
[0004]现有技术1提出了一种图像场景图生成方法,该方法采用将关系分为父类与子类的方式,进行双重关系预测,并采用归一化函数确定精确关系,生成该图像的场景图。
[0005]现有技术2提出了一种基于深度关系自注意力网络的场景图生成方法,方法主要包括:首先,对输入图像进行目标检测,获得标签、物体边框特征、联合边框特征;然后,构建目标特征、相对关系特征;最后,利用深度神经网络生成最终的视觉场景图。
[0006]现有技术1中的场景图生成方法没有考虑以特征融合方式充分利用特征向量;现有技术2的方法未使用消息传递机制,没有考虑进行目标对与其关系间的信息交互,不能进行上下文传递后的状态更新。且两者均没有使用图像中全体目标之间存在的隐含约束来构建上下文,存在一定不足。

技术实现思路

[0007]本专利技术的目的在于提供一种基于全局上下文交互的场景图生成方法及系统及设备,以解决上述问题。
[0008]为实现上述目的,本专利技术采用以下技术方案:
[0009]与现有技术相比,本专利技术有以下技术效果:
[0010]本专利技术相较于使用视觉特征代表目标特征的特征表示方法,本专利技术充分利用目标视觉特征、类别特征与空间坐标信息,使得本专利技术对信息利用更加充分,提升了场景图生成的关系预测性能;
[0011]本专利技术相较于使用局部上下文交互的场景图生成方法,本专利技术利用循环神经网络进行图像的全局上下文提取,实现基于全局上下文的信息交互,随后进行消息传递,充分实现数据交互与信息拓展。
附图说明
[0012]图1是本专利技术基于全局上下文交互的场景图生成方法框图。
[0013]图2是基于特征融合的向量联合表示的流程图。
[0014]图3是双向门控循环神经网络BiGRU的结构图。
[0015]图4是基于全局特征向量的消息迭代传递机制的流程图。
[0016]图5是目标检测结果及对应场景图示意图。
[0017]图6是本专利技术性能测试结果图。
具体实施方式
[0018]以下结合附图及实施例对本专利技术的实施方式进行详细说明。需要说明的是,此处描述的实施例只用以解释本专利技术,并不用于限定本专利技术。此外,在不冲突的情况下,本专利技术中的实施例涉及的技术特征可以相互结合。
[0019]本专利技术的具体实施过程包括图像的目标检测与特征向量融合、基于全局上下文交互的特征生成和消息传递过程。图1是本专利技术基于全局上下文交互的场景图生成方法框图。
[0020]1.图像的目标检测与特征向量融合
[0021]给出输入图像后,本专利技术使用Faster

RCNN深度学习模型进行目标检测,得到其目标集合O=(o1,o2,

,o
n
),对应的视觉特征集合V=(v1,v2,

,v
n
),坐标特征集合B=(b1,b2,

,b
n
)、预分类标签集合L=(l1,l2,

,l
n
)、两两目标坐标并集框内的视觉特征C=(c
i

j
,i≠j)。
[0022]首先,本专利技术使用特征融合方法,对每个目标对应的空间坐标特征b
i
、视觉特征的向量v
i
进行联合表示。对于目标o
i
,其绝对位置坐标b=(x1,y1,x2,y2),其中x1,y1,x2,y2分别代表其矩形回归框左上与右下坐标,本专利技术利用如下公式将其转化为在图像中相对位置编码b
i

[0023][0024]式中,wid代表图像I原有宽度,hei代表图像I原有高度。
[0025]然后,使用神经网络的全连接层将相对位置编码b
i
扩充为128维特征s
i

[0026]s
i
=σ(W
s
b
i
+b
s
),
[0027]其中,σ代表ReLU激活函数,W
s
与b
s
为线性变换参数,由神经网络自行学习调整。同时,本方法使用全连接层将目标视觉特征v
i
由4096维特征转为512维。
[0028]随后,本专利技术将经过维度变换的相对位置特征向量s
i
和视觉特征v
i
进行拼接并维度变换,得到512维目标视觉与坐标特征融合向量f
i
,计算流程如下所示:
[0029]f
i
=σ(W
f
[s
i
,v
i
]+b
f
),
[0030]式中,[
·
]代表拼接操作,σ代表ReLU激活函数,W
f
与b
f
为线性变换参数。
[0031]以上特征向量融合流程如图2所示。
[0032]2.基于双向门控循环神经网络的全局特征生成
[0033]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于全局上下文交互的场景图生成方法,其特征在于,包括对输入图像I进行目标检测,得到其目标集合O=(o1,o2,

,o
n
),以及对应的视觉特征集合V=(v1,v2,

,v
n
)、坐标特征集合B=(b1,b2,

,b
n
)、预分类标签集合L=(l1,l2,

,l
n
)、两两目标坐标并集框内的视觉特征C=(c
i

j
,i≠j);利用神经网络将各目标的绝对位置坐标,转化得到目标视觉与坐标特征的联合表示向量f
i
;根据特征融合向量F=(f1,f2,

,f
n
),得到局上下文目标特征γ
i
与其类别特征向量g
i
,使用神经网络将目标的全局上下文目标特征γ
i
与其类别特征向量g
i
进行融合,得到此目标的全局特征c
i
;基于每个目标的全局特征向量c
i
,每个关系的特征向量c
i

j
,初始化其隐藏状态进而初始计算各节点传入消息各边传入消息并进行迭代传递,利用循环神经网络更新隐藏状态并进行消息聚合得到各时刻i的传入消息直至达到设置的迭代次数,然后利用目标节点与关系边的最终状态生成能够反映图像中目标与目标间关系的场景图。2.根据权利要求1所述的一种基于全局上下文交互的场景图生成方法,其特征在于,利用神经网络将各目标的绝对位置坐标,转化为在图像中相对位置编码并扩充为相对位置特征s
i
,将目标视觉特征v
i
转为512维,采用特征融合方法,将相对位置特征向量s
i
和视觉特征v
i
进行拼接并转换,得到目标视觉与坐标特征的联合表示向量f
i
。3.根据权利要求2所述的一种基于全局上下文交互的场景图生成方法,其特征在于,基于特征融合的向量联合表示中,使用Faster

RCNN模型对输入图像I进行目标检测得到后,将目标的绝对位置坐标转化为在图像中相对位置编码b
i
,对于目标o
i
,其坐标(x1,y1,x2,y2),其中x1,y1,x2,y2分别代表其矩形回归框左上与右下坐标,相对位置编码计算公式:式中,wid代表图像I原有宽度,hei代表图像I原有高度;然后,使用全连接层将相对位置编码b
i
扩充为128维特征s
i
:s
i
=σ(W
s
b
i
+b
s
),其中,σ代表ReLU激活函数,W
s
与b
s
为线性变换参数,由神经网络自行学习调整;同时,采用相同方法将目标检测得到的目标视觉特征v
i
进行维度变换,使用全连接层将4096维特征转为512维;随后,将经过维度变换的相对位置特征向量s
i
和视觉特征v
i
进行拼接并转换,最终得到512维目标视觉与坐标特征融合向量f
i
,计算流程如下所示:f
i
=σ(W
f
[s
i
,v
i
]+b
f
),式中,[
·
]代表拼接操作,σ代表ReLU激活函数,W
f
与b
f
为线性变换参数。4.根据权利要求1所述的一种基于全局上下文交互的场景图生成方法,其特征在于,根据特征融合向量F=(f1,f2,

,f
n
),利用双向门控循环神经网络BiGRU得到全局上下文目标特征γ=(γ1,γ2,

,γ
n
);利用目标检测模块对目标的分类结果L=(l1,l2,

,l
n
),得到各目标的类别特征向量g
i
,使用神经网络将目标的全局上下文目标特征γ
i
与其类别特征向
量g
i
进行融合,得到此目标的全局特征c
i
。5.根据权利要求4所述的一种基于全局上下文交互的场景图生成方法,其特征在于,基于双向门控循环神经网络的全局特征生成过程中,得到目标集合的特征融合向量F=(f1,f2,

,f
n
)后,将其按照相对坐标中的x坐标由左向右进行排序,并按序输入双向门控循环神经网络BiGRU中实现全局上下文交互,得到全局上下文目标特征γ=(γ1,γ2,

,γ
n
);随后,利用目标检测对目标的分类结果L=(l1,l2,

,l
n
),计算分类标签的Glove词嵌入向量,得到128维的目标类别特征向量g
i
,最后,将每个目标的全局上下文目标特征γ
i
与其类别特征向量g
i
进行融合,得到此目标的全局...

【专利技术属性】
技术研发人员:罗敏楠杨名帆郑庆华董怡翔刘欢秦涛
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1