【技术实现步骤摘要】
一种基于重叠区域与几何中心的细粒度场景图生成方法
[0001]本专利技术涉及场景图生成
,尤其涉及一种基于重叠区域与几何中心的细粒度场景图生成方法。
技术介绍
[0002]反卷积:反卷积也称为转置卷积,但其并非卷积操作的反向操作。反卷积可以将小的特征图映射为一个大的特征图,得到了映射中相对位置关系的信息,解决之前一系列卷积操作之后特征图分辨率变小的问题。现阶段也广泛的应用于计算机视觉的各个领域,例如目标检测、图像分割、图像描述等。
[0003]视觉感受野:视觉感受野(vision receptive field)是生物学中的概念,指的是视网膜上一定的区域。当视网膜的一定区域受到刺激时,能激活视觉系统与这个区域有联系的各层神经细胞的活动,视网膜上的这个区域就是这些神经细胞的感受野。
[0004]空洞卷积:空洞卷积(Atrous Convolution)又称为扩张卷积(Dilation Convolution)。与正常的卷积不同的是,空洞卷积引入了一个称为“扩张率(dilation rate)”的超参数(h ...
【技术保护点】
【技术特征摘要】
1.一种基于重叠区域与几何中心的细粒度场景图生成方法,其特征在于,包括以下步骤:S1、获取用于训练和评估场景图生成模型的数据集;S2、将数据集划分为训练集和测试集;从训练集中采样指定数量的图像作为验证集;S3、利用训练集对场景图生成模型进行训练,得到训练后的场景图生成模型后,利用验证集对训练后的场景图生成模型进行验证,进一步调整场景图生成模型的参数,得到训练好的场景图生成模型;S4、将测试数据集输入场景图生成模型,得到场景图。2.根据权利要求1所述的一种基于重叠区域与几何中心的细粒度场景图生成方法,其特征在于,场景图生成模型利用对象标签和谓词标签的交叉熵损失进行训练。3.根据权利要求1所述的一种基于重叠区域与几何中心的细粒度场景图生成方法,其特征在于,场景图生成模型ORGC,包含三个分支,在第一个分支中输入图像,经过Faster R
‑
CNN得到候选框{B=b
i
|i=1,2,
…
,n},RoI特征{R=r
i
|i=1,2,
…
,n}和最初的对象标签{L=l
i
|i=1,2,
…
,n},然后编码每个对象的视觉内容,合并成一个融合表示,微调每个对象的标签l'
i
;在每个LSTM单元输入对象的视觉特征x
i
和最初的对象标签l
i
,获得一对对象标签的向量l
p
=(l'
i
,l'
j
)后,通过联合嵌入层进行计算;在第二个分支中,使用多分支特征组合模块和重叠区域Transformer模块来提取两个对象的细粒度重叠区域特征v'
overlap
;在第三个分支中,使用几何中心增强模块提取两个对象之间边界框的相对几何中心特征R'
p
;最后,融合函数利用从三个分支获取的输入特征预测最终的谓词Y:SUM:Y=W
x
x'
p
+l'
p
+W
o
v'
overlap
+R'
p
;其中,x'
p
是成对对象特征的融合表示,l'
i
是每个对象的标签,W
x
和W
o
是可训练的权重。4.根据权利要求3所述的一种基于重叠区域与几何中心的细粒度场景图生成方法,其特征在于,在第一个分支中,利用双向LSTM去编码每个对象的视觉内容:输入:{(b
i
,r
i
,l
i
)}
→
输出:{x
i
};成对的对象特征X取值于{x
p
=(x
i
,x
j
)|i≠j;i,j=1,2,
…
,n},合并成一个融合表示x'
p
:输入:{x
p
=(x
i
,x
j
)}
→
输出:{x'
p
};利用LSTM作为解码器,微调每个对象的标签l'
i
:输入:{(x
i
,l
i
)}
→
输出:{l'
i
};通过联合嵌入层进行计算为:其中,W
l
是可学习的权重,l'
i
和l
j
'是对象i和j微调后的标签,产生N路对象标签成对的唯一向量R
N
×
N
。5.根据权利要求3所述的一种基于重叠区域与几何中心的细粒度场景图生成方法,其特征在于,重叠区域计算为,当两候选框存在交集区域时,交集区域对应的框的坐标为:
x
overlap1
=max(head_proposal(x1),tail_proposal(x1));y
overlap1...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。