【技术实现步骤摘要】
一种基于候选谓词关系偏差的无偏场景图生成方法
[0001]本专利技术涉及计算机视觉理解领域,尤其提出一种基于候选谓词关系偏差(Candidate Predicate Relation Bias)的无偏场景图生成方法(Unbiased Scene Graph Generation)。
技术介绍
[0002]计算机视觉(CV)的最终目标是建立智能系统,它可以像人类一样从数字图像、视频或其他模式中提取有价值的信息。在过去的几十年里,机器学习(ML)对CV的进步做出了重大贡献。受人类能够毫不费力地解释和理解视觉场景的启发,视觉场景理解一直被提倡为CV的圣杯,并已经引起了研究界的广泛关注。
[0003]场景图生成(SGG)是一种计算机场景理解任务,旨在通过分析图像内容和场景中对象之间的关系,生成一个表示该场景的图形化结构。常用的场景图生成方法包括使用深度学习模型、图像分割技术、集成模型和基于知识的方法等。深度学习模型是一种基于神经网络的机器学习方法,它可以通过显式建模对象、对象属性和成对对象之间的关系来捕获详细的语义。这些模型通常包括一个对象检测模块和一个关系分类模块,用于从输入的图像中识别对象并确定它们之间的关系。图像分割是一种图像处理技术,可以将图像分成多个部分或区域。这些区域可以表示图像中的不同对象,然后可以使用这些对象和它们之间的关系来生成场景图。集成模型结合了多个场景图生成方法,可以提高生成场景图的准确性和鲁棒性。例如,可以将深度学习模型与图像分割技术相结合,以提高对象检测的准确性,并使用关系分类模块识别对象 ...
【技术保护点】
【技术特征摘要】
1.一种基于候选谓词关系偏差的无偏场景图生成方法,其特征在于,按照以下步骤:步骤1),选取数据集中的图片进行预处理并将数据集划分;步骤2),使用已经训练好的目标检测网络Faster RCNN从预处理之后的数据集图片中得到该图片的目标候选框Object proposals以及相关的特征,对于每一张图片中的任何一个候选框来说,使用目标检测器计算出它的视觉特征g
v
、边界框坐标b
v
、候选框对应的目标实体的分类分数z
v
,除此之外,还使用主干网络生成俩个目标候选框对应的实体s和o的联合特征C
v
代表目标实体所有可能的类别个数;步骤3),构建目标候选框的空间特征,对于每一个候选框,使用步骤2)中得到的边界框坐标b
v
计算候选框的空间特征pos(b
v
);步骤4),构建目标候选框的语义特征,在步骤2)中得到的候选框对应实体分类分数z
v
中选出最高得分对应的实体类别作为实体的标签c
v
,将c
v
加入词向量模型当中计算得到的结果edb(c
v
)作为语义特征,edb是一种用于获取词的向量表示的无监督学习模型GloVe;步骤5),构建目标实体编码器得到目标实体的上下文特征表示以及实体类别,根据上述目标检测器所得的特征,将步骤2)中得到的视觉特征g
v
和步骤3)中得到的空间特征pos(b
v
)以及步骤4)中得到的语义特征edb(c
v
)进行拼接操作,将得到的目标特征输入到n
o
目标编码器中获得最终的目标特征表示将输入目标分类器以及激活函数当中,输出的结果为该目标候选框所属对象类别的预测分数p
v
;步骤6),构建实体间关系编码器得到关系上下文的特征表示以及关系类别,对于一张图片中每一个有向对(s,o)来说,首先将步骤5)中得到的实体s的最终特征表示和实体o的最终特征表示以及步骤2)中得到的实体s和o的联合特征表示进行拼接得到初始的关系特征表示,再经过线性变化层对向量的维度进行变换,将变化之后的关系特征表示输入和步骤5)中n
o
目标编码器构造一样的n
r
关系编码器中,输出结果得到实体s和实体o的最终关系表示特征最后先将最终关系表示特征输入关系分类器中得到关系分类分数z
s,o
,将关系分类分数z
s,o
输入到激活函数当中最终得到俩个实体对象之间的关系预测分数p
s,o
;步骤7),构建候选谓词关系偏差,使用候选谓词关系偏差调节模型在不同实体关系下的强度,统计步骤6)中得到的关系分类分数z
s,o
中每对实体间关系分数最高的前m
r
名候选谓词出现的次数构建候选谓词矩阵m
s,o
,利用候选谓词矩阵m
s,o
计算生成候选谓词关系偏差b;步骤8),构建损失函数,用步骤6)中关系分类分数z
s,o
减去步骤7)中谓词关系偏差b后输入激活函数得到新的实体对象间关系预测分数再将步骤5)中得到的对象所属类别的预测分数p
v
和实体对象间关系预测分数分别和对应的标签向量一起输入交叉熵损失函数计算得到各自的损失值;步骤9),训练模型,根据步骤8)中计算得到的实体和关系对应的损失值,利用反向传播算法对步骤5)和步骤6)中构建的目标实体编码器和关系编码器的参数进行梯度回传,再进行不断优化,直至整个网络模型收敛;步骤10),实体和关系预测值计算,将每个候选框的分类分数向量进行排序,选择最高
分数对应的类别作为其预测类别;将候选框间关系的分类分数向量进行排序,选择最高分数对应的关系作为其关系类别。2.根据权利要求1所述的一种基于候选谓词关系偏差的无偏场景图生成方法,其特征在于:,步骤1)的具体实现如下:选取Visual Genome作为模型训练的数据集,共108K张图片,每张图片平均有35个目标实体,21对关系,使用最常见的150个目标类别和50个关系类别,首先去除一些质量低、参考性弱的数据集图片,将数据集中70%的图片应用于训练,其余30%的图片用于测试。3.根据权利要求1所述的一种基于候选谓词关系偏差的无偏场景图生成方法,其特征在于:步骤2)所述的从图片中提取目标候选框以及相关特征具体如下:利用已经训练好的目标检测网络中RPN部分的输出结果作为目标候选框以及候选框所对应的视觉特征g
v
、候选框对应的坐标b
v
、候选框对应的目标实体分类分数z
v
,并使用目标检测网络中的主干网络得到的结果作为实体对的联合特征4.根据权利要求1所述的一种基于候选谓词关系偏差的无偏场景图生成方法,其特征在于:步骤3)所述的构建目标候选框的空间特征具体如下:利用得到的边界框位置坐标b
v
为(x
min
,y
min
,x
max
,y
max
)去计算,其中(x
min
,y
min
)作为目标候选框的左上方对应的坐标,(x
max
,y
max
)作为目标候选框右下方对应的坐标,从而得到的目标候选框的空间特征如下:其中W、H表示对应图片的宽度和高度,w、h表示对应目标候选框的宽度和高度。5.根据权利要求1所述的一种基于候选谓词关系偏差的无偏场景图生成方法,其特征在于:步骤4)所述的构建构建候选框的语义特征具体如下:从得到的候选框对应的目标实体的分类分数中选择分数最高项对应的实体类别c
v
,将c
v
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。