当前位置: 首页 > 专利查询>山西大学专利>正文

一种基于候选谓词关系偏差的无偏场景图生成方法技术

技术编号:38639583 阅读:14 留言:0更新日期:2023-08-31 18:33
本发明专利技术一种基于候选谓词关系偏差的无偏场景图生成方法属于计算机视觉理解领域,本发明专利技术利用候选谓词之间相似性的关系调节模型对于头部谓词和尾部谓词的平衡,使之可以在以往生成去偏场景图的基础上将语义相似的谓词进行区分,并取得了显著的效果,一方面控制了召回率没有出现很大的下降,另一方面有效的提升了平均召回率,使得场景图生成模型较之以往得到更加丰富、更加细粒度的语义信息,超越了当下一些主流的无偏场景图生成模型,在实际应用当中有着广泛的用途,在视觉问答、图片分割、图片检索等一系列下游任务当中可以充分发挥价值。值。值。

【技术实现步骤摘要】
一种基于候选谓词关系偏差的无偏场景图生成方法


[0001]本专利技术涉及计算机视觉理解领域,尤其提出一种基于候选谓词关系偏差(Candidate Predicate Relation Bias)的无偏场景图生成方法(Unbiased Scene Graph Generation)。

技术介绍

[0002]计算机视觉(CV)的最终目标是建立智能系统,它可以像人类一样从数字图像、视频或其他模式中提取有价值的信息。在过去的几十年里,机器学习(ML)对CV的进步做出了重大贡献。受人类能够毫不费力地解释和理解视觉场景的启发,视觉场景理解一直被提倡为CV的圣杯,并已经引起了研究界的广泛关注。
[0003]场景图生成(SGG)是一种计算机场景理解任务,旨在通过分析图像内容和场景中对象之间的关系,生成一个表示该场景的图形化结构。常用的场景图生成方法包括使用深度学习模型、图像分割技术、集成模型和基于知识的方法等。深度学习模型是一种基于神经网络的机器学习方法,它可以通过显式建模对象、对象属性和成对对象之间的关系来捕获详细的语义。这些模型通常包括一个对象检测模块和一个关系分类模块,用于从输入的图像中识别对象并确定它们之间的关系。图像分割是一种图像处理技术,可以将图像分成多个部分或区域。这些区域可以表示图像中的不同对象,然后可以使用这些对象和它们之间的关系来生成场景图。集成模型结合了多个场景图生成方法,可以提高生成场景图的准确性和鲁棒性。例如,可以将深度学习模型与图像分割技术相结合,以提高对象检测的准确性,并使用关系分类模块识别对象之间的关系。基于知识的方法使用人工定义的知识库来生成场景图。这些知识库包括图像中的对象及其属性,以及对象之间的关系。然后可以使用这些知识来生成场景图。这些方法可以将输入的图像分割成对象,并识别它们之间的关系,然后使用场景图生成模型将这些对象和关系转换成图形化结构。例如,一张图像内容是戴着头盔的人手里拿着手机在滑板上冲浪,场景图生成模型可以得到“人戴头盔”、“人在滑板上”、“人拿手机”等等。
[0004]无偏场景图生成(Unbiased SGG)也是一种场景图生成的方法,旨在通过处理偏斜的、长尾的谓词类分布,预测由更多“尾部谓词”组成的信息更丰富的场景图。在场景图生成中,往往会出现偏见,可能会反映其训练数据中存在的社会偏见和刻板印象,例如将女性标记为厨师,男性标记为工程师等。因此无偏场景图生成可以通过减少偏见信息来帮助场景图生成更好应用于现实。
[0005]无偏场景图生成在许多实际应用当中也有广泛的应用场景,例如图像描述、图像问答、视觉推理等。它可以帮助计算机更好地理解图像内容,从而更准确地回答问题,提高视觉推理能力,并为人们提供更好的图像搜索和识别服务。除此之外,还有助于新型智慧城市的建设,可以提升基础设施的检索效率和计算能力,例如在智慧交通中,无偏场景图生成可以通过城市的交通监控摄像头、传感器等数据源,生成城市的实时场景图,帮助交通管理部门更好地了解城市的交通情况,从而更好地进行交通管理和调度,提高交通效率和安全
性。例如,可以使用场景图生成技术来模拟城市的交通流量、拥堵情况、事故发生等信息,以便交通管理部门更好地了解城市的状况和问题。从而使人、车和路能够紧密的配合,改善交通运输环境来提高资源利用率。在智慧安防中,无偏场景图生成可以通过城市的安防监控摄像头、传感器等数据源,生成城市的实时场景图,帮助安防部门更好地了解城市的安全情况,从而更好地进行安全管理和预防,提高城市的安全性。例如,可以使用场景图生成技术来模拟城市的安全监控、警报响应等信息,以便安防部门更好地了解城市的状况和问题。在智慧教育当中帮助孩子理解图像中更加有用的可学习信息。而且相较于场景图生成,无偏场景图生成能够通过得到更加丰富的语义信息来使得用户在实践中的体验更好,而不仅仅局限于几个常见的谓词。
[0006]综上所述,无偏场景图生成非常具有研究意义和研究前景,候选关系谓词是本专利提出的除打分最高的关系类别外其余可能存在的关系类别,本专利通过使用候选关系谓词偏差来解决当下切实存在的问题来提升无偏场景图生成在各个重要指标上的效果,最终完成一个效率更高、语义更丰富的无偏场景图生成系统。目前关于无偏场景图生成的过程中仍然存在的问题包括有,一些模型仅仅通过重加权、重采样的方式拟合尾部谓词,以致于出现很多过拟合现象;模型无法有效的区分语义上不互斥的谓词,从而使得结果出现更多错误的、粗粒度的谓词,使得无偏场景图生成效果低。

技术实现思路

[0007]为克服上述技术中存在的问题,使得模型可以有效的区分语义相似的谓词,进而生成包含有更加丰富语义信息的关系谓词。本专利技术的目的是提出一种基于候选谓词关系偏差的无偏场景图生成方法。
[0008]本专利技术所采取的技术方案是:一种基于候选谓词关系偏差的无偏场景图生成方法,包括以下步骤:
[0009]步骤1,选取数据集中的图片进行预处理并将数据集划分;
[0010]步骤2,使用已经训练好的目标检测网络(Faster RCNN)从预处理之后的数据集图片中得到该图片的目标候选框(Object proposals)以及相关的特征。对于每一张图片中的任何一个候选框来说,使用目标检测器计算出它的视觉特征g
v
、边界框坐标b
v
、候选框对应的目标实体的分类分数z
v
,除此之外,还使用主干网络生成俩个目标候选框对应的实体s和o的联合特征C
v
代表目标实体所有可能的类别个数;
[0011]步骤3,构建目标候选框的空间特征,对于每一个候选框,使用步骤2中得到的边界框坐标b
v
计算候选框的空间特征pos(b
v
);
[0012]步骤4,构建目标候选框的语义特征,在步骤2中得到的候选框对应实体分类分数z
v
中选出最高得分对应的实体类别作为实体的标签c
v
,将c
v
加入词向量模型当中计算得到的结果edb(c
v
)作为语义特征,edb是一种用于获取词的向量表示的无监督学习模型GloVe;
[0013]步骤5,构建目标实体编码器得到目标实体的上下文特征表示以及实体类别,根据上述目标检测器所得的特征,将步骤2中得到的视觉特征g
v
和步骤3中得到的空间特征pos(b
v
)以及步骤4中得到的语义特征edb(c
v
)进行拼接操作,将得到的目标特征输入到n
o
目标编码器中获得最终的目标特征表示将输入目标分类器以及激活函数当中,输出
的结果为该目标候选框所属对象类别的预测分数p
v

[0014]步骤6,构建实体间关系编码器得到关系上下文的特征表示以及关系类别,对于一张图片中每一个有向对(s,o)来说,首先将步骤5中得到的实体s的最终特征表示和实体o的最终特征表示以及步骤2中得到的实体s和o的联合特征表示进行拼接得到初始的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于候选谓词关系偏差的无偏场景图生成方法,其特征在于,按照以下步骤:步骤1),选取数据集中的图片进行预处理并将数据集划分;步骤2),使用已经训练好的目标检测网络Faster RCNN从预处理之后的数据集图片中得到该图片的目标候选框Object proposals以及相关的特征,对于每一张图片中的任何一个候选框来说,使用目标检测器计算出它的视觉特征g
v
、边界框坐标b
v
、候选框对应的目标实体的分类分数z
v
,除此之外,还使用主干网络生成俩个目标候选框对应的实体s和o的联合特征C
v
代表目标实体所有可能的类别个数;步骤3),构建目标候选框的空间特征,对于每一个候选框,使用步骤2)中得到的边界框坐标b
v
计算候选框的空间特征pos(b
v
);步骤4),构建目标候选框的语义特征,在步骤2)中得到的候选框对应实体分类分数z
v
中选出最高得分对应的实体类别作为实体的标签c
v
,将c
v
加入词向量模型当中计算得到的结果edb(c
v
)作为语义特征,edb是一种用于获取词的向量表示的无监督学习模型GloVe;步骤5),构建目标实体编码器得到目标实体的上下文特征表示以及实体类别,根据上述目标检测器所得的特征,将步骤2)中得到的视觉特征g
v
和步骤3)中得到的空间特征pos(b
v
)以及步骤4)中得到的语义特征edb(c
v
)进行拼接操作,将得到的目标特征输入到n
o
目标编码器中获得最终的目标特征表示将输入目标分类器以及激活函数当中,输出的结果为该目标候选框所属对象类别的预测分数p
v
;步骤6),构建实体间关系编码器得到关系上下文的特征表示以及关系类别,对于一张图片中每一个有向对(s,o)来说,首先将步骤5)中得到的实体s的最终特征表示和实体o的最终特征表示以及步骤2)中得到的实体s和o的联合特征表示进行拼接得到初始的关系特征表示,再经过线性变化层对向量的维度进行变换,将变化之后的关系特征表示输入和步骤5)中n
o
目标编码器构造一样的n
r
关系编码器中,输出结果得到实体s和实体o的最终关系表示特征最后先将最终关系表示特征输入关系分类器中得到关系分类分数z
s,o
,将关系分类分数z
s,o
输入到激活函数当中最终得到俩个实体对象之间的关系预测分数p
s,o
;步骤7),构建候选谓词关系偏差,使用候选谓词关系偏差调节模型在不同实体关系下的强度,统计步骤6)中得到的关系分类分数z
s,o
中每对实体间关系分数最高的前m
r
名候选谓词出现的次数构建候选谓词矩阵m
s,o
,利用候选谓词矩阵m
s,o
计算生成候选谓词关系偏差b;步骤8),构建损失函数,用步骤6)中关系分类分数z
s,o
减去步骤7)中谓词关系偏差b后输入激活函数得到新的实体对象间关系预测分数再将步骤5)中得到的对象所属类别的预测分数p
v
和实体对象间关系预测分数分别和对应的标签向量一起输入交叉熵损失函数计算得到各自的损失值;步骤9),训练模型,根据步骤8)中计算得到的实体和关系对应的损失值,利用反向传播算法对步骤5)和步骤6)中构建的目标实体编码器和关系编码器的参数进行梯度回传,再进行不断优化,直至整个网络模型收敛;步骤10),实体和关系预测值计算,将每个候选框的分类分数向量进行排序,选择最高
分数对应的类别作为其预测类别;将候选框间关系的分类分数向量进行排序,选择最高分数对应的关系作为其关系类别。2.根据权利要求1所述的一种基于候选谓词关系偏差的无偏场景图生成方法,其特征在于:,步骤1)的具体实现如下:选取Visual Genome作为模型训练的数据集,共108K张图片,每张图片平均有35个目标实体,21对关系,使用最常见的150个目标类别和50个关系类别,首先去除一些质量低、参考性弱的数据集图片,将数据集中70%的图片应用于训练,其余30%的图片用于测试。3.根据权利要求1所述的一种基于候选谓词关系偏差的无偏场景图生成方法,其特征在于:步骤2)所述的从图片中提取目标候选框以及相关特征具体如下:利用已经训练好的目标检测网络中RPN部分的输出结果作为目标候选框以及候选框所对应的视觉特征g
v
、候选框对应的坐标b
v
、候选框对应的目标实体分类分数z
v
,并使用目标检测网络中的主干网络得到的结果作为实体对的联合特征4.根据权利要求1所述的一种基于候选谓词关系偏差的无偏场景图生成方法,其特征在于:步骤3)所述的构建目标候选框的空间特征具体如下:利用得到的边界框位置坐标b
v
为(x
min
,y
min
,x
max
,y
max
)去计算,其中(x
min
,y
min
)作为目标候选框的左上方对应的坐标,(x
max
,y
max
)作为目标候选框右下方对应的坐标,从而得到的目标候选框的空间特征如下:其中W、H表示对应图片的宽度和高度,w、h表示对应目标候选框的宽度和高度。5.根据权利要求1所述的一种基于候选谓词关系偏差的无偏场景图生成方法,其特征在于:步骤4)所述的构建构建候选框的语义特征具体如下:从得到的候选框对应的目标实体的分类分数中选择分数最高项对应的实体类别c
v
,将c
v

【专利技术属性】
技术研发人员:曹付元郝昊宇
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1