一种图像视觉关系检测方法、系统及终端技术方案

技术编号:25523121 阅读:41 留言:0更新日期:2020-09-04 17:13
本发明专利技术公开了一种图像视觉关系检测方法、系统及终端,其中在物体对生成阶段:将原始图像进行目标检测,得到物体检测框;将物体视觉信息和物体对的相对位置编码进行基于位置嵌入的打分;将物体检测框和物体对的打分值通过极大值抑制去除冗余物体对,筛选出最终的候选物体对;在关系谓词识别阶段:将物体对的共同区域、语义编码和相对位置编码进行多模态融合,得到关系谓词的初级分类概率;将初级分类概率送入到基于标签关联的图模块,得到关系谓词的分类修正概率;将初级分类概率和分类修正概率进行融合,得到关系谓词的最终分类概率。本发明专利技术可以有效去除冗余的物体对,提高多个语义相似谓词的置信率,从而提高在Top‑N指标上的召回率。

【技术实现步骤摘要】
一种图像视觉关系检测方法、系统及终端
本专利技术涉及图像理解
,具体地说,涉及的是一种图像视觉关系检测方法、系统及终端。
技术介绍
随着人工智能及深度学习技术的发展,目前的深度学习模型已经在多个领域取得良好性能,例如图像检测和图像识别等。作为图像理解领域的一个分支,视觉关系检测存在着更大的挑战:不仅需要识别物体,而且需要理解图像中的深层语义信息。具体而言,视觉关系可以表示为三元组的形式<sub-pred-ob>,其中,sub、pred和ob分别表示主体、关系谓词和客体。在图像目标检测的基础上,视觉关系检测尝试识别物体对之间的交互关系。对于视觉关系检测任务的研究亦可为其他相关领域带来助益。一般而言,视觉关系检测方法可以分成两个阶段,包括物体对生成阶段和关系谓词识别阶段。每一阶段都存在着亟待解决的问题。在物体对生成阶段,目前的主流方法基本都遵循一种简单的机制:基于检测到的N个物体,两两组合产生N(N-1)个物体对。这使得方法的性能严重依赖保留的物体个数。为了能够覆盖更多可能性的关系对,大部分的方法都倾向于保留大量物体框。然而,这种机制会造成严重的计算资源浪费问题。因此,近年来一些优秀的方法在如何挑选物体对的方面做了一些工作,其中包括:2017年YikangLi等提出了tripletNMS算法,其中基于物体对中两物体分类概率的乘积来筛选物体对、2019年YibingZhan等提出了underminedrelationship的概念,其中将underminedconfidence引入到最终的预测得分上,从而产生对于物体对的排序效果。这些工作虽然取得了一定的效果,但是仍然没有很好的解决筛选物体对的问题。TripletNMS仅考虑了物体分类的置信率,忽略了物体对存在关系可能性的大小亦依赖于潜在的相对位置关联性;underminedconfidence仅是在预测层面对物体对排序,并没有直接解决物体对冗余的问题,还是会存在计算资源浪费的问题,对于视觉关系检测的结果存在影响。在关系谓词识别阶段,近年来有着很多优秀的研究工作,例如2016年CewuLu等在视觉特征的基础上引入语言先验,从而使得模型预测概率与人类的感知保持一致。除此之外,2017年HanwangZhang等提出VtransE(visualtranslationembedding)方法、2017年RuichiYu等提出LKD(linguisticknowledgedistillation)方法以及2017年BohanZhuang等提出TCIR(towardscontest-awareinteractionrecognition)方法。其分别验证了文本信息和位置信息对于关系谓词识别的重要性,然而对于关系谓词识别阶段标签的语义重叠问题则很少有深入研究。具体而言,关系谓词的标签具有模糊特性,对于特定的物体对,存在着多个合理的关系谓词类别,称之为存在一个合理类别集,该集合内的标签互相有着潜在的语义关联性,
技术实现思路
针对现有技术中基于深度模型的视觉关系检测方法存在的上述不足,本专利技术的目的是提出一种图像视觉关系检测方法、系统及终端,分别在物体对生成阶段挖掘位置关联性,在关系谓词识别阶段挖掘语义关联性,可以有效去除冗余的物体对,提高多个语义相似谓词的置信率,一方面减少计算量,一方面提高在Top-N指标上的召回率。根据本专利技术的第一方面,提供一种图像视觉关系检测中物体对生成方法,包括:将原始图像进行目标检测,得到物体检测框;基于所述物体检测框提取物体视觉信息和所述物体检测框两两组合而成的物体对的相对位置编码,将所述物体视觉信息和所述物体对的相对位置编码进行基于位置嵌入的打分,得到所述物体对的打分值;将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对,筛选出最终的候选物体对。可选地,所述基于位置嵌入的打分,包括:将目标检测网络得到的检测目标的物体视觉信息Rvis(sub)、Rvis(ob)和物体对相对位置编码信息Rloc(sub,ob)进行嵌入的打分,得到代表物体对的打分值s(sub,ob):其中,表示前向传播网络,Θo为网络参数,hlrm为位置嵌入打分模块的中间过程输出值;sub,ob用于区分组成物体对的两个检测目标;Rlrm为Rvis(sub)、Rvis(ob)和Rloc(sub,ob)的拼接。进一步的,该位置嵌入打分模块的标签是根据原始图像数据集中的关系标注自动生成,给定任意检测物体对<bsub,bob>,计算其与已存在标注之间的重叠比率其中,表示物体对<bsub,bob>与第m个关系对标注的重叠比率IoU。进一步的,根据每个物体对对应的的大小,高于阈值thresh_high的二值化标签l设为1,低于阈值hresh_low的二值化标签l设为0,处于之间的物体对在训练过程中舍弃;最终位置嵌入的打分的损失函数为:其中:N为样本数量;ln为第n个样本的二值化标签;sn表示第n个样本的物体对的打分值s(sub,ob)。可选地,将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对,包括:联合考虑所述物体对的打分值s(sub,ob)和目标检测网络得到的物体置信率pobn(sub)、pobn(ob),得到代表物体对<bsub,bob>存在潜在关系可能性大小的参数根据参数对物体对进行排序,通过极大值抑制去除冗余物体对。根据本专利技术的第二方面,提供一种图像视觉关系检测中关系谓词识别方法,包括:将物体对的共同区域、语义编码和相对位置编码进行多模态融合,得到关系谓词的初级分类概率;将所述初级分类概率送入到基于标签关联的图模块,得到关系谓词的分类修正概率;将所述初级分类概率和所述分类修正概率进行融合,得到关系谓词的最终分类概率,即关系谓词识别结果。可选地,将物体对的共同区域、语义编码和相对位置编码进行多模态融合,包括:将物体对共同区域特征R′vis(sub,ob)、物体对相对位置编码信息Rloc(sub,ob)以及物体对类别标签的语义编码Rlan(sub,ob)进行多模态融合,得到融合结果Rfusion,其中:其中,⊙表示点乘操作;Θ1、Θ2和Θ3表示网络参数,在训练过程中自动习得;分别表示两层全连接网络;再经过线性操作以及softmax函数将Rfusion映射为关系谓词的初级分类概率pfusion。可选地,将所述初级分类概率送入到基于标签关联的图模块,包括:将初级分类概率pfusion送入基于标签关联的图模块中,该基于标签关联的图模块包括一个权重自适应的谓词图模型GGNN以及一个自动更新的相似矩阵G。具体的,所述谓词图模型GGNN用于构建关系谓词类别之间关联性的图结构,图中的每个节点代表一类谓词,关联性用连接矩阵A表示,A是自适应的,在训练过程中自动习得;在初本文档来自技高网
...

【技术保护点】
1.一种图像视觉关系检测中物体对生成方法,其特征在于,包括:/n将原始图像进行目标检测,得到物体检测框;/n基于所述物体检测框提取物体视觉信息和所述物体检测框两两组合而成的物体对的相对位置编码,将所述物体视觉信息和所述物体对的相对位置编码进行基于位置嵌入的打分,得到所述物体对的打分值;/n将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对,筛选出最终的候选物体对。/n

【技术特征摘要】
1.一种图像视觉关系检测中物体对生成方法,其特征在于,包括:
将原始图像进行目标检测,得到物体检测框;
基于所述物体检测框提取物体视觉信息和所述物体检测框两两组合而成的物体对的相对位置编码,将所述物体视觉信息和所述物体对的相对位置编码进行基于位置嵌入的打分,得到所述物体对的打分值;
将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对,筛选出最终的候选物体对。


2.根据权利要求1所述的图像视觉关系检测中物体对生成方法,其特征在于,所述基于位置嵌入的打分,包括:
将目标检测网络得到的检测目标的物体视觉信息Rvis(sub)、Rvis(ob)和物体对相对位置编码信息Rloc(sub,ob)进行嵌入的打分,得到代表物体对的打分值s(sub,ob):






其中,表示前向传播网络,Θo为网络参数,hlrm为位置嵌入打分模块的中间过程输出值;sub,ob用于区分组成物体对的两个检测目标;Rlrm为Rvis(sub)、Rvis(ob)和Rloc(sub,ob)的拼接;
该位置嵌入打分模块的标签是根据原始图像数据集中的关系标注自动生成,给定任意检测物体对<bsub,bob>,计算其与已存在标注之间的重叠比率






其中,表示物体对<bsub,bob>与第m个关系对标注的重叠比率IoU;
根据每个物体对对应的的大小,高于阈值thresh_high的二值化标签l设为1,低于阈值hresh_low的二值化标签l设为0,处于之间的物体对在训练过程中舍弃;最终位置嵌入的打分的损失函数为:



其中:N为样本数量;ln为第n个样本的二值化标签;sn表示第n个样本的物体对的打分值s(sub,ob)。


3.根据权利要求2所述的图像视觉关系检测中物体对生成方法,其特征在于,将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对,包括:
联合考虑所述物体对的打分值s(sub,ob)和目标检测网络得到的物体置信率pobn(sub)、pobn(ob),得到代表物体对<bsub,bob>存在潜在关系可能性大小的参数



根据参数对物体对进行排序,通过极大值抑制去除冗余物体对。


4.一种图像视觉关系检测中关系谓词识别方法,其特征在于,包括:
将物体对的共同区域、语义编码和相对位置编码进行多模态融合,得到关系谓词的初级分类概率;
将所述初级分类概率送入到基于标签关联的图模块,得到关系谓词的分类修正概率;
将所述初级分类概率和所述分类修正概率进行融合,得到关系谓词的最终分类概率,即关系谓词识别结果。


5.根据权利要求4所述的图像视觉关系检测中关系谓词识别方法,其特征在于,将物体对的共同区域、语义编码和相对位置编码进行多模态融合,包括:
将物体对共同区域特征R′vis(sub,ob)、物体对相对位置编码信息Rloc(sub,ob)以及物体对类别标签的语义编码Rlan(sub,ob)进行多模态融合,得到融合结果Rfusion,其中:



其中,⊙表示点乘操作;Θ1、Θ2和Θ3表示网络参数,在训练过程中自动习得;分别表示两层全连接网络;再经过线性操作以及softmax函数将Rfusion映射为关系谓词的初级分类概率pfusion。


6.根据权利要求4所述的图像视觉关系检测中关系谓词识别方法,其特征在于,将所述初级分类概率送入到基于标签关联的图模块,包括:
将初级分类概率pfusion送入基于标签关联的图模块中,该基于标签关联的图模块包括一个权重自适应的谓词图模型GGNN以及一个自动更新的相似矩阵G;
所述谓词图模型GGNN用于构建关系谓词类别之间关联性的图结构,图中的每个节点代表一类谓词,关联...

【专利技术属性】
技术研发人员:张重阳周昊
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1