【技术实现步骤摘要】
一种图像视觉关系检测方法、系统及终端
本专利技术涉及图像理解
,具体地说,涉及的是一种图像视觉关系检测方法、系统及终端。
技术介绍
随着人工智能及深度学习技术的发展,目前的深度学习模型已经在多个领域取得良好性能,例如图像检测和图像识别等。作为图像理解领域的一个分支,视觉关系检测存在着更大的挑战:不仅需要识别物体,而且需要理解图像中的深层语义信息。具体而言,视觉关系可以表示为三元组的形式<sub-pred-ob>,其中,sub、pred和ob分别表示主体、关系谓词和客体。在图像目标检测的基础上,视觉关系检测尝试识别物体对之间的交互关系。对于视觉关系检测任务的研究亦可为其他相关领域带来助益。一般而言,视觉关系检测方法可以分成两个阶段,包括物体对生成阶段和关系谓词识别阶段。每一阶段都存在着亟待解决的问题。在物体对生成阶段,目前的主流方法基本都遵循一种简单的机制:基于检测到的N个物体,两两组合产生N(N-1)个物体对。这使得方法的性能严重依赖保留的物体个数。为了能够覆盖更多可能性的关系对,大部分的方法都倾向于保留大量物体框。然而,这种机制会造成严重的计算资源浪费问题。因此,近年来一些优秀的方法在如何挑选物体对的方面做了一些工作,其中包括:2017年YikangLi等提出了tripletNMS算法,其中基于物体对中两物体分类概率的乘积来筛选物体对、2019年YibingZhan等提出了underminedrelationship的概念,其中将underminedconfidence引入到最终的 ...
【技术保护点】
1.一种图像视觉关系检测中物体对生成方法,其特征在于,包括:/n将原始图像进行目标检测,得到物体检测框;/n基于所述物体检测框提取物体视觉信息和所述物体检测框两两组合而成的物体对的相对位置编码,将所述物体视觉信息和所述物体对的相对位置编码进行基于位置嵌入的打分,得到所述物体对的打分值;/n将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对,筛选出最终的候选物体对。/n
【技术特征摘要】
1.一种图像视觉关系检测中物体对生成方法,其特征在于,包括:
将原始图像进行目标检测,得到物体检测框;
基于所述物体检测框提取物体视觉信息和所述物体检测框两两组合而成的物体对的相对位置编码,将所述物体视觉信息和所述物体对的相对位置编码进行基于位置嵌入的打分,得到所述物体对的打分值;
将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对,筛选出最终的候选物体对。
2.根据权利要求1所述的图像视觉关系检测中物体对生成方法,其特征在于,所述基于位置嵌入的打分,包括:
将目标检测网络得到的检测目标的物体视觉信息Rvis(sub)、Rvis(ob)和物体对相对位置编码信息Rloc(sub,ob)进行嵌入的打分,得到代表物体对的打分值s(sub,ob):
其中,表示前向传播网络,Θo为网络参数,hlrm为位置嵌入打分模块的中间过程输出值;sub,ob用于区分组成物体对的两个检测目标;Rlrm为Rvis(sub)、Rvis(ob)和Rloc(sub,ob)的拼接;
该位置嵌入打分模块的标签是根据原始图像数据集中的关系标注自动生成,给定任意检测物体对<bsub,bob>,计算其与已存在标注之间的重叠比率
其中,表示物体对<bsub,bob>与第m个关系对标注的重叠比率IoU;
根据每个物体对对应的的大小,高于阈值thresh_high的二值化标签l设为1,低于阈值hresh_low的二值化标签l设为0,处于之间的物体对在训练过程中舍弃;最终位置嵌入的打分的损失函数为:
其中:N为样本数量;ln为第n个样本的二值化标签;sn表示第n个样本的物体对的打分值s(sub,ob)。
3.根据权利要求2所述的图像视觉关系检测中物体对生成方法,其特征在于,将所述物体检测框和所述物体对的打分值通过极大值抑制去除冗余物体对,包括:
联合考虑所述物体对的打分值s(sub,ob)和目标检测网络得到的物体置信率pobn(sub)、pobn(ob),得到代表物体对<bsub,bob>存在潜在关系可能性大小的参数
根据参数对物体对进行排序,通过极大值抑制去除冗余物体对。
4.一种图像视觉关系检测中关系谓词识别方法,其特征在于,包括:
将物体对的共同区域、语义编码和相对位置编码进行多模态融合,得到关系谓词的初级分类概率;
将所述初级分类概率送入到基于标签关联的图模块,得到关系谓词的分类修正概率;
将所述初级分类概率和所述分类修正概率进行融合,得到关系谓词的最终分类概率,即关系谓词识别结果。
5.根据权利要求4所述的图像视觉关系检测中关系谓词识别方法,其特征在于,将物体对的共同区域、语义编码和相对位置编码进行多模态融合,包括:
将物体对共同区域特征R′vis(sub,ob)、物体对相对位置编码信息Rloc(sub,ob)以及物体对类别标签的语义编码Rlan(sub,ob)进行多模态融合,得到融合结果Rfusion,其中:
其中,⊙表示点乘操作;Θ1、Θ2和Θ3表示网络参数,在训练过程中自动习得;分别表示两层全连接网络;再经过线性操作以及softmax函数将Rfusion映射为关系谓词的初级分类概率pfusion。
6.根据权利要求4所述的图像视觉关系检测中关系谓词识别方法,其特征在于,将所述初级分类概率送入到基于标签关联的图模块,包括:
将初级分类概率pfusion送入基于标签关联的图模块中,该基于标签关联的图模块包括一个权重自适应的谓词图模型GGNN以及一个自动更新的相似矩阵G;
所述谓词图模型GGNN用于构建关系谓词类别之间关联性的图结构,图中的每个节点代表一类谓词,关联...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。