【技术实现步骤摘要】
一种基于关系标签层次结构的视觉关系检测方法
[0001]本专利技术属于计算机视觉领域,具体涉及一种基于关系标签层次结构的视觉关系检测方法。
技术介绍
[0002]视觉关系检测在图像理解中起着重要的作用,如图像描述、视觉问答等。其具体任务是给定一副图像,检测并定位出图像中的对象,同时预测出对象之间的关系,通常采用主体
‑
关系
‑
客体三元组表示,比如“person
‑
walk on
‑
street”。
[0003]目前,视觉关系检测任务经典模型均采用对象
‑
关系检测框架,对象检测模块检测并定位图像中的对象,关系检测模块提取对象的视觉特征、标签特征和位置特征,通过融合三种模态的特征来预测对象对之间的关系。现有的方法均在对象
‑
关系检测框架的基础上进行一定的研究,虽然在视觉关系检测上取得了一定的成功,但由于关系样本长尾分布的影响,对少样本的关系检测结果并不理想。为了解决关系样本长尾分布带来的问题,一些研究提出利用关系的 ...
【技术保护点】
【技术特征摘要】
1.一种基于关系标签层次结构的视觉关系检测方法,其特征在于,包括以下步骤,步骤1,获得关系样例概率分布;步骤2,子层次结构构建;步骤3,子层次结构聚合;步骤4,构建基于关系标签层次结构的损失函数;步骤5,获取视觉特征;步骤6,获取相对位置特征;步骤7,获取语言特征;步骤8,特征融合进行关系预测。2.根据权利要求1所述的一种基于关系标签层次结构的视觉关系检测方法,其特征在于,所述步骤1中获得关系样例概率分布具体为:对于所有的关系类c
i
的样本,利用视觉关系检测模型本身具有的偏见性,计算出每个关系类c
i
所有关系样本关系预测后的标签概率分布为:其中,n
i
表示关系类c
i
的样本个数,m
k
表示关系类c
i
的样本预测为第k个关系的个数。3.根据权利要求1所述的一种基于关系标签层次结构的视觉关系检测方法,其特征在于,所述步骤2中子层次结构构建的过程是将关系区分为粗粒度关系和细粒度关系。4.根据权利要求1所述的一种基于关系标签层次结构的视觉关系检测方法,其特征在于,所述步骤3中子层次结构聚合具体为:每层将关系归纳为比下一层中的关系更粗的关系,其中虚拟节点不代表任何一个关系标签,只是一个模糊的概念。5.根据权利要求1所述的一种基于关系标签层次结构的视觉关系检测方法,其特征在于,所述步骤4中关系标签层次结构的损失函数公式为:L=λLP+CB
sigmoid
其中,λ是平衡权重,LP表示基于标签路径的损失,CB
sigmoid
表示类平衡sigmoid损失;对于基于标签路径的损失,标签层次结构中用正确路径L
path
跟踪从虚拟根结点到关系结点的路径,标签结构的正确路径表示对于一个训练样例在标签层次结构中正确的分类路径,对于给定带有一个正确路径L
path
的样例,计算标签层次结构各层交叉熵损失以及正确样例的路径损失,得到基于标签路径的损失(LP)公式为:其中,B(i)表示结点i的兄弟结点,路径概率正确标签D
label
,每个结点的概率公式为:其中,对于给定关系类r的样本,带有偏见性的视觉关系检测模型预测的概率为p
r
,L(i)
表示结点i的所有叶子结点,leaf(i)=T表示结点i为叶子结点,dlass(i)=r表示结点i为关系类r,leaf(i)=F表示结点i不是叶子结点;对于每一个节点i的孩子节点j∈C(i)的概率计算公式为:P(j|i)=Soft max(Z
i
)[j];一个叶子结点表示一个关系类r,从根节点到类r叶子结点的路径为L
path
,已知节点i属于路径L
path
,遍历下一个节点C...
【专利技术属性】
技术研发人员:王元龙,雷鸣,王智强,胡文博,刘晓敏,
申请(专利权)人:山西大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。