基于可供性-场景知识提示的人-物交互检测方法及装置制造方法及图纸

技术编号:42385846 阅读:15 留言:0更新日期:2024-08-16 16:13
本发明专利技术公开一种基于可供性‑场景知识提示的人‑物交互检测方法及装置,能够提高在现实场景中的识别能力,预测更准确的HOI检测结果。方法包括:(1)构建可供性‑场景知识图谱ASKG;(2)搭建人‑物交互检测模型:在训练阶段,输入为一张RGB图像,第一阶段检测人和物体,识别场景类别和编码原始特征;第二阶段,先验知识嵌入模块编码特定的知识嵌入,实例域适应性融合模块编码实例特征与知识嵌入得到实例感知特征,场景域适应性融合模块编码场景特征与知识嵌入得到场景感知特征,最后经过HOI识别模块输出结果;(3)执行图像的人‑物交互检测。

【技术实现步骤摘要】

本专利技术涉及计算机视觉、人-物交互检测的,尤其涉及一种基于可供性-场景知识提示的人-物交互检测方法,以及一种基于可供性-场景知识提示的人-物交互检测装置。


技术介绍

1、人-物交互(human-object interaction,hoi)检测需要定位和识别图像中人与物体对之间的交互。hoi通常被定义为<human,action,object>三元组,其中人与对象的表示用带标签的边界框来描述,人的动作被定义为与对象的交互。hoi检测解决了以人为中心的与对象的交互问题,它有助于许多下游任务,如人类活动理解,人机交互和视觉知识问答。

2、得益于深度cnn强大的特征表示能力,近年来hoi检测方法都是基于深度学习设计的。这些方法通常分为两种类型,即两阶段和一阶段。两阶段方法的第一阶段涉及利用预训练的对象检测器来定位图像中的人和物体,而第二阶段侧重于预测每个给定的人-物体对之间的相互作用。与两阶段方法相比,一阶段方法通常采用鲁棒的表示学习模型,该模型可以并行执行人和物体检测以及交互预测。最近,transformer模型在许多视觉任务中表现出本文档来自技高网...

【技术保护点】

1.基于可供性-场景知识提示的人-物交互检测方法,其特征在于:该方法包括以下步骤:

2.根据权利要求1所述的基于可供性-场景知识提示的人-物交互检测方法,其特征在于:所述步骤(1)中,在构造三元组<object,has,

3.根据权利要求2所述的基于可供性-场景知识提示的人-物交互检测方法,其特征在于:所述步骤(1)中,可供性-场景知识图谱包括:365个场景类别,102种场景属性,80个对象类别,117个功能类别,总共有17806条知识。

4.根据权利要求3所述的基于可供性-场景知识提示的人-物交互检测方法,其特征在于:所述步骤(2)中,在训练阶...

【技术特征摘要】

1.基于可供性-场景知识提示的人-物交互检测方法,其特征在于:该方法包括以下步骤:

2.根据权利要求1所述的基于可供性-场景知识提示的人-物交互检测方法,其特征在于:所述步骤(1)中,在构造三元组<object,has,

3.根据权利要求2所述的基于可供性-场景知识提示的人-物交互检测方法,其特征在于:所述步骤(1)中,可供性-场景知识图谱包括:365个场景类别,102种场景属性,80个对象类别,117个功能类别,总共有17806条知识。

4.根据权利要求3所述的基于可供性-场景知识提示的人-物交互检测方法,其特征在于:所述步骤(2)中,在训练阶段包括以下分步骤:

5.根据权利要求4所述的基于可供性-场景知识提示的人-物交互检测方法,其特征在于:所述步骤(2.1)中,可供性知识对应于图像的实例域信息,可供性-场景知识对应于图像的全局场景域信息,使用图像字幕作为输入图像的全局知识,将hoi三元组标签和对...

【专利技术属性】
技术研发人员:孔德慧陈东攀李敬华高俊娜李倩星尹宝才
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1