【技术实现步骤摘要】
本专利技术涉及计算机视觉、人-物交互检测的,尤其涉及一种基于可供性-场景知识提示的人-物交互检测方法,以及一种基于可供性-场景知识提示的人-物交互检测装置。
技术介绍
1、人-物交互(human-object interaction,hoi)检测需要定位和识别图像中人与物体对之间的交互。hoi通常被定义为<human,action,object>三元组,其中人与对象的表示用带标签的边界框来描述,人的动作被定义为与对象的交互。hoi检测解决了以人为中心的与对象的交互问题,它有助于许多下游任务,如人类活动理解,人机交互和视觉知识问答。
2、得益于深度cnn强大的特征表示能力,近年来hoi检测方法都是基于深度学习设计的。这些方法通常分为两种类型,即两阶段和一阶段。两阶段方法的第一阶段涉及利用预训练的对象检测器来定位图像中的人和物体,而第二阶段侧重于预测每个给定的人-物体对之间的相互作用。与两阶段方法相比,一阶段方法通常采用鲁棒的表示学习模型,该模型可以并行执行人和物体检测以及交互预测。最近,transformer模型在
...【技术保护点】
1.基于可供性-场景知识提示的人-物交互检测方法,其特征在于:该方法包括以下步骤:
2.根据权利要求1所述的基于可供性-场景知识提示的人-物交互检测方法,其特征在于:所述步骤(1)中,在构造三元组<object,has,
3.根据权利要求2所述的基于可供性-场景知识提示的人-物交互检测方法,其特征在于:所述步骤(1)中,可供性-场景知识图谱包括:365个场景类别,102种场景属性,80个对象类别,117个功能类别,总共有17806条知识。
4.根据权利要求3所述的基于可供性-场景知识提示的人-物交互检测方法,其特征在于:所述步
...【技术特征摘要】
1.基于可供性-场景知识提示的人-物交互检测方法,其特征在于:该方法包括以下步骤:
2.根据权利要求1所述的基于可供性-场景知识提示的人-物交互检测方法,其特征在于:所述步骤(1)中,在构造三元组<object,has,
3.根据权利要求2所述的基于可供性-场景知识提示的人-物交互检测方法,其特征在于:所述步骤(1)中,可供性-场景知识图谱包括:365个场景类别,102种场景属性,80个对象类别,117个功能类别,总共有17806条知识。
4.根据权利要求3所述的基于可供性-场景知识提示的人-物交互检测方法,其特征在于:所述步骤(2)中,在训练阶段包括以下分步骤:
5.根据权利要求4所述的基于可供性-场景知识提示的人-物交互检测方法,其特征在于:所述步骤(2.1)中,可供性知识对应于图像的实例域信息,可供性-场景知识对应于图像的全局场景域信息,使用图像字幕作为输入图像的全局知识,将hoi三元组标签和对...
【专利技术属性】
技术研发人员:孔德慧,陈东攀,李敬华,高俊娜,李倩星,尹宝才,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。