【技术实现步骤摘要】
本专利技术属于计算机视觉,具体涉及基于层级时空图网络的视频人-物交互检测方法。
技术介绍
1、人类与物体之间的交互关系在提供理解周围环境的重要线索方面发挥着关键作用,人-物交互检测(human-object interaction, hoi)作为人机协作和人类活动理解的关键基础任务,主要涉及物体操作的人类行为。因此,hoi检测的研究正受到越来越多的关注。
2、在近几年的相关研究中,hoi检测主要分为基于图像的方法和基于视频的方法。基于图像的方法只研究静态图像中的交互,限制了对动态人类动作的探索,且部分动态交互(例如关门、开门等)可能无法从静态图像中区分出来。为了解决这一问题,一些研究人员提出了基于视频的人-物交互检测方法,利用视频中的时空信息来帮助检测动态动作。
3、最初的基于视频的人-物交互检测方法依赖于卷积神经网络或递归神经网络来学习视频中的时空信息。然而,这些方法难以有效地提取视频帧内和帧间的人-物关系信息。为了解决这一限制,研究人员提出了基于时空图卷积网络的方法来学习时空信息。如sunkesula等人提出
...【技术保护点】
1.一种基于层级时空图网络的视频人-物交互检测方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的一种基于层级时空图网络的视频人-物交互检测方法,其特征在于,所述步骤1包括:使用目标检测器Fast R-CNN检测视频帧中的人和物体实例,通过多目标跟踪技术,将不同帧中的候选实例关联,每个候选实例都包括边界框和类别标签,根据检测到的边界框,从视频帧中提取人类视觉特征和物体视觉特征;根据人体骨架和物体的边界框提取几何特征。
3.根据权利要求1所述的一种基于层级时空图网络的视频人-物交互检测方法,其特征在于,所述步骤2包括:对于人类节点特
...【技术特征摘要】
1.一种基于层级时空图网络的视频人-物交互检测方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的一种基于层级时空图网络的视频人-物交互检测方法,其特征在于,所述步骤1包括:使用目标检测器fast r-cnn检测视频帧中的人和物体实例,通过多目标跟踪技术,将不同帧中的候选实例关联,每个候选实例都包括边界框和类别标签,根据检测到的边界框,从视频帧中提取人类视觉特征和物体视觉特征;根据人体骨架和物体的边界框提取几何特征。
3.根据权利要求1所述的一种基于层级时空图网络的视频人-物交互检测方法,其特征在于,所述步骤2包括:对于人类节点特征,当前帧中的其他人类节点通过以下方式向其传递信息:
4.根据权利要求1所述的一种基于层级时空图网络的视频人-物交互检测方法,其特征在于,所述步骤3包括:对于空间transformer编码器,首先在空间维度上连接输入的原始特征以获得空间tra...
【专利技术属性】
技术研发人员:张宇佳,吴君娴,潘毅,孙世颖,常慧,赵晓光,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。