基于层级时空图网络的视频人-物交互检测方法技术

技术编号:43689898 阅读:28 留言:0更新日期:2024-12-18 21:08
本发明专利技术公开了基于层级时空图网络的视频人‑物交互检测方法,所述方法包括:从给定的视频中提取人和物体实例的特征,所述特征包括人类视觉特征、物体视觉特征及几何特征;设计时间增强递归图网络分支模块,获得每个人和物体实例的综合增强特征;设计并行Transformer编码器分支模块,获得人和物体实例的递归增强特征向量;融合每个人和物体实例的综合增强特征、人和物体实例的递归增强特征向量,获得预测的分割边界;根据分割边界和人和物体的时间增强特征学习段级特征,预测人和物体实例的交互动作。本发明专利技术在没有遮挡的单人操作物体、含有大量人和物体遮挡的多人操作、涉及双手操作物体的场景下均能提供有效检测结果。

【技术实现步骤摘要】

本专利技术属于计算机视觉,具体涉及基于层级时空图网络的视频人-物交互检测方法


技术介绍

1、人类与物体之间的交互关系在提供理解周围环境的重要线索方面发挥着关键作用,人-物交互检测(human-object interaction, hoi)作为人机协作和人类活动理解的关键基础任务,主要涉及物体操作的人类行为。因此,hoi检测的研究正受到越来越多的关注。

2、在近几年的相关研究中,hoi检测主要分为基于图像的方法和基于视频的方法。基于图像的方法只研究静态图像中的交互,限制了对动态人类动作的探索,且部分动态交互(例如关门、开门等)可能无法从静态图像中区分出来。为了解决这一问题,一些研究人员提出了基于视频的人-物交互检测方法,利用视频中的时空信息来帮助检测动态动作。

3、最初的基于视频的人-物交互检测方法依赖于卷积神经网络或递归神经网络来学习视频中的时空信息。然而,这些方法难以有效地提取视频帧内和帧间的人-物关系信息。为了解决这一限制,研究人员提出了基于时空图卷积网络的方法来学习时空信息。如sunkesula等人提出了一种利用图卷积和递本文档来自技高网...

【技术保护点】

1.一种基于层级时空图网络的视频人-物交互检测方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的一种基于层级时空图网络的视频人-物交互检测方法,其特征在于,所述步骤1包括:使用目标检测器Fast R-CNN检测视频帧中的人和物体实例,通过多目标跟踪技术,将不同帧中的候选实例关联,每个候选实例都包括边界框和类别标签,根据检测到的边界框,从视频帧中提取人类视觉特征和物体视觉特征;根据人体骨架和物体的边界框提取几何特征。

3.根据权利要求1所述的一种基于层级时空图网络的视频人-物交互检测方法,其特征在于,所述步骤2包括:对于人类节点特征,当前帧中的其他人...

【技术特征摘要】

1.一种基于层级时空图网络的视频人-物交互检测方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的一种基于层级时空图网络的视频人-物交互检测方法,其特征在于,所述步骤1包括:使用目标检测器fast r-cnn检测视频帧中的人和物体实例,通过多目标跟踪技术,将不同帧中的候选实例关联,每个候选实例都包括边界框和类别标签,根据检测到的边界框,从视频帧中提取人类视觉特征和物体视觉特征;根据人体骨架和物体的边界框提取几何特征。

3.根据权利要求1所述的一种基于层级时空图网络的视频人-物交互检测方法,其特征在于,所述步骤2包括:对于人类节点特征,当前帧中的其他人类节点通过以下方式向其传递信息:

4.根据权利要求1所述的一种基于层级时空图网络的视频人-物交互检测方法,其特征在于,所述步骤3包括:对于空间transformer编码器,首先在空间维度上连接输入的原始特征以获得空间tra...

【专利技术属性】
技术研发人员:张宇佳吴君娴潘毅孙世颖常慧赵晓光
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1