当前位置: 首页 > 专利查询>山东大学专利>正文

组合性动作识别方法及系统技术方案

技术编号:32665389 阅读:28 留言:0更新日期:2022-03-17 11:17
本发明专利技术提供一种组合性动作识别方法及系统,属于计算机视觉技术领域,获取待识别的视频中包含的物体的几何位置信息;基于几何位置坐标获取各个物体的多模态特征;其中,多模态特征包括几何表征特征、视觉表征特征和运动流特征;根据所述多模态特征,得到表征各个物体间交互关系的特征向量;基于表征各个物体间交互关系的特征向量,进行动作分类,得到最终的组合性动作识别结果。本发明专利技术通过基于自注意力机制的Transformer模块,推断视频序列中不同物体在时域和空域上的交互关系,弱化了RGB视觉表征信息,引入光流数据,增强了模型提取时序特征的能力,融合多种数据模态提取的特征,弥补了不同数据模态之间的缺陷,有效提高了组合性动作识别的准确率和泛化性。合性动作识别的准确率和泛化性。合性动作识别的准确率和泛化性。

【技术实现步骤摘要】
组合性动作识别方法及系统


[0001]本专利技术涉及计算机视觉
,具体涉及一种基于自注意力机制推理目标关系的组合性动作识别方法及系统。

技术介绍

[0002]当在某些第一人称视角的视频中,采集了“将某物从某物中取出”这种动作时,例如将扳手从筐子中取出,对于人类大脑来说可以很容易地准确地识别出来,即使将交互的物体更换,比如变化为“将盒子从篮子中取出”,人类大脑依旧能够准确地进行识别。人类大脑主要是通过推断不同物体之间的相对位置在空间和时间上的变化情况,判断逻辑关系从而进行识别。
[0003]为了探究上述交互物体随机变化的情况,Joanna Materzynska等人在CVPR2020会议发表的论文《Something

Else:Compositional Action Recognition with Spatial

Temporal Interaction Networks》中,提出了组合性动作识别的概念。
[0004]然而,现有的诸多用于动作识别的机器学习算法,大多基于视频序列的R本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种组合性动作识别方法,其特征在于,包括:获取待识别的视频中包含的物体的几何位置信息;基于所述几何位置坐标及RGB视频序列获取各个物体的多模态特征;其中,所述多模态特征包括几何表征特征、视觉表征特征和运动流特征;根据所述多模态特征,得到表征各个物体间交互关系的特征向量;基于所述表征各个物体间交互关系的特征向量,进行动作分类,得到最终的组合性动作识别结果。2.根据权利要求1所述的组合性动作识别方法,其特征在于,获取待识别的视频中包含的物体的几何位置信息,包括:检测待识别的视频序列中出现的各个物体的类别以及位置坐标;其中,采用Faster

RCNN目标检测算法,检测所有RGB视频序列中出现的各个物体的类别以及位置坐标;基于各个物体的类别以及位置坐标,得到每个物体的类别、位置以及在RGB视频序列中的出现顺序标号;其中,基于各个物体的类别以及位置坐标,采用多目标跟踪算法,对RGB视频序列的不同帧中出现的物体进行标注,得到每个物体的类别、位置以及出现顺序标号。3.根据权利要求1所述的组合性动作识别方法,其特征在于,采用一个全连接层连接一个激活层的模块处理所述几何位置信息,得到所述几何表征特征。4.根据权利要求1所述的组合性动作识别方法,其特征在于:采用一个预训练的I3D网络作为骨干网络,对RGB视频序列进行处理,提取I3D网络的Mixed_4f卷积层的输出特征图,作为RGB视频序列特征图;采用一个RoIAlign层,对几何位置信息和RGB视频序列特征图进行处理,提取每个物体在每一视频帧中的对应特征,得到视觉表征特征。5.根据权利要求1所述的组合性动作识别方法,其特征在于:采用一个预训练的I3D网络作为骨干网络,对光流视频序列进行处理,提取I3D网络的Mixed_4f卷积层的输出特征图,作为光流视频序列特征图;采用一个RoIAlign层,对几何位置信息和...

【专利技术属性】
技术研发人员:常发亮米华东刘春生李南君路彦沙
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1