视频动作检测系统和视频动作检测方法技术方案

技术编号:36151899 阅读:13 留言:0更新日期:2022-12-31 19:56
本发明专利技术提供了一种视频动作检测系统,包括:视频主干特征提取模块,配置成将时序视频连续片段输出为对应的5D特征图;人物定位模块,配置成根据所述5D特征图输出对应的人物定位框;动作识别模块,配置成根据所述5D特征图和所述人物定位框,输出每个人物定位框对应的动作类别。本发明专利技术的优选实施例提供了一种将3D

【技术实现步骤摘要】
视频动作检测系统和视频动作检测方法


[0001]本专利技术大致涉及图像识别
,尤其涉及一种视频动作检测系统及视频动作检测的方法。

技术介绍

[0002]视频人物的动作检测(也叫做时空间动作定位)是视频理解中的关键任务。现有技术均启发自Faster

RCNN的两阶段物体检测框架。具体来说,这些技术首先需要一个基于三维卷积的骨干网络和一个人物测检器。然后,人物的定位框和视频的特征图一起通过RoI(Regions of Interest)Pooling层,以此获取与人物相关的特征。最后,这些特征会经过动作分类网络和位置精调网络来获取人物的动作类别和空间位置。
[0003]2018年以后,Non

Local被加入进用来进行特征提取骨干网络和用来进行动作识别的分类网络。2019年以后,以long

term feature bank为代表的memory bank被提出用来编码和存储长距离的视频特征信息。这些存储下的视频特征可以通过时序信息索引。这种以内存换取GPU显存的技术能够显著地增加动作识别context(上下文)的长度。
[0004]视频人物的动作检测有两个子任务,即人物定位和动作识别。人物定位需要比较长的空间context(上下文),动作识别需要非常长的时间

空间context(上下文)。现有的技术依赖于定制化的模块,譬如预训练的人物/物体检测模型,region proposal network(RPN),memory bank等来获取定位和检测任务的context。这些复杂的定制化模块使得视频人物动作检测系统变得臃肿庞大并且异常复杂。
[0005]
技术介绍
部分的内容仅仅是公开人所知晓的技术,并不当然代表本领域的现有技术。

技术实现思路

[0006]有鉴于现有技术的至少一个缺陷,本专利技术提供一种视频动作检测系统,其特征在于,包括:
[0007]视频主干特征提取模块,配置成将时序视频连续片段输出为对应的5D特征图;
[0008]人物定位模块,配置成根据所述5D特征图输出对应的人物定位框;
[0009]动作识别模块,配置成根据所述5D特征图和所述人物定位框,输出每个人物定位框对应的动作类别。
[0010]根据本专利技术的一个方面,其中所述视频主干特征提取模块配置成:将所述时序视频连续片段划分为多个帧数相等的单个视频片段,所述5D特征图的维度包括:所述时序视频连续片段的长度、所述单个视频片段的帧数、所述视频的通道数、高度、宽度,所述视频主干特征提取模块进一步配置成:
[0011]通过3D卷积降低所述通道数。
[0012]根据本专利技术的一个方面,其中所述人物定位模块进一步配置成:
[0013]根据所述单个视频片段对应的4D特征图帧数维度上的中间分片,输出所述人物定
位框。
[0014]根据本专利技术的一个方面,其中所述人物定位模块进一步配置成:
[0015]通过时空间池化层提取所述人物定位框的动作查询选项。
[0016]根据本专利技术的一个方面,其中所述动作识别模块进一步配置成:
[0017]通过时间池化层将所述单个视频片段进行时序降维。
[0018]根据本专利技术的一个方面,其中所述动作识别模块进一步配置成:
[0019]根据串联的所述池化后的所述5D特征图,输出每个人物定位框的动作查询选项对应的动作类别。
[0020]根据本专利技术的一个方面,其中所述人物定位模块进一步包括:
[0021]第一编码器,配置成对所述单个视频片段对应的4D特征图帧数维度上的中间分片进行空间信息编码;
[0022]第一解码器,配置成根据人物查询选项和所述空间信息编码输出所述人物定位框的坐标。
[0023]根据本专利技术的一个方面,其中所述人物定位模块进一步包括:
[0024]第一视频切割模块,配置成对所述单个视频片段对应的4D特征图进行切割。
[0025]根据本专利技术的一个方面,其中所述动作识别模块进一步包括:
[0026]第二编码器,配置成对所述时序视频连续片段对应的5D特征图进行时空间信息编码,输出场景上下文和人物时序上下文;
[0027]第二解码器,配置成根据所述动作查询选项、所述场景上下文、所述人物时序上下文输出对应的动作类别。
[0028]根据本专利技术的一个方面,其中所述动作识别模块进一步包括:
[0029]第二视频切割模块,配置成对所述时序视频连续片段对应的5D特征图进行切割。
[0030]本专利技术还提供一种视频动作检测的方法,通过如上文所述的视频动作检测系统完成。
[0031]本专利技术的优选实施例提供了一种将3D

CNN与transformer模型结合的视频动作检测系统,针对视频动作检测的两个子任务,分别采用两个编码器

解码器结构,以分别执行人物定位和动作识别。本专利技术所提供的的视频动作检测系统,使用卷积神经网络进行低层次视觉结构建模,采用transformer模型进行高层次语义建模,实验证明两者具有互补性。本专利技术所提供的视频动作检测系统,不仅结构简单,易于实现,并且在多个bench mark上取得了最优性能,是视频人物动作检测领域的优选解决方案。
附图说明
[0032]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0033]图1示出了根据本专利技术的一个实施例的视频动作检测系统;
[0034]图2示出了根据本专利技术的一个实施例的视频动作检测系统;
[0035]图3示出了根据本专利技术的一个实施例的人物定位模块;
[0036]图4示出了根据本专利技术的一个实施例的动作识别模块;
[0037]图5示出了根据本专利技术的一个实施例的视频动作检测方法。
具体实施方式
[0038]在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本专利技术的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
[0039]在本专利技术的描述中,需要理解的是,术语"中心"、"纵向"、"横向"、"长度"、"宽度"、"厚度"、"上"、"下"、"前"、"后"、"左"、"右"、"竖直"、"水平"、"顶"、"底"、"内"、"外"、"顺时针"、"逆时针"等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语"第一"、"第二"仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有"第一"、"第二"的特征可以明示或者隐含地包括一个或者更多个所述特征。在本专利技术的描述中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频动作检测系统,其特征在于,包括:视频主干特征提取模块,配置成将时序视频连续片段输出为对应的5D特征图;人物定位模块,配置成根据所述5D特征图输出对应的人物定位框;动作识别模块,配置成根据所述5D特征图和所述人物定位框,输出每个人物定位框对应的动作类别。2.如权利要求1所述的视频动作检测系统,其中所述视频主干特征提取模块配置成:将所述时序视频连续片段划分为多个帧数相等的单个视频片段,所述5D特征图的维度包括:所述时序视频连续片段的长度、所述单个视频片段的帧数、所述视频的通道数、高度、宽度,所述视频主干特征提取模块进一步配置成:通过3D卷积降低所述通道数。3.如权利要求2所述的视频动作检测系统,其中所述人物定位模块进一步配置成:根据所述单个视频片段对应的4D特征图帧数维度上的中间分片,输出所述人物定位框。4.如权利要求3所述的视频动作检测系统,其中所述人物定位模块进一步配置成:通过时空间池化层提取所述人物定位框的动作查询选项。5.如权利要求4所述的视频动作检测系统,其中所述动作识别模块进一步配置成:通过时间池化层将所述单个视频片段进行时序降维。6.如权利要求5所述的视频动作检测系统,其中所述动作识别模块进一步配置成:根据串联的所述池化后的所述5...

【专利技术属性】
技术研发人员:邬振宇任洲吴毅华刚
申请(专利权)人:虫极科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1