视频动作检测系统和视频动作检测方法技术方案

技术编号：36151899 阅读：13 留言：0更新日期：2022-12-31 19:56

本发明专利技术提供了一种视频动作检测系统，包括：视频主干特征提取模块，配置成将时序视频连续片段输出为对应的5D特征图；人物定位模块，配置成根据所述5D特征图输出对应的人物定位框；动作识别模块，配置成根据所述5D特征图和所述人物定位框，输出每个人物定位框对应的动作类别。本发明专利技术的优选实施例提供了一种将3D

全部详细技术资料下载

【技术实现步骤摘要】
视频动作检测系统和视频动作检测方法

[0001]本专利技术大致涉及图像识别
，尤其涉及一种视频动作检测系统及视频动作检测的方法。

技术介绍

[0002]视频人物的动作检测(也叫做时空间动作定位)是视频理解中的关键任务。现有技术均启发自Faster
‑
RCNN的两阶段物体检测框架。具体来说，这些技术首先需要一个基于三维卷积的骨干网络和一个人物测检器。然后，人物的定位框和视频的特征图一起通过RoI(Regions of Interest)Pooling层，以此获取与人物相关的特征。最后，这些特征会经过动作分类网络和位置精调网络来获取人物的动作类别和空间位置。
[0003]2018年以后，Non
‑
Local被加入进用来进行特征提取骨干网络和用来进行动作识别的分类网络。2019年以后，以long
‑
term feature bank为代表的memory bank被提出用来编码和存储长距离的视频特征信息。这些存储下的视频特征可以通过时序信息索引。这种以内存换取GPU显存的技术能够显著地增加动作识别context(上下文)的长度。
[0004]视频人物的动作检测有两个子任务，即人物定位和动作识别。人物定位需要比较长的空间context(上下文)，动作识别需要非常长的时间
‑
空间context(上下文)。现有的技术依赖于定制化的模块，譬如预训练的人物/物体检测模型，region proposal network(RPN)，memory ...

【技术保护点】

【技术特征摘要】
1.一种视频动作检测系统，其特征在于，包括：视频主干特征提取模块，配置成将时序视频连续片段输出为对应的5D特征图；人物定位模块，配置成根据所述5D特征图输出对应的人物定位框；动作识别模块，配置成根据所述5D特征图和所述人物定位框，输出每个人物定位框对应的动作类别。2.如权利要求1所述的视频动作检测系统，其中所述视频主干特征提取模块配置成：将所述时序视频连续片段划分为多个帧数相等的单个视频片段，所述5D特征图的维度包括：所述时序视频连续片段的长度、所述单个视频片段的帧数、所述视频的通道数、高度、宽度，所述视频主干特征提取模块进一步配置成：通过3D卷积降低所述通道数。3.如权利要求2所述的视频动作检测系统，其中所述人物定位模块进一步配置成：根据所述单个视频片段对应的4D特征图帧数维度上的中间分片，输出所述人物定位框。4.如权利要求3所述的视频动作检测系统，其中所述人物定位模块进一步配置成：通过时空间池化层提取所述人物定位框的动作查询选项。5.如权利要求4所述的视频动作检测系统，其中所述动作识别模块进一步配置成：通过时间池化层将所述单个视频片段进行时序降维。6.如权利要求5所述的视频动作检测系统，其中所述动作识别模块进一步配置成：根据串联的所述池化后的所述5...

【专利技术属性】
技术研发人员：邬振宇，任洲，吴毅，华刚，
申请(专利权)人：虫极科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人