用于中短时视频的从粗到细的行为快速检测与分类方法及系统技术方案

技术编号：24458223 阅读：36 留言：0更新日期：2020-06-10 16:11

一种用于中短时视频的从粗到细的行为快速检测与分类方法及系统，通过对原视频重采样后进行时空联合的特征提取，在此基础上进行时域定位；然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位，根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正，得到行为检测结果，从而实现行为目标的快速检测。本发明专利技术在有效提升分类精度以及定位精度的同时，还能够确保行为检测的运行效率，目标检测的准确率可以达到79.30％，同时平均每一帧的处理时间仅为7.6毫秒。

Fast detection and classification method and system of behavior from coarse to fine for medium and short time video

全部详细技术资料下载

【技术实现步骤摘要】
用于中短时视频的从粗到细的行为快速检测与分类方法及系统
本专利技术涉及的是一种图像处理领域的技术，具体是一种用于中短时视频的从粗到细的行为快速检测与分类方法及系统。
技术介绍
基于视频的行为检测与识别分类技术是自动将视频中的人物目标进行逐帧定位与跟踪，并结合时空信息对其行为进行识别的技术。现有的视频行为检测技术主要通过逐帧或者逐段地提取出精确的运动空间定位；对逐段的行为定位进行分类；将以上的检测结果沿时域链接形成时空联合的带有行为类别标签的人物轨迹。现有技术虽然有利用深度神经网络提高检测准确度，但其最终分类结果高度依赖于稠密的逐帧检测结果以及时域的连接算法的准确性。因此，针对上述现有技术缺陷，急需一种快速高效的行为检测算法，同时能够通过长时时间信息建模帮助行为识别，又避免稠密但低效的逐帧检测。
技术实现思路
本专利技术针对现有技术存在的上述不足，提出一种用于中短时视频的从粗到细的行为快速检测与分类方法及系统，在有效提升分类精度以及定位精度的同时，还能够确保行为检测的运行效率，目标检测的准确率可以达到79.30％，同时平均每一帧的处理时间仅为7.6毫秒。本专利技术是通过以下技术方案实现的：本专利技术涉及一种用于中短时视频的从粗到细的行为快速检测与分类方法，通过对原视频重采样后进行时空联合的特征提取，在此基础上进行时域定位；然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位，根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正，...

【技术保护点】
1.一种用于中短时视频的从粗到细的行为快速检测与分类方法，其特征在于，通过对原视频重采样后进行时空联合的特征提取，在此基础上进行时域定位；然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位，根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正，得到行为检测结果，从而实现行为目标的快速检测。/n

【技术特征摘要】
1.一种用于中短时视频的从粗到细的行为快速检测与分类方法，其特征在于，通过对原视频重采样后进行时空联合的特征提取，在此基础上进行时域定位；然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位，根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正，得到行为检测结果，从而实现行为目标的快速检测。

2.根据权利要求1所述的方法，其特征是，所述的时空联合的特征提取是指：利用三维卷积神经网络对固定帧数的输入视频进行卷积，卷积的最终输出为三维网格，每个网格中包含一个固定维度的高维特征向量来描述局部时空关系；
所述的高维特征向量为：F∈RC×T×H×W，其中：F为高位特征向量构成的网格；T、H、W分别为网格的时间尺度、高度和宽度；C为向量维度。

3.根据权利要求1所述的方法，其特征是，所述的时域定位是指：对三维网格进行空间平均池化得到一维特征，并通过时域检测得到在对应位置存在行为的概率和起止区间的相对坐标，再在三维网格上的对应起止区间的相对坐标中进行均匀采样，得到稀疏采样后的二维空间特征；
所述的时域检测是指：利用一层一维卷积神经网络对池化得到的一维特征进行卷积，输出对应位置存在行为的概率和起止区间的相对坐标。

4.根据权利要求1所述的方法，其特征是，所述的目标分类是指：将时域定位得到的采样特征信息进行时域差分处理，将原采样特征信息以及时域差分处理后的残差结果相加后进行时域池化，使三维特征变成二维特征，得到行为类别以及行为轨迹的描述参数；
行为类别的描述参数为：c∈[0,1]K，类别描述为一个归一化的K为向量，K为总类别数量，每一维的数值代表属于该行为类别的置信度；
行为轨迹的描述参数为：θ＝[θx，θy，θw，θh]T，其中：θ表示为一个4×(k+1)规模的矩阵，k＝4为多项式阶数，矩阵每一列(θx，θy，θw，θh)表示对应目标框空间坐标的k+1个多项式系数。

5.根据权利要求1所述的方法，其特征是，所述的粗略定位是指：利用关键帧选择网络对将时域定位得到的采样特征信...

【专利技术属性】
技术研发人员：林巍峣，李昱希，徐树公，
申请(专利权)人：上海交通大学，上海大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人