用于中短时视频的从粗到细的行为快速检测与分类方法及系统技术方案

技术编号:24458223 阅读:36 留言:0更新日期:2020-06-10 16:11
一种用于中短时视频的从粗到细的行为快速检测与分类方法及系统,通过对原视频重采样后进行时空联合的特征提取,在此基础上进行时域定位;然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位,根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正,得到行为检测结果,从而实现行为目标的快速检测。本发明专利技术在有效提升分类精度以及定位精度的同时,还能够确保行为检测的运行效率,目标检测的准确率可以达到79.30%,同时平均每一帧的处理时间仅为7.6毫秒。

Fast detection and classification method and system of behavior from coarse to fine for medium and short time video

【技术实现步骤摘要】
用于中短时视频的从粗到细的行为快速检测与分类方法及系统
本专利技术涉及的是一种图像处理领域的技术,具体是一种用于中短时视频的从粗到细的行为快速检测与分类方法及系统。
技术介绍
基于视频的行为检测与识别分类技术是自动将视频中的人物目标进行逐帧定位与跟踪,并结合时空信息对其行为进行识别的技术。现有的视频行为检测技术主要通过逐帧或者逐段地提取出精确的运动空间定位;对逐段的行为定位进行分类;将以上的检测结果沿时域链接形成时空联合的带有行为类别标签的人物轨迹。现有技术虽然有利用深度神经网络提高检测准确度,但其最终分类结果高度依赖于稠密的逐帧检测结果以及时域的连接算法的准确性。因此,针对上述现有技术缺陷,急需一种快速高效的行为检测算法,同时能够通过长时时间信息建模帮助行为识别,又避免稠密但低效的逐帧检测。
技术实现思路
本专利技术针对现有技术存在的上述不足,提出一种用于中短时视频的从粗到细的行为快速检测与分类方法及系统,在有效提升分类精度以及定位精度的同时,还能够确保行为检测的运行效率,目标检测的准确率可以达到79.30%,同时平均每一帧的处理时间仅为7.6毫秒。本专利技术是通过以下技术方案实现的:本专利技术涉及一种用于中短时视频的从粗到细的行为快速检测与分类方法,通过对原视频重采样后进行时空联合的特征提取,在此基础上进行时域定位;然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位,根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正,得到行为检测结果,从而实现行为目标的快速检测。所述的时空联合的特征提取是指:利用三维卷积神经网络对固定帧数的输入视频进行卷积,卷积的最终输出为三维网格,每个网格中包含一个固定维度的高维特征向量来描述局部时空关系。所述的三维卷积神经网络为基于GoogleNet网络卷积核沿时间维度进行重复延伸拓展得到的I3D卷积神经网络。所述的高维特征向量为:F∈RC×T×H×W,其中:F为高位特征向量构成的网格;T、H、W分别为网格的时间尺度、高度和宽度;C为向量维度。所述的时域定位是指:对三维网格进行空间平均池化得到一维特征,并通过时域检测得到在对应位置存在行为的概率和起止区间的相对坐标,再在三维网格上的对应起止区间的相对坐标中进行均匀采样,得到稀疏采样后的二维采样空间特征。所述的时域检测是指:利用一层一维卷积神经网络对池化得到的一维特征进行卷积,输出对应位置存在行为的概率和起止区间的相对坐标。所述的目标分类是指:将时域定位得到的采样特征信息进行时域差分处理,将原采样特征信息以及时域差分处理后的残差结果相加后进行时域池化,使三维特征变成二维特征,得到行为类别以及行为轨迹的描述参数。所述的行为类别的描述参数为:c∈[0,1]K,类别描述为一个归一化的K为向量,K为总类别数量,每一维的数值代表属于该行为类别的置信度。所述的行为轨迹的描述参数为:θ=[θx,θy,θw,θh]T,其中:θ表示为一个4×(k+1)规模的矩阵,k=4为多项式阶数,矩阵每一列(θx,θy,θw,θh)表示对应目标框空间坐标的k+1个多项式系数。所述的粗略定位是指:利用关键帧选择网络对将时域定位得到的采样特征信息进行选择,得到对于最终定位最为关键时间戳对应的二维特征。所述的关键帧选择网络包括:级联的空间均匀池化层和一维编码-解码层,其中:空间均匀池化层对采样特征信息进行空间降维处理,一维编码-解码层对降维后的采样特征进行编码-解码,得到每个采样特征的关键帧置信度。所述的编码-解码具体是指:利用步长为2的一维卷积对一维特征进行逐次降采样,实现编码;对降采样后的特征,利用步长为2的一维反卷积操作进行升采样,实现解码,解码端输出的时间尺度与输入端一致,即采样帧个数。所述的修正是指:根据目标分类得到的行为类别以及行为轨迹的描述参数生成粗略的行为轨迹描述,在粗略定位得到的关键帧上的粗略行为轨迹的位置,在该位置附近的领域通过局部检测得到该领域内置信度最高的行为检测框替代原本的位置,实现行为轨迹的修正。所述的粗略行为轨迹为:其中:t表示关键帧选择网络输出关键帧对应的时间戳,[x(t),y(t),w(t),h(t)]在该关键帧上粗略估计的框坐标。所述的局部检测是指:通过级联的二维卷积网络在对应被选择的关键帧的二维特征上进行卷积操作得到对应的检测框以及置信度。所述的二维卷积网络包括:如图3所示的由3个2D卷积模块级联后分别由两路并行的卷积操作输出置信度以及回归坐标的结构。所述的行为检测结果,优选进一步经过样条插值,得到对应行为轨迹的稠密表示。本专利技术涉及一种用于中短时视频的从粗到细的行为快速检测与分类系统,包括:时空联合特征提取单元、时域定位单元、粗略定位单元和修正单元,其中:时空联合特征提取单元与时域定位单元相连并传输时空联合特征信息,时域定位单元与粗定位单元以及修正单元相连并传输采样特征信息,粗略定位单元对原采样特征及差分特征同时处理得到行为的类别与轨迹描述参数,实现目标行为的粗略定位并输出至修正单元,修正单元利用粗略定位以及选择的关键帧,细化修正坐标框得到轨迹描述信息。所述的粗略定位单元将时域定位得到的采样特征信息进行时域差分处理,将原采样特征信息以及时域差分处理后的残差结果进行全局目标检测,得到行为类别以及行为轨迹的描述参数。所述的修正单元利用空间池化-编码-解码的级联结构对每一帧采样特征进行权重评估,通过选取权重较大的关键帧,在对应的采样二维特征上利用二维卷积模块输出修正后的目标框及置信度。技术效果本专利技术整体解决了从中短时(6s-15s)的视频中,快速定位出目标行为在时空坐标下的位置的技术空白。与现有技术相比,本专利技术技术效果包括:1、本专利技术利用参数建模的方式,将粗略的行为轨迹估计用带参数的时间函数进行表示,避免了逐帧表示时稠密检测和链接的必要性,提高了视频行为检测的效率,同时在行为识别模块中引入了三维特征的时域残差分量作为辅助信息,有效提高了行为识别和定位的精确度。2、本专利技术通过重采样输入避免了稠密冗余的中间帧检测。同时后级的局部检测网络只需要在行为选择网络选择的关键帧上进行细化即可得到最终结果,这种关键帧选择的机制进一步避免了冗余检测的可能性,提高了网络效率。3、本专利技术基于粗略轨迹进行局部搜索的方法降低了局部检测器的搜索空间,提高了效率的同时降低了误捡噪声干扰的可能性。附图说明图1为本专利技术的流程图;图2为全局检测器结构示意图;图3为局部检测器结构示意图;图4为关键帧选择网络结构示意图。具体实施方式如图1所示,为本实施例涉及一种用于中短时视频的从粗到细的行为快速检测与分类方法,具体步骤如下:A:对输入视频流进行重采样,使得输入视频保持固定的帧数用于后级的行为检测与分类。所述的对输入视频流重采样是指:对输入视频进行降采样或补中间本文档来自技高网...

【技术保护点】
1.一种用于中短时视频的从粗到细的行为快速检测与分类方法,其特征在于,通过对原视频重采样后进行时空联合的特征提取,在此基础上进行时域定位;然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位,根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正,得到行为检测结果,从而实现行为目标的快速检测。/n

【技术特征摘要】
1.一种用于中短时视频的从粗到细的行为快速检测与分类方法,其特征在于,通过对原视频重采样后进行时空联合的特征提取,在此基础上进行时域定位;然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位,根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正,得到行为检测结果,从而实现行为目标的快速检测。


2.根据权利要求1所述的方法,其特征是,所述的时空联合的特征提取是指:利用三维卷积神经网络对固定帧数的输入视频进行卷积,卷积的最终输出为三维网格,每个网格中包含一个固定维度的高维特征向量来描述局部时空关系;
所述的高维特征向量为:F∈RC×T×H×W,其中:F为高位特征向量构成的网格;T、H、W分别为网格的时间尺度、高度和宽度;C为向量维度。


3.根据权利要求1所述的方法,其特征是,所述的时域定位是指:对三维网格进行空间平均池化得到一维特征,并通过时域检测得到在对应位置存在行为的概率和起止区间的相对坐标,再在三维网格上的对应起止区间的相对坐标中进行均匀采样,得到稀疏采样后的二维空间特征;
所述的时域检测是指:利用一层一维卷积神经网络对池化得到的一维特征进行卷积,输出对应位置存在行为的概率和起止区间的相对坐标。


4.根据权利要求1所述的方法,其特征是,所述的目标分类是指:将时域定位得到的采样特征信息进行时域差分处理,将原采样特征信息以及时域差分处理后的残差结果相加后进行时域池化,使三维特征变成二维特征,得到行为类别以及行为轨迹的描述参数;
行为类别的描述参数为:c∈[0,1]K,类别描述为一个归一化的K为向量,K为总类别数量,每一维的数值代表属于该行为类别的置信度;
行为轨迹的描述参数为:θ=[θx,θy,θw,θh]T,其中:θ表示为一个4×(k+1)规模的矩阵,k=4为多项式阶数,矩阵每一列(θx,θy,θw,θh)表示对应目标框空间坐标的k+1个多项式系数。


5.根据权利要求1所述的方法,其特征是,所述的粗略定位是指:利用关键帧选择网络对将时域定位得到的采样特征信...

【专利技术属性】
技术研发人员:林巍峣李昱希徐树公
申请(专利权)人:上海交通大学上海大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1