当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于多层次运动建模的动作视频分类方法及系统技术方案

技术编号:33500875 阅读:18 留言:0更新日期:2022-05-19 01:11
本发明专利技术公开了一种基于多层次运动建模的动作视频分类方法及系统,对段内和段间的运动信息进行多层次综合建模,其包含两个神经网络分支:段间分支对各视频段中采样得到的视频帧进行处理,用于提取前景目标的表观信息和段间运动信息;段内分支对各视频段中相邻视频帧的差值进行处理,用于提取前景目标的段内运动信息。段内分支所提取的帧差特征被用来对段间分支特征进行按通道加权,最后两个分支的卷积特征融合起来并共同输入到分类器中进行视频分类。本发明专利技术实现方法简便,手段灵活,在动作视频数据集上取得了显著的分类效果提升。数据集上取得了显著的分类效果提升。数据集上取得了显著的分类效果提升。

【技术实现步骤摘要】
一种基于多层次运动建模的动作视频分类方法及系统


[0001]本专利技术涉及视频分类
,尤其是涉及一种基于多层次运动建模的动作视频分类方法及系统。

技术介绍

[0002]随着摄像头的普及和视频应用(如抖音等)的爆发,视频在网络数据中占有的比重越来越大,而对动作视频分类任务的研究在智能监控、自动驾驶、人机交互等
有重要应用价值。在2012年之后,基于深度学习特别是卷积神经网络(CNN)的视频分类方法已经逐渐替代了传统的手工设计特征(如IDT等)的方法。对于视频数据的处理主要有两种思路:一是对连续视频段进行建模,主要方法有3D卷积、(2+1)D卷积等。其中,(2+1)D卷积是将时空三维卷积拆分成二维空域卷积和一维时域卷积,以提升运算效率。其代表性方法包括C3D、P3D等。
[0003]二是使用采样方法对原始视频抽取视频帧后再进行建模。其优点在于,可以对长视频段进行分析,通过从视频中选取有代表性的视频帧进行处理,达到降低运算开销的目的。时域分段网络(TSN)是其中的典型代表,对于输入视频首先进行分段,然后对每段随机选取一张视频帧输入到卷积神经网络,最后再将各段的网络输出结果进行融合,得到整个视频的分类结果。而在时域激发和聚合网络(TEA)中,则将时域分段网络和(2+1)D卷积进行了融合,使用2D卷积对各段提取到的视频帧进行空域建模,同时使用1D按通道卷积来对各段视频帧间的运动信息进行时域建模。但这些方法存在的问题在于,只考虑了段间运动信息,而且由于各段间视频帧跳跃较大,难以进行有效的运动建模,从而影响了视频分类的效果。

技术实现思路

[0004]为解决现有技术的不足,实现同时对段内和段间的运动信息进行综合建模的目的,本专利技术采用如下的技术方案:一种基于多层次运动建模的动作视频分类方法,包括如下步骤:步骤S1:对输入的视频样本进行分段,每个视频段抽取一帧作为段间建模分支的输入,用于计算视频段的段间卷积特征,从而捕捉前景目标的表观信息和段间运动信息;同时抽取相邻两帧并计算帧差作为段内建模分支的输入,用于提取视频段的段内卷积特征,从而提取前景目标的段内运动信息。
[0005]步骤S2:段内建模分支各层输出的段内卷积特征通过侧边连接(Lateral Connection),融合到段间建模分支对应各层的段间卷积特征中,得到融合后的段间卷积特征,侧边连接实现了两个分支之间的信息交互,将帧差特征逐步融入段间建模分支,有利于对段内和段间运动信息的多层次建模。
[0006]步骤S3:对段内卷积特征进行二维(2D)空间池化,对融合后的段间卷积特征按通道进行加权,并将得到的加权后的段间卷积特征,作为段间建模分支下一层的输入,卷积特
征维度是(n,c,h,w),第二维表示channel也就是通道,按照通道进行加权,即表示不同通道的权重不同;由于段间建模分支的各个通道包含了不同的高层语义信息,并且段间建模分支与段内建模分支在训练时使用相同的权重模型进行初始化,则认为两者的卷积特征在对应通道上具有语义相关性,所以通过该加权操作能够选择出段间卷积特征中与运动信息更为相关的通道特征。
[0007]步骤S4:将段间建模分支与段内建模分支最终得到的卷积特征进行连结后,共同输入全连接层进行视频分类,训练阶段,对预测视频类别与真实视频类别,通过损失函数进行训练。
[0008]进一步地,所述步骤S2中,对段内卷积特征进行卷积操作后,与段间建模分支对应层的段间卷积特征相加,得到的融合后的段间卷积特征,包含了段间和段内两个分支的特征,其中蕴含了视频中的多层次运动信息。
[0009]进一步地,所述步骤S3中,首先基于段内卷积特征计算权重,将段内卷积特征进行空间池化,再依次进行卷积、激活操作,计算各通道上的权重;然后使用权重对融合后的段间卷积特征进行加权,将各通道上的权重与融合后的段间卷积特征,进行矩阵点乘操作后,再加上融合后的段间卷积特征,对特征中与运动信息更为相关的通道进行增强,得到加权后的段间卷积特征。
[0010]进一步地,所述步骤S4中,将最后一层的加权后的段间卷积特征与段内卷积特征按通道进行连结后,输入到全连接层,计算当前视频段的分类输出,再将所有视频段的输出进行取均值操作,得到视频样本的视频分类结果;训练阶段通过交叉熵损失函数(Cross Entropy Loss)计算视频样本的预测标签与真实标签的损失。
[0011]一种基于多层次运动建模的动作视频分类系统,包括段间建模分支和段内建模分支,对输入的视频样本进行分段,每个视频段抽取一帧作为段间建模分支的输入,用于计算视频段的段间卷积特征,从而捕捉前景目标的表观信息和段间运动信息;同时抽取相邻两帧并计算帧差作为段内建模分支的输入,用于提取视频段的段内卷积特征,从而提取前景目标的段内运动信息,所述段间建模分支的各层之后设有通道加权模块,将段内建模分支对应层输出的特征融合到段间建模分支中,从而将段内帧差特征融合到帧间视频特征中,并利用段内帧差特征实现对段间视频特征的按通道加权,一方面实现了两个分支之间的信息通信,另一方面能够加强视频特征中与运动信息更加相关的通道特征,提升了模型对于运动信息的表达能力,所述通道加权模块将段内卷积特征通过侧边连接与段间卷积特征融合,得到融合后的段间卷积特征,侧边连接实现了两个分支之间的信息交互,将帧差特征逐步融入段间建模分支,有利于对段内和段间运动信息的多层次建模,再对段内卷积特征进行二维(2D)空间池化,对融合后的段间卷积特征按通道进行加权,并将得到的加权后的段间卷积特征,作为段间建模分支下一层的输入,卷积特征维度是(n,c,h,w),第二维表示channel也就是通道,按照通道进行加权,即表示不同通道的权重不同;由于段间建模分支的各个通道包含了不同的高层语义信息,并且段间建模分支与段内建模分支在训练时使用相同的权重模型进行初始化,则认为两者的卷积特征在对应通道上具有语义相关性,所以通过该加权操作能够选择出段间卷积特征中与运动信息更为相关的通道特征,段间建模分支与段内建模分支最终得到的卷积特征连结后,共同输入全连接层,用于视频分类,融合后的卷积特征中同时包含了视频的短时和长时运动信息,提升了模型的分类效果,训练阶段,
对预测视频分类与真实视频分类,通过损失函数进行训练。
[0012]进一步地,所述通道加权模块包括融合单元,融合单元对段内卷积特征进行卷积操作后,与段间建模分支对应层的段间卷积特征相加,得到的融合后的段间卷积特征,包含了段间和段内两个分支的特征,其中蕴含了视频中的多层次运动信息。
[0013]进一步地,所述通道加权模块包括权重计算单元、点乘计算单元和加操作单元,权重计算单元将段内卷积特征依次通过空间池化层、卷积层、激活层;计算各通道上的权重,点乘计算单元将各通道上的权重与融合后的段间卷积特征,进行矩阵点乘操作,得到点乘结果;加操作单元将点乘结果加上融合后的段间卷积特征,对特征中与运动信息更为相关的通道进行增强,得到加权后的段间卷积特征。
[0014]进一步地,所述段间建模分支最后一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多层次运动建模的动作视频分类方法,其特征在于包括如下步骤:步骤S1:对输入的视频样本进行分段,每个视频段抽取一帧作为段间建模分支的输入,用于计算视频段的段间卷积特征;同时抽取相邻两帧并计算帧差作为段内建模分支的输入,用于提取视频段的段内卷积特征;步骤S2:段内建模分支各层输出的段内卷积特征通过侧边连接,融合到段间建模分支对应各层的段间卷积特征中,得到融合后的段间卷积特征;步骤S3:对段内卷积特征进行空间池化,对融合后的段间卷积特征按通道进行加权,并将得到的加权后的段间卷积特征,作为段间建模分支下一层的输入,段间建模分支与段内建模分支在训练时使用相同的权重模型进行初始化;步骤S4:将段间建模分支与段内建模分支最终得到的卷积特征进行连结后,共同输入全连接层进行视频分类,训练阶段,对预测视频类别与真实视频类别,通过损失函数进行训练。2.根据权利要求1所述的一种基于多层次运动建模的动作视频分类方法,其特征在于:所述步骤S2中,对段内卷积特征进行卷积操作后,与段间建模分支对应层的段间卷积特征相加,得到的融合后的段间卷积特征。3.根据权利要求1所述的一种基于多层次运动建模的动作视频分类方法,其特征在于:所述步骤S3中,首先基于段内卷积特征计算权重,将段内卷积特征进行空间池化,再依次进行卷积、激活操作,计算各通道上的权重;然后使用权重对融合后的段间卷积特征进行加权,将各通道上的权重与融合后的段间卷积特征,进行矩阵点乘操作后,再加上融合后的段间卷积特征,得到加权后的段间卷积特征。4.根据权利要求1所述的一种基于多层次运动建模的动作视频分类方法,其特征在于:所述步骤S4中,将最后一层的加权后的段间卷积特征与段内卷积特征按通道进行连结后,输入到全连接层,计算当前视频段的分类输出,再将所有视频段的输出进行取均值操作,得到视频样本的视频分类结果;训练阶段通过交叉熵损失函数计算视频样本的预测标签与真实标签的损失。5.一种基于多层次运动建模的动作视频分类系统,包括段间建模分支和段内建模分支,对输入的视频样本进行分段,每个视频段抽取一帧作为段间建模分支的输入,用于计算视频段的段间卷积特征;同时抽取相邻两帧并计算帧差作为段内建模分支的输入,用于提取视频段的段内卷积特征,其特征在于:所述段间建模分支的各层之...

【专利技术属性】
技术研发人员:卢修生鲍虎军程乐超杨非宋明黎
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1