基于显著片段采样的长视频动作识别方法技术

技术编号:27264157 阅读:54 留言:0更新日期:2021-02-06 11:27
基于显著片段采样的长视频动作识别方法,涉及计算机视觉技术。1)准备长视频动作识别数据集;2)设计用于显著片段采样的采样器和用于动作识别的分类器,通过采样器对视频运动特征显著的部分进行采样,分类器仅考虑采样器采样的片段,通过提取视频显著片段的时空特征进行动作分类;3)在大规模图像数据集上,对采样器的主干网络ShuffleNet V2和分类器网络膨胀3D卷积网络进行预训练,得到预训练模型;4)将预训练模型在长视频动作识别数据集上利用反向传播算法对整个模型进行端到端训练,并保存训练好的模型;5)利用训练好的模型进行视频显著部分的采样和动作分类。能有效去除冗余信息,减少模型计算量。减少模型计算量。减少模型计算量。

【技术实现步骤摘要】
基于显著片段采样的长视频动作识别方法


[0001]本专利技术涉及计算机视觉技术,具体是涉及一种基于显著片段采样的长视频动作识别方法。

技术介绍

[0002]视频的理解与识别是计算机视觉的基础任务之一。近年来,随着计算机算力的爆发和计算机视觉技术的不断发展,视频识别技术迅速兴起并得到了广泛关注。而识别视频中的动作则是其中一个充满挑战而又具有较高实际应用价值的任务。动作识别任务的主要目标是判断一段视频中人的行为的类别。早期的动作识别主要基于兴趣点的检测和表示,例如梯度直方图,时空兴趣点检测以及光流直方图等。近年来,深度神经网络在图像分类和目标检测等计算机视觉任务上取得了几乎超越人类的效果。因此,一些基于深度学习的方法被应用于视频动作识别任务中。Simonyan等人(Simonyan K,Zisserman A.Two-stream convolutional networks for action recognition in videos[C]//Advances in neural information processing systems.2014:568-576.)提出了基于双流的动作识别方法。该方法首次将视频分成空间和时间两个部分,分别使用RGB图像和光流图像送入两支神经网络并融合最终分类结果。Tran等人(Tran D,Bourdev L,Fergus R,et al.Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE international conference on computer vision.2015:4489-4497.)将3D卷积应用于视频动作识别领域,提出了3D卷积网络,希望把ImageNet(迁移学习)的成功复制到视频动作领域中。Carreira等人(Carreira J,Zisserman A.Quo vadis,action recognition?a new model and the kinetics dataset[C]//proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017:6299-6308.)提出了一个基于3D卷积的双流模型,网络的主干借鉴了成熟的2D卷积网络Inception-v1,将网络中的2D卷积核换成了3D卷积核。膨胀3D卷积网络进一步提高了视频动作识别的准确率。为了获得更有辨别力的时序特征,Wang等人(Wang X,Girshick R,Gupta A,et al.Non-local neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2018:7794-7803.)提出了在网络中加入全局感受模块以获取长期时序依赖。
[0003]然而上述工作都专注于短视频动作识别任务,识别的视频往往只有10秒甚至更短,面对包含数千帧且长达数分钟的长视频,这些方法就会因为巨大的计算量而无能为力。目前,长视频动作识别任务受到的挑战主要有:
[0004]1)由于现有模型需要对采样得到的帧提取时空特征,因此对长视频进行密集采样时将会导致无法承受的巨大计算量。
[0005]2)在长达数分钟的长视频中,存在大量的冗余信息,将会导致动作识别性能降低。
[0006]3)由于视频过长,因此在提取时序信息时,难以建立有效的长期时序依赖。
[0007]目前的方法,大多数使用的是密集采样或者是将视频分段均匀采样,忽略了上述
采样方法存在的许多局限性。密集采样容易造成巨大的计算量,而均匀采样可能会导致大量的冗余信息被采样,继而影响识别效果。因此,在长视频动作识别中,应尽可能采样运动特征显著的片段,摈弃特征不显著的冗余片段。

技术实现思路

[0008]本专利技术的目的在于针对现有的视频动作识别方法中存在的上述技术问题,提供能够有效提取到采样片段的时空特征,有效去除冗余信息,减少模型计算量的一种基于显著片段采样的长视频动作识别方法。
[0009]本专利技术包括以下步骤:
[0010]1)准备长视频动作识别数据集;
[0011]2)设计用于显著片段采样的采样器和用于动作识别的分类器,通过采样器对视频运动特征显著的部分进行采样,分类器仅考虑采样器采样的片段,通过提取视频显著片段的时空特征进行动作分类;
[0012]3)在大规模图像数据集上,对采样器的主干网络ShuffleNet V2(Ningning Ma,Xiangyu Zhang,Hai-Tao Zheng,Jian Sun,ShuffleNet V2:Practical Guidelines for Efficient CNN Architecture Design.In ECCV,2018)和分类器网络膨胀3D卷积网络(Joao Carreira and Andrew Zisserman.Quo vadis,action recognition?a new model and the kinetics dataset.In CVPR,2017.)进行预训练,得到预训练模型;
[0013]4)将预训练模型在长视频动作识别数据集上利用反向传播算法对整个模型进行端到端训练,并保存训练好的模型;
[0014]5)利用训练好的模型进行视频显著部分的采样和动作分类。
[0015]在步骤1)中,所述准备长视频动作识别数据集,假设训练集动作视频为{(x
i
,y
i
),i=1,

,n},其中,n为训练集的样本数;x
i
为第i个训练样本对应的视频,y
i
表示第i个训练样本对应的标签。
[0016]在步骤2)中,所述设计用于显著片段采样的采样器的具体步骤如下:
[0017]2.1采样器将输入视频平均分成N个片段,并从每个片段中均匀采样一帧图像;采样得到的N帧图像作为采样器的输入;
[0018]2.2ShuffleNet在经过第一次卷积和最大池化操作以后,主要分为三个阶段,每个阶段以后的特征图的大小皆为输入的一半,通道数则相应增加一倍;移除ShuffleNet原有的最后的全连接层,在图像输入采样器的主干网络后,获得N个1024维的特征向量用以表征每一帧的空间特征;
[0019]2.3获得每个片段代表帧的空间特征后,利用选择器生成特征矩阵选择运动特征显著的帧,选择器由1个多层感知器(多层感知器)、1个全局感受模块和1个耿贝尔模块组成;特征矩阵经过选择器后,生成一个只含{0,1}离散的向量,0代表该帧所在的片段运动特征不够显著,分类器应不予考虑;反之,则代表该片段运动特征显著,分类器应予以考虑;...

【技术保护点】

【技术特征摘要】
1.基于显著片段采样的长视频动作识别方法,其特征在于包括以下步骤:1)准备长视频动作识别数据集;2)设计用于显著片段采样的采样器和用于动作识别的分类器,通过采样器对视频运动特征显著的部分进行采样,分类器仅考虑采样器采样的片段,通过提取视频显著片段的时空特征进行动作分类;3)在大规模图像数据集上,对采样器的主干网络ShuffleNet V2和分类器网络膨胀3D卷积网络进行预训练,得到预训练模型;4)将预训练模型在长视频动作识别数据集上利用反向传播算法对整个模型进行端到端训练,并保存训练好的模型;5)利用训练好的模型进行视频显著部分的采样和动作分类。2.如权利要求1所述基于显著片段采样的长视频动作识别方法,其特征在于在步骤1)中,所述准备长视频动作识别数据集,假设训练集动作视频为{(x
i
,y
i
),i=1,

,n},其中,n为训练集的样本数;x
i
为第i个训练样本对应的视频,y
i
表示第i个训练样本对应的标签。3.如权利要求1所述基于显...

【专利技术属性】
技术研发人员:王其聪黄靖
申请(专利权)人:厦门大学深圳研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1