一种基于多时长信息的动作视频识别方法技术

技术编号:21433102 阅读:30 留言:0更新日期:2019-06-22 12:11
一种基于多时长信息的动作视频识别方法,包括以下步骤:1)将动作视频转换成序列帧图像,以等间隔方式进行采样;2)构建多时长信息特征融合层;3)扩展二维卷积神经网络DenseNet121至三维卷积神经网络DenseNet121‑3D,同时将多时长信息特征融合层嵌入到该网络当中;4)将步骤1采样得到的序列图像作为输入数据,对网络进行训练,而后就可以将待识别的动作视频输入到网络当中进行识别分类。本发明专利技术通过采用多时长三维卷积神经网络对不同时长特性的动作进行特征学习,使得网络具有更好的鲁棒性,得到较好的分类结果。

【技术实现步骤摘要】
一种基于多时长信息的动作视频识别方法
本专利技术涉及深度学习、计算机视觉领域,特别是涉及一种基于多时长信息的动作视频识别方法。
技术介绍
在计算机视觉领域中,对于人体动作的识别一直是一个十分活跃的课题,其在运动视频分析、视频检索、智能摄像监控等实际生活场景有着广泛的应用前景。然而,人体动作具有高度复杂性,且视频数据具有不同的尺度大小以及光照强弱等特点,采用传统特征工程建模的方法识别效果不佳,也不具有普遍应用性。近年来,随着视频数据的爆发式增长,以深度学习为代表的机器学习方法逐渐被应用到该领域当中,得益于大规模数据以及高效的计算能力,研究人员提出多种深度神经网络模型对动作视频进行识别,取得了较好的效果。DuTran提出了15层的三维卷积神经网络,将视频提取帧图像后,以堆叠图像的方式输入到网络中进行训练,经过8层卷积层和5层池化层的特征提取后输入到两个全连接层得到识别分类结果(Tran,Du,etal.Learningspatiotemporalfeatureswith3dconvolutionalnetworks[C]//InternationalConferenceonComputerVision.IEEE,2015:4489-4497,即基于三维卷积神经网络的时空特征学习);KarenSimonyan提出一个双通道三维卷积神经网络,该网络接受两种类型的输入数据,分别是从视频中提取的RGB图像以及从视频中获取的多帧光流图像,对应的经过图像空间域卷积和光流图像时域卷积得到特征,将特征融合后输入到全连接层进行分类(Simonyan,Karen,etal.Two-streamconvolutionalnetworksforactionrecognitioninvideos[C]//NeuralInformationProcessingSystems.2014:568-576,即基于双流卷积神经网络的动作视频分类);JoaoCarreira提出将GoogleNet中的Inception模块扩展成三维卷积,同时将2D图像网络中学习得到的参数辅助初始化三维卷积神经网络,采用逐层递增的空间和时序卷积核以达到良好的分类效果。(Carreira,Joao,etal.Quovadis,actionrecognition?anewmodelandthekineticsdataset[C]//ComputerVisionandPatternRecognition.IEEE,2017:4724-4733,即一种用于分类动作视频的新型方法以及kinetics数据集)。因此,有效的采用视频中的时间序列信息对动作进行识别是一种可行性较强的方法。
技术实现思路
为了克服现有技术方案无法融合不同时长动作信息的不足,本专利技术提出一种有效融合多时长信息对动作视频进行识别分类的方法,采用多时长三维卷积神经网络算法进行特征学习,获得的特征有更好的判别性,且具有更好的分类精度。本专利技术实现上述专利技术目的所采用的技术方案为:一种基于多时长信息的动作视频识别方法,包括以下步骤:S1:将动作视频转换成序列帧图像,以等间隔方式进行采样;S2:构建多时长信息特征融合层;S3:扩展二维卷积神经网络DenseNet121(Huang,Gao,etal.Denselyconnectedconvolutionalnetworks[C]//ComputerVisionandPatternRecognition.IEEE,2017:2261-2269)至三维卷积神经网络DenseNet121-3D,同时将多时长信息特征融合层嵌入到该网络当中;S4:将步骤1采样得到的序列图像作为输入数据,对网络进行训练,而后就可以将待识别的动作视频输入到网络当中进行识别分类。进一步,所述步骤S1中,由于动作视频数据时间长度不同,则原视频所包含的帧图像数量不一致,每一段视频时间长度为Ti,i∈{1,2,...,N},其中N为训练集中视频数量,计算所有训练集动作视频的平均时间长度:对于原时间长度大于等于平均值的视频,即Ti以剪切的方式取至时间后续部分舍弃;对于原时间长度小于平均值的视频即以重复的方式在视频末尾补充原视频开始部分,补充时长为处理后的视频转化成帧图像,每段视频共有张序列图像,其中f为视频的FPS值,以等间隔的方式选取M张图像作为神经网络的输入数据。再进一步,所述步骤S2中,多时长信息特征融合层由3个并行的卷积操作,1个级联操作,1个平均池化操作所组成;其中,3个卷积操作具有不同的卷积核大小,每个卷积操作互相独立,它们的时间维度均不同,即时间维度d∈{T1,T2,...,TD},以此来捕捉不同时长(短时长,中时长,长时长)的动态特征;假定多时长信息特征融合层的输入为xl,将会被该层的不同卷积核进行卷积计算,输出多个中间特征图{S1,S2,...,SK},其中且均不相同。这些中间特征图被级联成一个特征张量[S1,S2,...,SK]后输入到三维池化层进行特征融合操作,输出特征图x′l。所述步骤S3中,扩展的DensenNet121-3D共有121层不同的计算操作,其中包含三维卷积操作,三维平均池化等操作,对于三维卷积操作,具体公式如下:其中xl+1代表第l层的输出数据,(t,i,j)分别是时间、宽、高三个维度的位置,(KT,KW,KH)分别是第l层的卷积核在时间、宽、高三个维度的大小,表示第l层中第K个特征图的卷积核权重,表示第l层中第K个特征图在(t,i,j)位置的值,bK为第K个特征图的偏置向量;对于三维平均池化操作,公式如下:其中代表第l+1层第K个特征图在位置(t,i,j)的值,t′∈[2t-1,2t+1],i′∈[2i-1,2i+1],j′∈[2j-1,2j+1];最后是一个全连接层,其神经元个数为k,其中k表示待训练数据里的类别数,后紧接一个Softmax分类器得到动作视频所属每一个类别的概率分布,概率计算公式如下:其中,pi为模型预测物体属于第i类的概率,zi为最后一层全连接层第i个神经元的输出。所述步骤S4中,网络训练的损失函数Ltotal由交叉熵损失函数Lcross和L2正则化项组成,如下所示:Ltotal=Lcross+L2其中,n是每批次训练样本数量,l是训练类别数,y(i)和分别表示真实标签以及预测标签概率分布。Ind为指示函数,公式如下:在正则化项L2中,λ是参数正则化的权重参数,w为模型的所有卷积核参数,m为参数的总数量。将步骤1中所得到的M张图像堆叠成图像体输入到网络中进行训练,在迭代E轮后终止训练。将获得的模型参数作为我们的最终模型,进行待识别动作视频的分类。与现有的技术相比,本专利技术的有益效果是:采用多时长三维卷积神经网络算法对不同时长的动作图像进行特征融合学习,能够同时获取不同时长动作的特征,有助于获得具有更好判别性的特征,且具有更好的分类精度。附图说明图1为基于多时长信息的动作视频识别方法流程图;图2为多时长特征融合层示意图;图3为多时长三维卷积神经网络模型框架图;图4为不同神经网络结果对比示意图。具体实施方式下面结合说明书附图对本专利技术做进一步说明。参照图1~图4,一种基于多时长信息的动作视频识别方法,本专利技术使用HMDB51公开数据集来评估所提出本文档来自技高网
...

【技术保护点】
1.一种基于多时长信息的动作视频识别方法,其特征在于,所述方法包括以下步骤:S1:将动作视频转换成序列帧图像,以等间隔方式进行采样;S2:构建多时长信息特征融合层;S3:扩展二维卷积神经网络DenseNet121至三维卷积神经网络DenseNet121‑3D,同时将多时长信息特征融合层嵌入到该网络当中;S4:将步骤1采样得到的序列图像作为输入数据,对网络进行训练,而后就可以将待识别的动作视频输入到网络当中进行识别分类。

【技术特征摘要】
1.一种基于多时长信息的动作视频识别方法,其特征在于,所述方法包括以下步骤:S1:将动作视频转换成序列帧图像,以等间隔方式进行采样;S2:构建多时长信息特征融合层;S3:扩展二维卷积神经网络DenseNet121至三维卷积神经网络DenseNet121-3D,同时将多时长信息特征融合层嵌入到该网络当中;S4:将步骤1采样得到的序列图像作为输入数据,对网络进行训练,而后就可以将待识别的动作视频输入到网络当中进行识别分类。2.如权利要求1所述的一种基于多时长信息的动作视频识别方法,其特征在于:所述步骤S1中,由于动作视频数据时间长度不同,则原视频所包含的帧图像数量不一致,每一段视频时间长度为Ti,i∈{1,2,...,N},其中N为训练集中视频数量,计算所有训练集动作视频的平均时间长度:对于原时间长度大于等于平均值的视频,即以剪切的方式取至时间后续部分舍弃;对于原时间长度小于平均值的视频,即以重复的方式在视频末尾补充原视频开始部分,补充时长为将处理后的视频转化成帧图像,每段视频共有张序列图像,其中f为视频的FPS值,以等间隔的方式选取M张图像作为神经网络的输入数据。3.如权利要求1或2所述的一种基于多时长信息的动作视频识别方法,其特征在于:所述步骤S2中,多时长信息特征融合层由3个并行的卷积操作,1个级联操作,1个平均池化操作所组成,其中,3个卷积操作具有不同的卷积核大小,每个卷积操作互相独立,它们的时间维度均不同,即时间维度d∈{T1,T2,...,TD},以此来捕捉不同时长的动态特征,假定多时长信息特征融合层的输入为xl,将会被该层的不同卷积核进行卷积计算,输出多个中间特征图{S1,S2,...,SK},其中且均不相同,这些中间特征图被级联成一个特征张量[S1,S2,...,SK]后输入到...

【专利技术属性】
技术研发人员:宣琦李甫宪翔云徐东伟刘毅
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1