一种基于分层动力解析与编码的视频动作分类系统及方法技术方案

技术编号:19693413 阅读:30 留言:0更新日期:2018-12-08 11:34
本发明专利技术涉及一种基于分层动力解析与编码的视频动作分类系统及方法,包括表观特征提取模块、动力解析模块、分层动力编码模块以及分类模块;表观特征提取模块从视频的每一帧或每相邻的几帧中提取表观特征,将视频表示成一个表观特征序列或低维状态序列;动力解析模块对表观特征序列或低维状态序列进行时序聚类,用无监督方式将序列分成若干个阶段,得到阶段解析路径;分层动力编码模块,建立一个两层的动力编码结构,在第一层中使用平均池化或排序池化对每个阶段内的图像帧的表观特征进行编码,得到编码序列;在第二层中使用排序池化对编码序列再次进行编码,获得具有固定维数的视频整体表达;分类模块使用支持向量机(SVM)对视频整体表达进行分类。

【技术实现步骤摘要】
一种基于分层动力解析与编码的视频动作分类系统及方法
本专利技术属于视频分类
,具体涉及一种基于分层动力解析与编码的视频动作分类系统及方法。
技术介绍
视频动作分类的目标是识别出视频中的主体正在执行的动作,在视频安防监控、生物特征识别、行为分析等应用中具有重要作用,因此在计算机视觉领域中受到广泛关注。表观和动力是视频动作的两个重要方面,现有的视频动作分类方法主要可以分为两类:基于表观的方法和基于动力的方法。基于表观的视频动作表达方法包括人工提取的表观特征表达和从数据中学习的表观特征表达。改进的密集轨迹(improveddensetrajectories)【1】是最常用的人工提取的表观表达,该方法首先从视频中提取轨迹特征、HOG、HOF和MBH等局部描述子,然后再用词袋模型、Fisher向量或局部聚集描述符向量【文献2】对这些描述子进行编码,既可以将每一帧中的描述子分别编码得到每一帧的表观表达,也可以对所有帧的描述子统一编码得到整个视频的表观表达。从数据中学习的表观表达通常使用预训练的卷积3D神经网络(C3D)【文献3】,用滑动窗的方法从视频中获取一系列帧级表观特征。基于动力的视频动作表达方法使用鉴别式或产生式模型对视频动作的动力或运动进行建模,这些模型包括动态时间规整【文献4】、线性动力系统【文献5】、基于光流的深度卷积神经网络【文献6】、回归神经网络【文献7】等。排序池化(rankpooling)【文献8】通过排序学习的方法将一系列有序的帧级表观特征进行池化,将视频动作的动力融入具有固定维数的视频整体表达中。基于表观的视频动作分类方法没有考虑视频的动力和视频中图像帧之间的时序依赖关系,而动力和时序关系是区分某些动作(比如“起立”和“坐下”)的关键。现有的基于动力的视频动作表达方法或者需要利用复杂的动态模型对视频进行分类,这需要大量训练视频作为监督数据,或者没有考虑动力的时变性质,将不同类型的动力变换不加区分地进行编码,这可能会隐藏视频的关键动力进展,导致对噪声和时序畸变敏感。【文献1】H.WangandC.Schmid.Actionrecognitionwithimprovedtrajectories.InProceedingsofIEEEInternationalConferenceonComputerVision,pages3551–3558,2013.【文献2】M.Jain,H.Jégou,andP.Bouthemy,“Betterexploitingmotionforbetteractionrecognition,”inProc.IEEEConf.Comput.Vis.PatternRecognit.,Jun.2013,pp.2555–2562.【文献3】D.Tran,L.Bourdev,R.Fergus,L.Torresani,andM.Paluri,“Learningspatiotemporalfeatureswith3Dconvolutionalnetworks,”inProc.IEEEInt.Conf.Comput.Vis.,Dec.2015,pp.4489–4497.【文献4】J.WangandY.Wu,“Learningmaximummargintemporalwarpingforactionrecognition,”inProc.IEEEInt.Conf.Comput.Vis.,Dec.2013,pp.2688–2695.【文献5】G.Luo,S.Yang,G.Tian,C.Yuan,W.Hu,andS.J.Maybank,“Learninghumanactionsbycombiningglobaldynamicsandlocalappearance,”IEEETrans.PatternAnal.Mach.Intell.,vol.36,no.12,pp.2466–2482,Dec.2014.【文献6】K.SimonyanandA.Zisserman,“Two-streamconvolutionalnetworksforactionrecognitioninvideos,”inProc.Adv.NeuralInf.Process.Syst.,2014,pp.568–576.【文献7】N.Srivastava,E.Mansimov,andR.Salakhudinov,“UnsupervisedlearningofvideorepresentationsusingLSTMs,”inProc.32ndInt.Conf.Mach.Learn.(ICML),2015,pp.843–852.【文献8】B.Fernando,E.Gavves,J.M.Oramas,A.Ghodrati,andT.Tuytelaars,“Modelingvideoevolutionforactionrecognition,”inProc.IEEEConf.Comput.Vis.PatternRecognit.,Jun.2015,pp.5378–5387.【文献9】K.Soomro,A.R.Zamir,andM.Shah,“UCF101:Adatasetof101humanactionsclassesfromvideosinthewild,”CenterRes.Comput.Vis.,Univ.CentralFlorida,Orlando,FL,USA,Tech.Rep.CRCV-TR-12-01,Nov.2012.【文献10】I.Laptev,M.Marszalek,C.Schmid,andB.Rozenfeld,“Learningrealistichumanactionsfrommovies,”inProc.IEEEConf.Comput.Vis.PatternRecognit.(CVPR),Jun.2008,pp.1–8.【文献11】J.C.Niebles,C.-W.Chen,andL.Fei-Fei,“Modelingtemporalstructureofdecomposablemotionsegmentsforactivityclassification,”inProc.Eur.Conf.Comput.Vis.,Dec.2010,pp.392–405.
技术实现思路
本专利技术的技术解决问题:克服现有技术的不足,提供一种基于分层动力解析与编码的视频动作分类系统及方法,建立视频动作的多层时序信息和表观信息的联合特征表达,对视频动作进行分类,最终能够无监督地从视频中提取高层有鉴别性的特征表达,有效利用表观特征和动力的分层时序结构两方面的信息,提升视频动作分类的性能。本专利技术采取的技术方案是:一种基于分层动力解析与编码的视频动作分类系统,通过动力解析建立视频动作的分层时序结构,对视频动作的非均匀时序动力进行建模,同时将局部平缓动力和整体剧烈动力进行编码,获取融合了表观信息和分层动力信息的视频动作表达。主要包含四个模块:表观特征提取模块、动力解析模块、分层动力编码模块、分类模块。其中所述表观特征提取模块,使用基于表观的视频动作表达方法,从视频的每一帧或每相邻的几帧中提取表观特征,最终将视频表示成一个表观特征序本文档来自技高网
...

【技术保护点】
1.一种基于分层动力解析与编码的视频动作分类系统,其特征在于:包括表观特征提取模块、动力解析模块、分层动力编码模块和分类模块,其中:所述表观特征提取模块,使用基于表观的视频动作表达方法,从视频的每一帧或每相邻的几帧中提取表观特征,最终将视频表示成一个表观特征序列,如果表观特征的维数超过设定的阈值高维数,则建立线性动力系统模型提取表观特征序列的低维状态序列;所述表观特征是指颜色、纹理、色调的图像属性特征;所述动力解析模块,对获取的表观特征序列或低维状态序列进行时序聚类,用无监督地方式将表观特征序列或低维状态序列分成若干个阶段,得到阶段解析路径,所述阶段解析路径即划分出的各个阶段的起始帧的位置序列;分层动力编码模块,根据动力解析模块的阶段解析路径,建立一个两层的动力编码结构,在第一层中使用平均池化或排序池化对每个阶段内的图像帧的表观特征进行编码,得到由不同阶段的编码组成的编码序列;在第二层中使用排序池化对第一层得到的编码序列进行编码,获得具有固定维数的视频的整体表达;分类模块,使用支持向量机(SVM)对通过分层编码模块得到的视频的整体表达进行分类,最终得到视频的动作类别标签。

【技术特征摘要】
1.一种基于分层动力解析与编码的视频动作分类系统,其特征在于:包括表观特征提取模块、动力解析模块、分层动力编码模块和分类模块,其中:所述表观特征提取模块,使用基于表观的视频动作表达方法,从视频的每一帧或每相邻的几帧中提取表观特征,最终将视频表示成一个表观特征序列,如果表观特征的维数超过设定的阈值高维数,则建立线性动力系统模型提取表观特征序列的低维状态序列;所述表观特征是指颜色、纹理、色调的图像属性特征;所述动力解析模块,对获取的表观特征序列或低维状态序列进行时序聚类,用无监督地方式将表观特征序列或低维状态序列分成若干个阶段,得到阶段解析路径,所述阶段解析路径即划分出的各个阶段的起始帧的位置序列;分层动力编码模块,根据动力解析模块的阶段解析路径,建立一个两层的动力编码结构,在第一层中使用平均池化或排序池化对每个阶段内的图像帧的表观特征进行编码,得到由不同阶段的编码组成的编码序列;在第二层中使用排序池化对第一层得到的编码序列进行编码,获得具有固定维数的视频的整体表达;分类模块,使用支持向量机(SVM)对通过分层编码模块得到的视频的整体表达进行分类,最终得到视频的动作类别标签。2.根据权利要求1所述的基于分层动力解析与编码的视频动作分类系统,其特征在于:所述动力解析模块具体实现如下:(1)输入表观特征序列或低维状态序列,拟划分出的阶段个数L;(2)用平均分割路径作为初始化阶段解析路径,即将表观特征序列或低维状态序列平均分成L段,将每段的起始帧位置组成的序列作为初始阶段解析路径;(3)根据当前阶段解析路径计算每个阶段内的表观特征或低维状态的均值;所有L个阶段的均值组成一个长为L的本质序列;(4)使用动态时间规整算法计算从表观特征序列或低维状态序列到本质序列之间的对齐路径,即对齐到本质序列的所有L个元素的起始帧的位置组成的序列;用该对齐路径更新阶段解析路径;(5)判断阶段解析路径是否收敛,如果未收敛,返回(3);如果收敛,输出阶段解析路径。3.根据权利要求书1所述的一种基于分层动力解析与编码的视频动作分类系统,其特征在于:所述分层动力编码模块具体实现如下:(1)输入表观特征序列和阶段解析路径;(2)对每个阶段,将划分到该阶段内的所有帧对应的表观特征通过平均池化或排序池化进行编码,称为第一层编码,得到编码向量;将所有L个阶段的第一层编码向量组成一个序列,作为第一层编码序列;(3)对第一层编码序列通过排序池化进行编码,称为第二层编码,得到一个具有固定维数的编码向量,将该编码向量作为视频的整体表达输出;(4)可以继续构建更多层动力编码,将第一层编码序列作为输入,使用动力解析模块,得到该编码序列的阶段解析路径,再返回(2),直到达到指定的层数,将(3)的输出作为视频的整体表达输出。4.根据权利要求书1所述的一种基于分层...

【专利技术属性】
技术研发人员:苏冰丁晓青吴郢周嘉欢吕品徐帆江
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1