当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于时空注意力的视频分类方法技术

技术编号:16529327 阅读:25 留言:0更新日期:2017-11-09 21:11
本发明专利技术涉及一种基于时空注意力的视频分类方法,包括以下步骤:对训练视频和待预测视频提取帧和光流,将若干光流堆叠为多通道的图像;搭建时空注意力模型,包括空域注意力网络、时域注意力网络和连接网络;联合训练时空注意力模型中的三个组成部分,使空域、时域注意力的效果同时提升,得到能够准确建模空域、时域显著性并适用于视频分类的时空注意力模型;利用学习得到的时空注意力模型对待预测视频的帧和光流提取空域、时域显著性并进行预测,融合帧和光流的预测得分得到待预测视频的最终语义类别。本发明专利技术能够同时建模空域、时域注意力,并通过联合训练充分利用二者的协作性能,学习得到更准确的空域、时域显著性,从而提高了视频分类的准确率。

【技术实现步骤摘要】
一种基于时空注意力的视频分类方法
本专利技术涉及视频分类
,具体涉及一种基于时空注意力的视频分类方法。
技术介绍
随着社交媒体、自媒体的广泛普及和迅速发展,互联网上的视频数量呈现急剧增长的态势。调查研究表明,2016年每分钟上传到YouTube网站的视频时长超过300小时。美国CISCO公司2016年的视频流量统计和预测报告进一步指出,2020年全球视频流量将占据互联网流量的82%,届时一个用户需要花费五百万年的时间才能看完互联网上一个月内所传输的视频。视频等媒体数据已经成为大数据的主体,如何对视频内容进行准确分析和识别,对于满足用户的信息获取需求意义重大。视频分类是对视频内容进行分析理解以识别其语义类别的技术,在互联网视频监测、人机交互等方面具有广阔的应用前景,长期以来受到学术界和工业界的广泛关注。传统视频分类方法一般采用手工特征表示视频内容,比如首先利用尺度不变特征变换(scale-invariantfeaturetransform,SIFT)描述子、光流直方图(histogramoforientedopticalflow,HOF)表示视频的静态信息和运动信息,再使用词袋(bagofwords,BoW)模型进行特征编码,最终用支持向量机(supportvectormachine,SVM)等分类器预测视频类别。为了优化特征表示,一些方法采用费雪向量(Fishervector)和局部特征聚合描述符(vectoroflocallyaggregateddescriptors,VLAD)等更高效的特征编码方式。此类方法的典型代表是Wang等人2013年发表于ICCV会议的文献“ActionRecognitionwithImprovedTrajectories”中提出的IDT(improveddensetrajectories)算法,该算法在多个空间尺度上对视频帧密集采样特征点,然后跟踪特征点并提取轨迹、HOF等四种特征,同时通过估计相机运动消除背景上的干扰轨迹和光流,之后采用费雪向量对四种特征进行特征编码得到高效的IDT特征。IDT算法在传统视频分类方法中取得了较好的效果,并具有很好的鲁棒性。然而手工特征难以充分表达视频内容的高层语义信息,在大规模视频数据和大量语义类别条件下的视频分类中表现出一定的局限性。相比于手工特征,深度网络具备强大的特征学习能力,其学习出的深度特征能够更好地表达视觉对象的高层语义信息。随着深度学习技术在图像分类、目标识别以及语音识别等领域取得的突破性进展,近年来,研究人员也将深度学习技术应用于视频分类研究中,用深度网络学习视频中的静态特征和运动特征并进行分类。这类方法的经典代表是2014年Simonyan等人在发表于NIPS会议的文献“Two-StreamConvolutionalNetworksforActionRecognitioninVideos”中提出的方法,用两个卷积神经网络(convolutionalneuralnetwork,CNN)分别从视频帧和光流中建模视频内容的静态信息和运动信息,并融合两路信息进行视频分类。该方法取得了令人鼓舞的视频分类结果,启发了一系列应用深度网络进行两路或多路视频特征学习的方法。然而视频帧内的不同区域以及视频序列中不同的帧对于语义内容表达的贡献各不相同。如视频帧通常可以分为显著区域和非显著区域(空域显著性),其中显著区域包含更多有语义区分性的信息,对视频语义内容表达的贡献较大,非显著性区域则包含较少的有用信息,对视频语义内容表达的贡献较小,甚至起到混淆作用;视频序列中每一帧对视频语义内容表达的重要性也各有不同(即时域显著性)。基于深度网络的视频分类方法通常不加区别地对待视频序列中的每一帧和帧内的每一个像素,这限制了特征学习的有效性。为了解决这个问题,研究人员将人类的视觉注意力机制引入深度视频分类方法中,以学习视频中的显著性信息。如Sharma等人于2016年发表在ICLR会议上的文献“ActionRecognitionusingVisualAttention”中提出的方法利用软注意力模型选择视频帧中与视频分类任务有高度相关性的区域,并对其赋予较大的权重。该方法用卷积神经网络提取视频帧区域块的特征,用循环神经网络(recurrentneuralnetwork,RNN)选择具有显著区分性的区域块,提高了视频分类的效果。然而,现有深度视频分类方法不能同时建模视频中的空域显著性和时域显著性,忽略了这两种显著性之间的联系,因此不能充分利用两种显著性学习更有效的视频特征,限制了视频分类的效果。
技术实现思路
针对现有技术的不足,本专利技术提出了一种基于时空注意力的视频分类方法,一方面能够利用空域注意力学习空域显著性,强调视频帧内对于分类起到决定性作用的区域,另一方面能够利用时域注意力学习时域显著性,强调视频序列中对于分类起到决定性作用的帧。本专利技术联合学习空域、时域注意力并使其相互提升,能够提高空域和时域显著性的准确性,提高了视频分类的效果。为达到以上目的,本专利技术采用的技术方案如下:一种基于时空注意力的视频分类方法,用于分析理解视频内容并识别视频的类别,包括以下步骤:(1)数据预处理:对训练视频和待预测视频提取帧和光流,将连续若干光流的水平分量和垂直分量交替堆叠为多通道的图像;(2)时空注意力模型构建与训练:用深度网络构建时空注意力模型,并对其三个组成部分(连接网络和空域、时域注意力网络)进行联合训练,用步骤(1)中训练视频的帧和光流分别学习能够用于视频分类的时空注意力模型;(3)视频分类:利用步骤(2)中训练得到的时空注意力模型对待预测视频的帧和光流计算语义类别的预测得分,融合其预测得分得到待预测视频最终的语义类别。进一步,上述一种基于时空注意力的视频分类方法,所述步骤(1)中,提取训练视频和待预测视频的帧和光流,并将光流的水平、垂直方向上的分量交替堆叠,以作为时空注意力模型的输入。进一步,上述一种基于时空注意力的视频分类方法,所述步骤(2)中,首先用深度网络构建时空注意力模型。时空注意力模型包含以下组成部分:连接网络、空域注意力网络和时域注意力网络。连接网络和空域注意力网络都是由卷积神经网络(convolutionalneuralnetwork,CNN)构成。连接网络包括若干卷积层、池化层和全连接层,最后一个池化层设计为加权池化(weightedpooling)层,用于连接空域注意力网络;空域注意力网络则包括若干卷积层、池化层和一个全连接层,其中最后一个池化层为全局平均池化(globalaveragepooling,GAP)层;时域注意力网络由基于长短时记忆(longshorttermmemory,LSTM)单元的循环神经网络(recurrentneuralnetwork,RNN)构成,包含若干LSTM层和全连接层。连接网络通过加权池化层和全连接层将空域注意力网络和时域注意力网络连接在一起以联合训练,时域注意力和空域注意力网络分别得到对视频分类起到决定性作用的视频帧和帧内区域。进一步,上述一种基于时空注意力的视频分类方法,所述步骤(2)中,通过联合训练连接网络、空域注意力网络和时域注意力网络,能够使得三个网络相互提升,提取更准确的空域显著性和时本文档来自技高网
...
一种基于时空注意力的视频分类方法

【技术保护点】
一种基于时空注意力的视频分类方法,包括以下步骤:(1)对训练视频和待预测视频提取帧和光流,将连续若干光流的水平分量和垂直分量交替堆叠为多通道的图像;(2)用深度网络构建时空注意力模型,并对其连接网络和空域注意力网络、时域注意力网络三个组成部分进行联合训练,用步骤(1)得到的训练视频的帧和光流分别学习能够用于视频分类的时空注意力模型;(3)利用步骤(2)中训练得到的时空注意力模型对待预测视频的帧和光流计算语义类别的预测得分,融合帧和光流的预测得分,得到待预测视频最终的语义类别。

【技术特征摘要】
1.一种基于时空注意力的视频分类方法,包括以下步骤:(1)对训练视频和待预测视频提取帧和光流,将连续若干光流的水平分量和垂直分量交替堆叠为多通道的图像;(2)用深度网络构建时空注意力模型,并对其连接网络和空域注意力网络、时域注意力网络三个组成部分进行联合训练,用步骤(1)得到的训练视频的帧和光流分别学习能够用于视频分类的时空注意力模型;(3)利用步骤(2)中训练得到的时空注意力模型对待预测视频的帧和光流计算语义类别的预测得分,融合帧和光流的预测得分,得到待预测视频最终的语义类别。2.如权利要求1所述的方法,其特征在于,步骤(1)将连续L个光流的水平和垂直分量交替堆叠,得到具有2L个通道的图像。3.如权利要求1所述的方法,其特征在于,所述连接网络由卷积神经网络构成,包含若干卷积层、池化层和全连接层;所述连接网络的最后一个池化层为加权池化层,用于将连接网络和空域注意力网络连接起来。4.如权利要求3所述的方法,其特征在于,所述空域注意力网络由卷积神经网络构成,包含若干卷积层,池化层和一个用于分类的全连接层;所述空域注意力网络的卷积层部分和所述连接网络共享卷积权值,最后一个池化层为全局平均池化层;所述空域注意力网络学习视频中的空域显著性,并通过加权池化层将空域显著性传递给连接网络,以指导连接网络的学习。5.如权利要求4所述的方法,其特征在于,所述空域显著性以及归一化的空域显著性由下列公式计算得到:其中mc(...

【专利技术属性】
技术研发人员:彭宇新张俊超
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1