一种基于注意机制的卷积递归神经网络的动作识别方法技术

技术编号:16428242 阅读:28 留言:0更新日期:2017-10-21 23:35
本发明专利技术属于计算机视觉动作识别领域,提出了一种基于注意机制的卷积递归神经网络的动作识别方法,用以解决在动作识别中无法有效的提取显著性区域的问题,提高了分类的准确性。本方法首先利用卷积神经网络自动地对动作视频进行特征提取;然后利用空间转换网络在特征图的基础上实现了注意机制,利用注意机制操作提取特征图中的显著区域,生成目标特征图;最后将目标特征图输入卷积递归神经网络中,产生最后的动作识别结果。实验证明所提方法在UCF‑11和HMDB‑51等基准动作视频测试集上取得了很好的效果,提高了动作识别的准确性。

An action recognition method based on attention mechanism of convolutional recurrent neural network

The invention belongs to the field of computer vision and action recognition, proposes a convolution recursive neural network action recognition method based on attention mechanism, in order to solve in motion recognition can effectively extract significant regional issues, improve the classification accuracy. This method firstly uses the convolution neural network automatically characteristics of motion video extraction; then the space conversion network based on feature map is realized on the attention mechanism, with significant regional feature extraction operation attention mechanism in the generation of target feature image; finally the target feature map input convolution recursive neural network, generating action recognition the final results of the. Experiments show that the proposed method has achieved good results in UCF 11 and HMDB 51 benchmark action video test set, improves the accuracy of gesture recognition.

【技术实现步骤摘要】
一种基于注意机制的卷积递归神经网络的动作识别方法
本专利技术属于计算机视觉动作识别领域,涉及一种基于注意机制的卷积递归神经网络的动作识别方法。
技术介绍
随着互联网的发展,视频已经成为了今天大数据中不可缺少的一部分,这促进了在视频分类方面的研究,产生了大量新颖的技术。视频与图像相比较来说拥有更为丰富且前后相关联的大量信息,这就需要能够建立好的模型去捕获其中包含的特征。当前,视频内容的理解已经成为视频处理中需要解决的问题。而深度学习的方法颠覆了传统算法在语音识别、图像分类、文本理解等众多领域的设计思路,渐渐形成了一种从训练数据出发,经过一个端到端(end-to-end)的模型,最后输出结果的新模式。这不仅让视频分类变得更加简单,而且可以大大提高了分类的准确率。这是由于深度学习能够产生更好的特征表示,而这些特征表示是通过各层之间的相互合作来实现的。在视频分类中,深度学习模型可以分为两类:基于卷积神经网络的模型和基于递归神经网络的模型。基于卷积神经网络的模型是鉴于卷积神经网络(CNN)在图像中的成功提出来的。当前有很多的工作将CNN模型应用于视频领域中,学习视频中隐藏的时空模式。(JiS,YangM,YuK.3Dconvolutionalneuralnetworksforhumanactionrecognition[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2013,35(1):221-231.)将传统的CNN的2D结构拓展到3D结构上,利用3DCNN学习视频中的时空特征,捕获多个相邻帧中编码的运动信息。(KarpathyA,TodericiG,ShettyS,etal.Large-ScaleVideoClassificationwithConvolutionalNeuralNetworks[C]//IEEEConferenceonComputerVisionandPatternRecognition.IEEEComputerSociety,2014:1725-1732)研究了几种能够拓展CNN模型时间连通性的方法,如单帧融合、早期融合、晚期融合,同时提出了CNN的混合分辨率的架构,由低分辨率的上下文和高分辨率的流组成。这种架构可以加快训练的速度。(AnnaneD,ChevroletJC,ChevretS,etal.Two-StreamConvolutionalNetworksforActionRecognitioninVideos[J].AdvancesinNeuralInformationProcessingSystems,2014,1(4):568-576)提出了一个双流方法,以原始的RGB帧和光流图像分别作为两个CNN的输入,利用这两个CNN模型分别提取视频中的空间特征和时间特征。基于递归神经网络的模型能够更好的探索中视频帧序列中的时间信息。(DonahueJ,HendricksLA,RohrbachM,etal.Long-termRecurrentConvolutionalNetworksforVisualRecognitionandDescription.[M]//ABinittocalculationofthestructuresandpropertiesofmolecules/.Elsevier,2014:85-91)提出了两个两层LSTM网络框架,用于动作识别。他们利用了来自双流方法的特征作为输入,原始的RGB图像和光流图像。(WuZ,WangX,JiangYG,etal.ModelingSpatial-TemporalCluesinaHybridDeepLearningFrameworkforVideoClassification[J].2015:461-470)将LSTM模型与CNN模型进行了结合,提出了一个混合深度学习框架来进行视频分类,这个模型能够对视频中的静态空间信息,短期运动以及长期的时间线索进行建模。(NgYH,HausknechtM,VijayanarasimhanS,etal.Beyondshortsnippets:Deepnetworksforvideoclassification[J].2015,16(4):4694-4702)提出和评估几种深层神经网络架构,与之前的方法比较,这些网络架构能够整合视频中更长时间段的图像信息。这些网络架构可以分为两类,第一类是在卷积神经网络中分别采用几种不同时间特征池化方法,如ConvPooling,LatePooling:,SlowPooling等;第二类方法是通过利用递归卷积神经网络对视频的时间特征进行建模,在这类方法上训练了5层的LSTM模型。传统的深度学习方法往往没有区别地对待视频帧中的显著性区域跟非显著性区域,而是同等的考虑视频帧的所有空间位置,然而视频帧中非显著区域可能会影响到最终的分类结果,降低分类的准确率。注意机制的提出可以很好的解决这个问题,它能够有效提取视频中显著性的区域,同时减少非显著性区域对分类的影响。注意机制模型是最近被提出用于动作识别中的,视频在动作识别上还有很大的研究空间。(SharmaS,KirosR,SalakhutdinovR.ActionRecognitionusingVisualAttention[J].ComputerScience,2016)提出了第一个注意机制的LSTM的动作识别模型。这是一种基于软注意力的模型,用于视频中的动作识别任务。他们使用具有长短期记忆(LSTM)单元的多层递归神经网络进行建模。(JaderbergM,SimonyanK,ZissermanA,etal.SpatialTransformerNetworks[J].ComputerScience,2015)在图像分类中提出了空间转换网络实现图像转换,他们将这个模型加入到卷积神经网络中,消除池化操作局部感受和固定大小带来的影响。这个模型是可微的,同时可以根据输入特征图的不同进行不同的空间转换。(SK,CK,L,etal.RecurrentSpatialTransformerNetworks[J].ComputerScience,2015)将传统的空间转换网络模型改变为递归空间转换网络,这个模型主要是考虑到图像中有多个目标,他们将图像重复多次形成序列,利用递归空间转换网络对图像序列进行分类,每一步产生一个类别,最后产生图像的多个类别。(KuenJ,WangZ,WangG.RecurrentAttentionalNetworksforSaliencyDetection[J].2016:3668-3677)利用空间转换网络实现了递归注意机制的卷积-反卷积网络(RACDNN),他们将这一模型应用于图像的显著性检测上,消除了传统的卷积-反卷积网络不能很好的处理多规模目标的问题。传统的注意机制就是在特征图上进行加权操作,可以分为软注意机制和硬注意机制;软注意机制模型需要考虑到视频特征图中的所有部分,特征图中的每个位置都有一个权重,显著性区域的权重较大,而那些非显著区域的权重比较小,这种机制无法有效的消除非显著性区域的影响;硬注意机制比软注意机本文档来自技高网...
一种基于注意机制的卷积递归神经网络的动作识别方法

【技术保护点】
一种基于注意机制的卷积递归神经网络的动作识别方法,其特征在于,包括如下步骤:步骤1:利用卷积神经网络自动地对视频帧图像进行特征提取,提取最后一个卷积层的特征图U作为后续操作的输入;步骤2:利用空间转换网络对视频的特征图进行转换处理;1)对步骤1产生的输入特征图U进行池化操作,得到1维的特征向量;将多帧特征向量输入到递归神经网络中,产生后续所需要的转换参数θ;2)对步骤1产生的输入特征图U的空间坐标位置进行归一化,同时限定输出特征图的空间坐标位置也在[‑1,1]之间,利用1)中产生的转换参数θ构建可微分的空间变换Tθ,利用空间变换Tθ和输出特征图V的坐标产生在输入特征图U中的采样点的坐标,如下式所示:

【技术特征摘要】
1.一种基于注意机制的卷积递归神经网络的动作识别方法,其特征在于,包括如下步骤:步骤1:利用卷积神经网络自动地对视频帧图像进行特征提取,提取最后一个卷积层的特征图U作为后续操作的输入;步骤2:利用空间转换网络对视频的特征图进行转换处理;1)对步骤1产生的输入特征图U进行池化操作,得到1维的特征向量;将多帧特征向量输入到递归神经网络中,产生后续所需要的转换参数θ;2)对步骤1产生的输入特征图U的空间坐标位置进行归一化,同时限定输出特征图的空间坐标位置也在[-1,1]之间,利用1)中产生的转换参数θ构建可微分的空间变换Tθ,利用空间变换Tθ和输出特征图V的坐标产生在输入特征图U中的采样点的坐标,如下式所示:其中是输出特征图的目标坐标,是输入特征图中采样点的坐标,Tθ是仿射变换矩阵;3)利用采样内核在2)中提取到的采样点坐标上进行采样操作,得到输出特征图V中每一个坐标位置的值,产生输出特征图V;采样操作如下:

【专利技术属性】
技术研发人员:葛宏伟宇文浩闫泽航
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1