The invention belongs to the field of computer vision and action recognition, proposes a convolution recursive neural network action recognition method based on attention mechanism, in order to solve in motion recognition can effectively extract significant regional issues, improve the classification accuracy. This method firstly uses the convolution neural network automatically characteristics of motion video extraction; then the space conversion network based on feature map is realized on the attention mechanism, with significant regional feature extraction operation attention mechanism in the generation of target feature image; finally the target feature map input convolution recursive neural network, generating action recognition the final results of the. Experiments show that the proposed method has achieved good results in UCF 11 and HMDB 51 benchmark action video test set, improves the accuracy of gesture recognition.
【技术实现步骤摘要】
一种基于注意机制的卷积递归神经网络的动作识别方法
本专利技术属于计算机视觉动作识别领域,涉及一种基于注意机制的卷积递归神经网络的动作识别方法。
技术介绍
随着互联网的发展,视频已经成为了今天大数据中不可缺少的一部分,这促进了在视频分类方面的研究,产生了大量新颖的技术。视频与图像相比较来说拥有更为丰富且前后相关联的大量信息,这就需要能够建立好的模型去捕获其中包含的特征。当前,视频内容的理解已经成为视频处理中需要解决的问题。而深度学习的方法颠覆了传统算法在语音识别、图像分类、文本理解等众多领域的设计思路,渐渐形成了一种从训练数据出发,经过一个端到端(end-to-end)的模型,最后输出结果的新模式。这不仅让视频分类变得更加简单,而且可以大大提高了分类的准确率。这是由于深度学习能够产生更好的特征表示,而这些特征表示是通过各层之间的相互合作来实现的。在视频分类中,深度学习模型可以分为两类:基于卷积神经网络的模型和基于递归神经网络的模型。基于卷积神经网络的模型是鉴于卷积神经网络(CNN)在图像中的成功提出来的。当前有很多的工作将CNN模型应用于视频领域中,学习视频中隐藏的时空模式。(JiS,YangM,YuK.3Dconvolutionalneuralnetworksforhumanactionrecognition[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2013,35(1):221-231.)将传统的CNN的2D结构拓展到3D结构上,利用3DCNN学习视频中的时空特征,捕获多个相 ...
【技术保护点】
一种基于注意机制的卷积递归神经网络的动作识别方法,其特征在于,包括如下步骤:步骤1:利用卷积神经网络自动地对视频帧图像进行特征提取,提取最后一个卷积层的特征图U作为后续操作的输入;步骤2:利用空间转换网络对视频的特征图进行转换处理;1)对步骤1产生的输入特征图U进行池化操作,得到1维的特征向量;将多帧特征向量输入到递归神经网络中,产生后续所需要的转换参数θ;2)对步骤1产生的输入特征图U的空间坐标位置进行归一化,同时限定输出特征图的空间坐标位置也在[‑1,1]之间,利用1)中产生的转换参数θ构建可微分的空间变换Tθ,利用空间变换Tθ和输出特征图V的坐标产生在输入特征图U中的采样点的坐标,如下式所示:
【技术特征摘要】
1.一种基于注意机制的卷积递归神经网络的动作识别方法,其特征在于,包括如下步骤:步骤1:利用卷积神经网络自动地对视频帧图像进行特征提取,提取最后一个卷积层的特征图U作为后续操作的输入;步骤2:利用空间转换网络对视频的特征图进行转换处理;1)对步骤1产生的输入特征图U进行池化操作,得到1维的特征向量;将多帧特征向量输入到递归神经网络中,产生后续所需要的转换参数θ;2)对步骤1产生的输入特征图U的空间坐标位置进行归一化,同时限定输出特征图的空间坐标位置也在[-1,1]之间,利用1)中产生的转换参数θ构建可微分的空间变换Tθ,利用空间变换Tθ和输出特征图V的坐标产生在输入特征图U中的采样点的坐标,如下式所示:其中是输出特征图的目标坐标,是输入特征图中采样点的坐标,Tθ是仿射变换矩阵;3)利用采样内核在2)中提取到的采样点坐标上进行采样操作,得到输出特征图V中每一个坐标位置的值,产生输出特征图V;采样操作如下:
【专利技术属性】
技术研发人员:葛宏伟,宇文浩,闫泽航,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。