The invention discloses a method for action recognition, depth convolution characteristics mixed pool strategy includes: 1) based on the input video each frame using the spatial flow depth network model, get the characteristic of each frame on the table; the flow depth network model with time every 10 consecutive video frames, motion feature extraction and video; 2) the space flow and the flow of time depth network of the last layer of laminated roll output depth map using convolution filter method to get the corresponding time pool feature representation, using principal component analysis method to reduce the dimension of the first descriptor; space of flow and the flow of time depth network of the last layer of laminated roll output depth convolution using Pyramid pool method to get corresponding space-time feature representation dimension second descriptors using principal component analysis method; 3) will get the first 2 steps), Two feature descriptors are concatenated to form the feature descriptor of input video, and feature classification is performed by linear support vector machines (SVM) to get the recognition accuracy.
【技术实现步骤摘要】
一种基于混合池化策略的深度卷积特征的动作识别方法
本专利技术涉及计算机视觉领域,更具体地,涉及一种基于混合池化策略的深度卷积特征的动作识别方法。
技术介绍
科技的发展使得摄像设备得到了普及,数量巨大的视频数据也随之产生。同时,针对视频的应用也应运而生:智能视频监控、视频数据分类、高级人机交互等。在这些应用中,针对人的动作进行理解是最核心的关注点,也是人们研究的核心内容。由于人体动作识别有很大的潜在价值,所以此课题作为一个研究热点已经持续了至少十年时间,很多种方法都被提出,例如:基于密集轨迹(DT)的方法、基于时空兴趣点的方法以及基于卷积神经网络(CNN)的方法等。其中,基于CNN的方法研究的人数最多,这种方法能够取得目前最好的结果。然而,大多数深层CNN网络都将单张卷积图看成一个整体来用,而卷积图中的局部信息往往被忽略,所以,我们的动作识别研究将会针对基于深度卷积特征多通道金字塔池化的动作识别方法以提取深度特征中的局部信息。基于卷积神经网络的方法的主要思想是:首先,对视频采用多层的卷积层、池化层和全连接层,提取视频的描述子特征;接下来将这些特征放入分类器中进行分类,以完成最终的识别过程。很多学者在这个基础上进行了探索和改进。Annane等人提出了一种双流卷积网络用于动作识别,包括空间流和时间流网络,空间流用于提取视频帧的表观特征,时间流用于提取视频连续帧的运动特征,将二者进行融合,以此提升识别效果。Wang等人将深度卷积特征和人工特征进行融合,学习到深度特征和人工特征这两种不同类型特征的优势。以上方法都取得了较好的效果,但是现存的基于深度网络的研究通常将单 ...
【技术保护点】
一种基于混合池化策略的深度卷积特征的动作识别方法,其特征在于,包括以下步骤:(1)输入待识别的视频,对输入视频的每一帧,利用空间流深度网络模型得到每帧的表观特征;同时对输入视频的每连续M帧,利用时间流深度网络模型得到运动特征;其中空间流深度网络模型和时间流深度网络模型均包括5个卷积层,3个池化层,以及3个全连接层;(2)对空间流深度网络模型和时间流深度网络模型得到的最后一层卷积层输出的深度卷积图采用时间滤波器池化方法得到对应的特征表示,采用不同长度间隔的时间序列,以获取视频的全局和局部运动,并采用主成分分析方法对特征进行降维,得到第一描述子特征;同时,对空间流深度网络模型和时间流深度网络模型得到的最后一层卷积层输出的深度卷积图采用时空金字塔池化方法得到对应的特征表示,采用4层的时空金字塔结构来获取深度特征图中的局部信息,并对于目标和几何变形具有鲁棒性;同样的也采用主成分分析进行特征降维,得到第二描述子特征;(4)对步骤(2)提取的第一、二描述子特征级联起来,形成该视频最终的向量表示;采用支持向量机(SVM)进行特征分类,最终输出分类结果,获取视频的动作识别结果。
【技术特征摘要】
1.一种基于混合池化策略的深度卷积特征的动作识别方法,其特征在于,包括以下步骤:(1)输入待识别的视频,对输入视频的每一帧,利用空间流深度网络模型得到每帧的表观特征;同时对输入视频的每连续M帧,利用时间流深度网络模型得到运动特征;其中空间流深度网络模型和时间流深度网络模型均包括5个卷积层,3个池化层,以及3个全连接层;(2)对空间流深度网络模型和时间流深度网络模型得到的最后一层卷积层输出的深度卷积图采用时间滤波器池化方法得到对应的特征表示,采用不同长度间隔的时间序列,以获取视频的全局和局部运动,并采用主成分分析方法对特征进行降维,得到第一描述子特征;同时,对空间流深度网络模型和时间流深度网络模型得到的最后一层卷积层输出的深度卷积图采用时空金字塔池化方法得到对应的特征表示,采用4层的时空金字塔结构来获取深度特征图中的局部信息,并对于目标和几何变形具有鲁棒性;同样的也采用主成分分析进行特征降维,得到第二描述子特征;(4)对步骤(2)提取的第一、二描述子特征级联起来,形成该视频最终的向量表示;采用支持向量机(SVM)进行特征分类,最终输出分类结果,获取视频的动作识别结果。2.根据权利要求1所述的基于混合池化策略的深度卷积特征的动作识别方法,其特征在于,所述步骤(1)中,空间流和时间流深度网络模型将视频每帧作为输入,对原始图像做多层的卷积和池化操作,得到每层的输出都是多个深度卷积图,形成更具抽象的图像特征。3.根据权利要求1所述的基于混合池化策略的深度卷积特征的动作识别方法,其特征在于,所述步骤(2)中,选取空间流深度网络和时间流深度网络的最后一层卷积层输出的卷积图来进行时间滤波器池化的操作,具体是对特征图采用4种不同时间间隔的滤波器(1,4,8,1...
【专利技术属性】
技术研发人员:胡海峰,肖翔,
申请(专利权)人:广东顺德中山大学卡内基梅隆大学国际联合研究院,中山大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。