一种基于CNN和SVM的动作识别方法技术

技术编号:15747304 阅读:193 留言:0更新日期:2017-07-03 04:29
本发明专利技术公开了一种基于CNN和SVM的动作识别方法,该方法采用卷积神经网络对视频中的人体进行识别,然后通过支持向量机对识别出的人体区域进行动作识别。在进行支持向量机分类前,对卷积神经网络输出的人体区域采用有效帧提取方法剔除含信息量少的帧图片,再将有效帧片段输入金字塔特征优化模型,对一个连续动作进行综合性的特征描述,不仅减少了运算数据量,提升了方法实时性,同时改善了识别的精度。

An action recognition method based on CNN and SVM

The invention discloses a method for action recognition based on CNN and SVM, the method adopts convolution neural network to identify the video in the human body, and then the support vector machine to recognize the human action areas identified. The support vector machine classification, picture frame body area on the output of a convolutional neural network method to extract and remove the small amount of information using the effective frame, then the effective input frame fragment Pyramid feature optimization model of a continuous action to carry out comprehensive description, not only reduces the amount of data, improved method in real time, and improve the accuracy of recognition.

【技术实现步骤摘要】
一种基于CNN和SVM的动作识别方法
本专利技术属于计算机视觉分析
,特别涉及了一种动作识别方法。
技术介绍
动作识别已经成为计算机视觉分析领域的热点方向,动作识别技术可以运用在智能家居中,可以对危险动作做出预计,协助监控社会治安如对打架斗殴动作,偷窃动作等进行检测和识别。动作检测有着巨大的实用价值。现阶段,常见的对人体动作进行识别的技术包括:基于3DCNN人体动作识别,双路CNN人体动作识别。基于LSTM和CNN的动作识别方法。这些方法存在重复计算,识别精度不高,识别过程中对硬件的寻求较大,对模型训练时需要的数据量和时间较长等问题。利用深度学习能对人体动作进行分析,基本可以达到的对视频中的人的动作进行识别。但是也存在着些问题,使用深度学习对计算机的硬件要求较高,在添加新的类别时训练模型所要花费的时间较多,使用较大训练数据集前提下才能得出较为准确的预测值,实时性不高等缺点。2013年在《IEEETransactionsonPatternAnalysisandMachineIntelligence》上发表的《3DConvolutionalNeuralNetworksforHumanActionRecognition》在动作识别中提出了使用3D卷积网络来对动作做分类。该模型可以从视频中的空间和时间维度进行特征提取,然后进行3D卷积,以捕捉从多个连续帧得到的运动信息。基于3D卷积特征提取器构造了一个3D卷积神经网络。这个架构可以从连续的几帧中产生多通道信息,然后在每一个通道都分离地进行卷积和采样操作,最后将所有通道的信息组合起来得到最终的特征描述。通过将空间、时间维度和连续几帧相结合可以提高对视频中动作识别的精准度。但是也存在问题,3DCNN的主要步骤是先要确定人体的头部及其包围盒,这样一来会增加计算量,降低视频检测的实时性,因为3DCNN同时对连续的7帧进行卷积存在着大量的重复计算,降低了实时性。2015年在《ImageProcessing(ICIP),2016IEEEInternationalConferenceon》上发表的《Saliency-contexttwo-streamconvnetsforactionrecognition》上提出可以使用两个独立的神经网络了,最后再把两个模型的结果平均一下。第一个神经网络就是普通的单帧的CNN,这个CNN是在图片数据上进行预训练,然后在视频数据上对最后一层结果进行调参;第二个是CNN网络,是把连续几帧图片的光流叠加起来作CNN的输入,在最后将两个CNN计算的结果做权衡最后输出权衡结果。它利用两个CNN训练标记来克服数据量不足的问题。提高了CNN检测的精度。但是使用两个神经网络来对视屏进行分析计算流程复杂,对硬件的要求比较高实时性较差;虽然使用了运动的信息,但是运动信息是单独使用的而且只有相邻的两帧,使得识别精度不是很高。
技术实现思路
为了解决上述
技术介绍
提出的技术问题,本专利技术旨在提供一种基于CNN和SVM的动作识别方法,克服了现有技术缺陷,提升了识别的精度和实时性。为了实现上述技术目的,本专利技术的技术方案为:一种基于CNN和SVM的动作识别方法,包括以下步骤:(1)选择CNN训练数据集,进行卷积神经网络训练,得到人体识别模型,能够在视频中识别出人体;(2)选择SVM训练数据集,进行支持向量机训练,得到动作识别模型,能够对人体动作进行分类;(3)将待识别的视频输入步骤(1)得到的人体识别模型,从而识别出视频中的目标,即人体,并保存目标的位置坐标;(4)读取步骤(3)保存的目标位置坐标,从待识别的视频各帧中截取对应位置区域的图片,并将其中的连续帧图片归为一类;(5)构建有效帧提选取方法,使用有效帧提取方法从连续帧图片中选取有效信息集中的有效帧作为一个数据组;(6)将步骤(5)得到的数据组输入卷积神经网络,提取fc7特征向量;(7)构建金字塔特征优化模型,对步骤(6)得到的fc7特征向量进行优化;(8)将优化后的特征向量进行整合,再输入步骤(2)得到的动作识别模型中进行分类,得到动作识别结果。进一步地,步骤(1)的具体过程如下:采用PASCALVOC数据集作为CNN训练数据集,将人体图片转化成lmdb格式数据,将lmdb格式的人体图片和图片中人体的坐标输入卷积神经网络中进行训练,得到人体识别模型。进一步地,步骤(2)的具体过程如下:采用UCFsports数据集作为SVM训练集,在该数据集的每个动作中给定了人的图片和图片中相应的动作及相应的坐标,采用OPENCV中的cvSetImageROI函数截取感兴趣区域,将视频中截取的连续帧归为一类,采用有效帧提取方法从连续帧中提取出有效帧,将有效帧输入金字塔特征优化模型中得到特征向量,按照数据集中给定的动作对特征向量中的每个特征进行唯一标号,将带有标号的特征向量输入支持向量机中进行训练,得到动作识别模型。进一步地,在步骤(5)中,所述有效帧提取方法的过程如下:采用局部敏感哈希算法对连续的n帧图片的fc7特征向量进行hash映射,得到n个二进制特征空间,若当前帧的二进制特征空间中的特征与前一帧不同,则将当前帧作为有效帧,并把当前帧到下一个有效帧的前一帧作为一个有效帧片段。进一步地,步骤(7)的具体过程如下:将步骤(5)得到的有效帧片段作为金字塔的塔尖,提取每一帧图片的fc7层特征,将h1=fM-f1作为金字塔顶层的CNN流;在金字塔中间层,将有效帧片段均分为两份,将h2=f(M/2)-f1和h3=fM-f(M/2)+1作为金字塔中间层的两个CNN流;在金字塔底层,将金字塔中间层均分的两份有效帧片段各自再均分为两份,将h4=fM/4-f1,h5=f(M/2)+1-f(M/4)+1,h6=f(3M/4)-f(M/2)+1,h7=fM-f(3M/4)+1作为金字塔底层的CNN流,一共得到7个CNN流h1-h7,使用这7个CNN流作为某一个连续动作的特征向量;其中,fi为有效帧片段中第i帧的fc7层特征,i=1,2,…,M,M为有效帧片段的长度。采用上述技术方案带来的有益效果:本专利技术通过有效帧提取方法选取出连续帧之间的有效帧,通过此方法减少了对价值不高帧的识别,提高了方法的实时性;构建了金字塔特征优化模型对一个连续的动作进行综合性的特征描述,将一个连续的动作特征放入SVM中分类,提高了识别的准确性。附图说明图1是本专利技术的方法流程图。图2是本专利技术中有效帧提取方法示意图。图3是本专利技术中金字塔特征优化模型示意图。具体实施方式以下将结合附图,对本专利技术的技术方案进行详细说明。一种基于CNN和SVM的动作识别方法,如图1所示,具体过程如下。首先,选择CNN训练数据集,进行卷积神经网络训练,得到人体识别模型,能够在视频中识别出人体。使用PASCALVOC数据集来做全局卷积神经网络(CNN)训练所用的数据集,这里我们采用的是PASCALVOC中人这一类的图片和人体相对应的包围盒坐标,我们将人这一类图片转化成lmdb格式的数据。将lmdb格式的数据和图片中人体的坐标放入卷积神经网络中进行训练,卷积神经网络通过若干个7*7的小格将图片分为若干块然后对小格进行同时处理。每个小格中有5个圈基层5个池化层和三个特征提层。当数据经过第一层卷积层卷积和本文档来自技高网
...
一种基于CNN和SVM的动作识别方法

【技术保护点】
一种基于CNN和SVM的动作识别方法,其特征在于,包括以下步骤:(1)选择CNN训练数据集,进行卷积神经网络训练,得到人体识别模型,能够在视频中识别出人体;(2)选择SVM训练数据集,进行支持向量机训练,得到动作识别模型,能够对人体动作进行分类;(3)将待识别的视频输入步骤(1)得到的人体识别模型,从而识别出视频中的目标,即人体,并保存目标的位置坐标;(4)读取步骤(3)保存的目标位置坐标,从待识别的视频各帧中截取对应位置区域的图片,并将其中的连续帧图片归为一类;(5)构建有效帧提选取方法,使用有效帧提取方法从连续帧图片中选取有效信息集中的有效帧作为一个数据组;(6)将步骤(5)得到的数据组输入卷积神经网络,提取fc7特征向量;(7)构建金字塔特征优化模型,对步骤(6)得到的fc7特征向量进行优化;(8)将优化后的特征向量进行整合,再输入步骤(2)得到的动作识别模型中进行分类,得到动作识别结果。

【技术特征摘要】
1.一种基于CNN和SVM的动作识别方法,其特征在于,包括以下步骤:(1)选择CNN训练数据集,进行卷积神经网络训练,得到人体识别模型,能够在视频中识别出人体;(2)选择SVM训练数据集,进行支持向量机训练,得到动作识别模型,能够对人体动作进行分类;(3)将待识别的视频输入步骤(1)得到的人体识别模型,从而识别出视频中的目标,即人体,并保存目标的位置坐标;(4)读取步骤(3)保存的目标位置坐标,从待识别的视频各帧中截取对应位置区域的图片,并将其中的连续帧图片归为一类;(5)构建有效帧提选取方法,使用有效帧提取方法从连续帧图片中选取有效信息集中的有效帧作为一个数据组;(6)将步骤(5)得到的数据组输入卷积神经网络,提取fc7特征向量;(7)构建金字塔特征优化模型,对步骤(6)得到的fc7特征向量进行优化;(8)将优化后的特征向量进行整合,再输入步骤(2)得到的动作识别模型中进行分类,得到动作识别结果。2.根据权利要求1所述基于CNN和SVM的动作识别方法,其特征在于:步骤(1)的具体过程如下:采用PASCALVOC数据集作为CNN训练数据集,将人体图片转化成lmdb格式数据,将lmdb格式的人体图片和图片中人体的坐标输入卷积神经网络中进行训练,得到人体识别模型。3.根据权利要求1所述基于CNN和SVM的动作识别方法,其特征在于:步骤(2)的具体过程如下:采用UCFsports数据集作为SVM训练集,在该数据集的每个动作中给定了人的图片和图片中相应的动作及相应的坐标,采用OPENCV中的cvSetImageRO...

【专利技术属性】
技术研发人员:施旭涛孙知信赵学健骆冰清
申请(专利权)人:南京邮电大学盐城大数据研究院有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1