一种运动识别方法技术

技术编号:16779948 阅读:58 留言:0更新日期:2017-12-13 00:06
本发明专利技术公开了一种运动识别方法,包括建立动作数据库;将动作数据库中的帧图像进行叠加,然后将其作为自动编码器的输入,对自动编码器进行训练;然后通过训练模式识别神经网络,建立深度神经网络;在通过提取待识别动作的帧图像,将待识别帧图像与深度神经网络进行对比,并输出识别结果。该方法解决了现有技术中存在的时间成本高、训练时间长、硬件要求高、数据存储空间大以及及时捕获性问题。

A method of motion recognition

The invention discloses a method for motion recognition, including the establishment of a motion database; the frame image motion databases in the stack, then the auto encoder input, the training of auto encoder; then by training the neural network pattern recognition, establish the depth of the neural network; the frame image to be identified through action extraction. To be identified image compared with the depth of the neural network, and the output of the recognition results. This method solves the problems of high time cost, long training time, high hardware requirement, large data storage space and timely capture in the existing technology.

【技术实现步骤摘要】
一种运动识别方法
本专利技术属于计算机视觉和人工智能
;涉及一种运动识别方法;具体的涉及一种基于自动编码器和模式识别神经网络的人体运动识别方法。
技术介绍
人体运动识别是计算机视觉和人工智能领域的热点问题,具有广泛的应用前景,受到很多学者和研究者的关注。同时,由于问题本身的复杂性和不确定性,运动识别仍然是一个非常具有挑战性的课题。许多动作识别方法着重于构建有效的描述符或特征,并对基于特征匹配进行分类。以前的动作识别方法主要包括两类,即:动作特征表示和分类。其中特征表示是识别动作的关键任务。运动序列特征表示通常被分为全局表示和局部表示。全局功能记录总图像的演示。然而,全局特征经常受到阻塞、角度变化和噪音的干扰。基于全局的特征包括:基于视觉的呈现,基于轮廓的描述符,基于边缘的特征和运动历史图像(MHI)等。局部特征经常用于独立的描述小块,并将小块组合在一起构建时空模型,如HOG和SURF。局部描述符可以更有效地呈现动作视频,特别是对于噪声图像和部分遮挡图像。然而,处理相关的兴趣点会产生高时间成本。同时很多常规方法被应用于对人类行为进行分类。例如:一种多类SVM分类器,它使用动态规划来分割序列。局部描述符被组合成用于动作识别的SVM。K-最近邻分类器用于预测动作标签。然而,这些常规识别方法都不能及时捕获动态时空序列信息。此外,已经建立的许多基于深度学习的算法来理解静止图像的含义,卷积神经网络(CNN)已被证明是识别静止图像的有力工具。但是,相对于动作序列图像识别来说是比较困难。一种运动的二维表示通过将序列组合成单个图像,称为二进制运动图像(BMI)。对于分类技术,CNN还用于动作识别。为了识别运动视频,CNN的时间扩展目的是挖掘动作相关的描述符。另一方面,即使采用计算机并行计算技术,如GPU+CUDA技术,并配备高性能硬件支持,CNN依然需要几个小时的时间进行培训。如何有效缩短深度网络的培训时间是一个值得考思考的问题。目前国外公开的文献中,文献[1].H.Jhuang,T.Serre,L.Wolf,T.Poggio,Abiologicallyinspiredsystemforactionrecognition,In:ICCV,2007,pp.1–8.m提出基于特征匹配的分类方法;文献[2].I.Laptev,Onspace–timeinterestpoints,Int.J.Comput.Vis.64(2–3)(2005)107–123.提出利用局部特征构建时空模型的方法;文献[3].M.Hoai,Z.-Z.Lan,F.DelaTorre,Jointsegmentationandclassificationofhumanactionsinvideo,in:CVPR,2011,pp.3265-3272.提出多类SVM分类器;文献[4].A.A.Efros,A.C.Berg,G.Mori,J.Malik,Recognizingactionatadistance,in:ICCV2003,Nice,France,October14–17,2003,pp.726–733.提出K-最近邻分类器;文献[5].KrizhevskyAlex,SutskeverIlya,HintonGeoffreyE.ImageNetclassificationwithdeepconvolutionalneuralnetworks.AdvancesinNeuralInformationProcessingSystems,v2,p1097-1105,2012.提出卷积神经网络(CNN)。但上述文献的预测效果有几点不足:(1)文献[1][2]主要思想是基于特征匹配进行分类。局部描述符虽然可以更有效地呈现动作视频,特别是对于噪声图像和部分遮挡图像。但是处理相关的兴趣点会产生较高的时间成本;(2)文献[3][4]中提出的多类SVM分类器和K-最近邻分类器,前者使用动态规划来分割序列,后者用于预测动作标签,它们都不能及时捕获动态时空序列信息;(3)文献[5]提出的卷积神经网络(CNN),需配备高性能硬件支持,并且需要几个小时的时间进行培训,训练时间长,硬件要求较高;(4)文献[5]提出的卷积神经网络(CNN)是一种传统的使用自动编码器的深度网络,其结构不够紧凑,占用的存储空间较大。
技术实现思路
本专利技术的目的在于提供一种运动识别方法,该方法基于自动编码器和模式识别神经网络建立,解决了现有技术中存在的时间成本高、训练时间长、硬件要求高、数据存储空间大以及及时捕获性问题。本专利技术的技术方案是:一种运动识别方法,包括以下步骤:步骤1,建立训练动作数据库,并且获取所有训练动作的帧图像;步骤2,将帧图像的动作图像和背景图像进行分割,得到动作图像;步骤3,按照区间序列估算动作图像的目标轮廓,并将同一区间序列的目标轮廓排列在一起,得到多个叠加图像集;步骤4,将叠加图像集作为自动编码器的输入,对自动编码器进行训练;步骤5,基于特征信号构建和训练模式识别神经网络;步骤6,组合自动编码器和模式识别神经网络,得到深度神经网络;步骤7,提取待识别动作所有的帧图像,得到待识别的帧图像;步骤8,将待识别的帧图像的动作图像和背景图像进行分割,得到待识别的动作图像;步骤9,按照区间序列估算待识别的动作图像的目标轮廓,并将同一区间序列的目标轮廓排列在一起,得到待识别叠加图像集;步骤10,通过深度神经网络对待识别叠加图像集进行识别,并输出结果。更进一步的,本专利技术的特点还在于:其中步骤1和步骤7中使用二进制图像表示帧图像。其中步骤3中将同一区间序列的多个目标轮廓组合成二进制叠加图像,得到二进制的叠加图像集。其中步骤4中自动编码器包括编码器和解码器。其中步骤4中自动编码器将叠加图像集作为输入,并且映射特征信号,解码器返回估计值。其中步骤4中自动编码器将输入与估计值之间的误差控制通过均方误差、正则化和稀疏正则化组成的代价函数表示。其中步骤5中基于梯度下降算法完成训练模式识别神经网络。与现有技术相比,本专利技术的有益效果是:该方法建立的深度神经网络训练时间短,并且在硬件要求和数据存储空间方面都优于CNN方法,并且该深度神经网络模型能够应用于一些具有较低硬件要求和较少训练样本的动作识别领域;使用二进制图像自动编码器能够减少数据的维数,减少计算量,相比CNN缩短了训练时间,硬件要求低;通过将动作序列图像融合为一个叠加图像集,不仅在单个图像上保留了有效的动作信息,而且扩大了训练样本的数量;该方法建立的深度神经网络模型,其结构更加紧凑,占用的存储空间更小。附图说明图1为本专利技术的方法流程图。具体实施方式下面结合附图和具体实施例对本专利技术的技术方案进一步说明。本专利技术提供了一种运动识别方法,其具体过程如图1所示,包括以下步骤:步骤1,建立训练动作数据库,并且获取所有训练动作的帧图像,其中帧图像为二进制图像,且一个二进制帧图像表示一个训练动作。步骤2,将帧图像的动作图像和背景图像进行分割,得到动作图像。步骤3,按照区间序列估算动作图像的目标轮廓,并将同一区间序列的目标轮廓排列在一起,组合成二进制叠加图像,得到一个叠加图像集,然后根据其他不同区间序列的目标轮廓建立多个叠加图像集。步骤4,将叠加图像集作为自动编码本文档来自技高网
...
一种运动识别方法

【技术保护点】
一种运动识别方法,其特征在于,包括以下步骤:步骤1,建立训练动作数据库,并且获取所有训练动作的帧图像;步骤2,将帧图像的动作图像和背景图像进行分割,得到动作图像;步骤3,按照区间序列估算动作图像的目标轮廓,并将同一区间序列的目标轮廓排列在一起,得到多个叠加图像集;步骤4,将叠加图像集作为自动编码器的输入,对自动编码器进行训练;步骤5,基于特征信号构建和训练模式识别神经网络;步骤6,组合自动编码器和模式识别神经网络,得到深度神经网络;步骤7,提取待识别动作所有的帧图像,得到待识别的帧图像;步骤8,将待识别的帧图像的动作图像和背景图像进行分割,得到待识别的动作图像;步骤9,按照区间序列估算待识别的动作图像的目标轮廓,并将同一区间序列的目标轮廓排列在一起,得到待识别叠加图像集;步骤10,通过深度神经网络对待识别叠加图像集进行识别,并输出结果。

【技术特征摘要】
1.一种运动识别方法,其特征在于,包括以下步骤:步骤1,建立训练动作数据库,并且获取所有训练动作的帧图像;步骤2,将帧图像的动作图像和背景图像进行分割,得到动作图像;步骤3,按照区间序列估算动作图像的目标轮廓,并将同一区间序列的目标轮廓排列在一起,得到多个叠加图像集;步骤4,将叠加图像集作为自动编码器的输入,对自动编码器进行训练;步骤5,基于特征信号构建和训练模式识别神经网络;步骤6,组合自动编码器和模式识别神经网络,得到深度神经网络;步骤7,提取待识别动作所有的帧图像,得到待识别的帧图像;步骤8,将待识别的帧图像的动作图像和背景图像进行分割,得到待识别的动作图像;步骤9,按照区间序列估算待识别的动作图像的目标轮廓,并将同一区间序列的目标轮廓排列在一起,得到待识别叠加图像集;步骤10,通过深度神经网络对待识别叠加图像集进行识别...

【专利技术属性】
技术研发人员:肖秦琨司阳李兴高嵩
申请(专利权)人:西安工业大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1