人体动作识别的训练方法和识别方法技术

技术编号:4016623 阅读:393 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种人体动作识别的训练方法,包括:从视频文件中提取时空兴趣点;将所有时空兴趣点根据其所包含的特征描述子量化到相应的视频单词上,并为视频单词生成统计直方图;根据视频单词所在时空邻域内的时空上下文信息得到该视频单词所在时空邻域内的其它视频单词,由该视频单词与某一满足时空约束的其它视频单词形成时空视频词组;对视频单词所在时空邻域内的时空上下文做聚类,得到语境单词,由视频单词与语境单词形成时空视频单词团体;从时空视频词组中选择代表性时空视频词组,从时空视频单词团体中选择代表性时空视频单词团体;利用视频单词、代表性时空视频词组、代表性时空视频单词团体中的一种特征或将多种特征融合后的结果训练分类器。

【技术实现步骤摘要】

本专利技术涉及视频分析领域,特别涉及。
技术介绍
近年来,随着影视、网络等媒体的迅速普及和发展,视频已经成为承载信息的主要 工具,且视频数据的数目呈爆炸式增长,每时每刻都会有大量新的内容产生。面对海量涌现 的视频数据,如何去自动获取、分析其中包含的信息,理解其中发生的动作、行为或是事件 成了一个亟待解决的问题。大多数视频记录的是作为社会活动主体的人的活动,如何使计算机能够“看”视频 或“理解”视频中人的动作,成为了计算机视觉、图像处理、模式识别、机器学习、人工智能等 多个学科共同关注的问题,具有深远的理论研究意义和很强的实用价值,对人机交互、虚拟 现实和基于内容的视频检索、压缩编码等方面都有重要意义。另一方面,一个标准的视频监 控系统通常有几十路甚至上千路视频及相应的数字录像数据,如果仅通过人工方式,由操 作人员通过观测每一路视频从而发现报警事件很不现实,且这种事后分析的方法,需要消 耗操作人员大量的时间来找出相应片段。解决以上问题的一个有效方法是对视频中人的动 作和行为进行自动识别,提取和记录用户感兴趣的动作事件,从而达到及时报警和有效检 索视频数据的目的。基于视频的人体动作识别就是通过计算机来对视频数据进行处理和分析,学习理 解其中人的动作和行为,在运动检测、特征提取的基础之上,通过分析获得人体运动模式, 在视频内容和动作类型描述之间建立映射关系。在现有技术中,对视频中人体动作识别的 相关方法依据人体动作建模方法的不同,大体上可以分为三类非参数方法、参数化时间序 列方法以及立方体(Volumetric)分析方法。非参数方法通常以单帧图像为单位从视频中 提取特征,然后将这些特征与存储的动作模板(template)进行匹配;参数化时间序列的方 法对运动的动态过程用一个特定模型来拟合,如隐马尔可夫模型(HMMS,hidden Markov Models),线性动态系统(LDSs,Linear DynamicalSystems)等,通过对训练样本数据的学习 来获得每类动作特定的模型参数;而立方体分析方法不再将视频视为一帧一帧图像组成的 时序序列,而是作为一个三维的时空立方体来处理。现有的立方体分析方法中,研究者开始把视频时空体看作是一些局部部分的 集合,而其中的每个局部部分可以包含不同的动作类型,因而对动作的描述更加灵活 而有效。目前较有影响力也被广泛采用的是由Neibels在2006年BMVC上发表的论 文"J. C. Niebles, H. Wang, and L. Fei-Fei,"UnsupervisedLearning of Human Action Categories Using Spatial-Temporal Words", In Proc. British Machine Vision Conference (BMVC),2006” (参考文献1)中所提出的Bag-of-Words (Boffs)模型,该模型将 人的动作表示成通过训练数据预先生成的码本中独立码字的集合,然后通过对这些码字的 识别来实现对人体动作的识别。此方法的缺点在于,视频中包含的时间信息在图像处理的 过程中丢失,因此无法利用时间信息辅助实现对人体动作的识别。很多研究表明,在图像表示技术的基础之上,时间信息可以集成到兴趣点的检测 器和描述子中,进而扩展到对视频中的兴趣点进行定位和描述。Laptev和Lindeberg在 参考文献 2 "I. Laptev, "On space-time interest points", International Journal of Computer Vision (IJCV),vol. 64,no. 2 or 3,pp. 107-123,2005” 中提出一种三维 兴趣点检测器,通过对Harris角点检测器增加一些时间约束从而达到在时空维度中检 测局部结构的目的,用这种方法检测到的兴趣点在时间维度和空间维度上都有很大的变 化。在这项研究的基础上,Scovanner在参考文献3 "P. Scovanner, S. Ali, and Μ. Shah, ‘‘A3_dimensional sift descriptor and its application to action recognition,,, ACMMultimedia, pp. 357-360,2007” 中做了进一步扩展,他通过利用 sub-histogram 来对 局部的时间和空间信息进行编码,构造出三维的SIFT描述子。这种检测兴趣点的方法存 在的问题是,有时候检测到的点很少,而不足以捕获人体动作的全部特征,进而导致识别性 能的下降。Dollar 则在参考文献 4 "P. Dollar, V. Rabaud, G. Cottrell, and S. Belongie, "Behavior recognitionvia sparse spatio-temporal featuresInternational Workshop on VisualSurveillance and Performance Evaluation of Tracking and Surveillance(VS-PETS),pp. 65-72,2005”中采用可分离的线性滤波的方法来取代这种时 空域兴趣点检测的方法,在空域采用二维的高斯滤波,在时域上采用两个正交的一维Gabor 滤波器来检测运动特征。由于这些特征是基于线性操作产生的,如滤波及时空梯度等,因 此这些描述子对外观的改变,噪声以及遮挡等很敏感,而由于它们的局部特性,对非平稳背 景比较鲁棒。上述描述子可以和机器学习算法(如SVM及图模型等)相结合,用于人体动作的 检测和识别。Schuldt 在参考文献 5 "C. Schuldt, I. Laptev, and B. Caputo,"Recognizing human actions -.a local svm approach", In InternationalConference on Pattern Recognition (CVPR),2004”中采用前述参考文献2中的局部描述子,结合SVM对拳击、拍手、 挥手、走、跑和慢跑等六类动作进行识别并取得了较好的结果。但这些早期的研究还只是局 限于受限场景下的人体动作识别,比如特定的视角、动作人、背景和光照,在自然场景下,取 消上述种种限制的情况下,该方法的性能急剧下降甚至不再适用。
技术实现思路
本专利技术的目的是克服现有的人体动作识别方法受到自然环境限制的缺陷,从而提 供一种。为了实现上述目的,本专利技术提供了 一种人体动作识别的训练方法,包括步骤1)、从视频文件中提取时空兴趣点;步骤2)、将步骤1)得到的所有时空兴趣点根据其所包含的特征描述子量化到相 应的视频单词上,并为所述视频单词生成统计直方图;所述视频单词为所有时空兴趣点的 特征描述子所构成的集合中,子集聚类后的结果;步骤3)、根据视频单词所在时空邻域内的时空上下文信息得到该视频单词所在时 空邻域内的其它视频单词,由该视频单词与某一满足时空约束的其它视频单词形成时空视 频词组;步骤4)、对视频单词所在时空邻域内的时空上下本文档来自技高网
...

【技术保护点】
一种人体动作识别的训练方法,包括:步骤1)、从视频文件中提取时空兴趣点;步骤2)、将步骤1)得到的所有时空兴趣点根据其所包含的特征描述子量化到相应的视频单词上,并为所述视频单词生成统计直方图;所述视频单词为所有时空兴趣点的特征描述子所构成的集合中,子集聚类后的结果;步骤3)、根据视频单词所在时空邻域内的时空上下文信息得到该视频单词所在时空邻域内的其它视频单词,由该视频单词与某一满足时空约束的其它视频单词形成时空视频词组;步骤4)、对视频单词所在时空邻域内的时空上下文做聚类,得到语境单词,由所述视频单词与所述语境单词形成时空视频单词团体;步骤5)、从所述时空视频词组中选择代表性时空视频词组,从所述时空视频单词团体中选择代表性时空视频单词团体;步骤6)、利用所述视频单词、代表性时空视频词组、代表性时空视频单词团体中的一种特征或将多种特征融合后的结果训练分类器。

【技术特征摘要】

【专利技术属性】
技术研发人员:秦磊胡琼黄庆明蒋树强
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1