基于协同表示和判别准则的多视角联合动作词典学习方法技术

技术编号:10866657 阅读:91 留言:0更新日期:2015-01-07 07:54
本发明专利技术公开了一种基于协同表示和判别准则的多视角联合动作词典学习方法,实现对多视角场景内在关系的挖掘。具体包含以下步骤:(1)视频预处理,(2)时空特征提取,(3)基于图模型的多视角特征融合,(4)基于“词袋”方法的特征归一化,(5)基于协同表示和判别准则的多视角联合动作词典学习,(6)基于多视角联合动作词典和稀疏表示的动作识别。本发明专利技术的优点是通过基于协同表示和判别准则的多视角联合动作词典学习,充分挖掘多视角场景中人体动作特征的内在关联特性,从而为实现多视角人体动作的高效识别提供帮助。

【技术实现步骤摘要】

本专利技术属于计算机视觉和模式识别
,涉及一种基于协同表示和判别准则 的多视角联合动作词典学习方法,用于挖掘多视角监控场景中人体动作特征内在的关联 性,在人体动作识别领域,验证了多视角联合动作词典学习方法的有效性。
技术介绍
基于视觉的人体动作识别是计算机视觉和模式识别领域的一个极具挑战性的研 究热点,并因其在智能监控、便捷的人机交互、数字娱乐等领域的潜在应用受到学术界和工 业界的密切关注。早期的人体动作识别大多是在可人为控制的特定实验环境下进行,即通 过固定或控制光照、视角、距离和被关注对象位置等外因来简化问题,从而提高动作识别的 准确率。但是,随着应用的不断推广,在可控环境下的现有研究成果往往无法适应于实际的 多样化需求。当前的真实应用系统往往存在严重的遮挡、视角变化和被关注对象位置变化 等多种外因带来的影响,常常通过多摄像头监控系统的搭建来采集多视角信息,从而为准 确的人体动作识别提供帮助。因此,挖掘人体动作的视觉特性,融合多视角信息,研究多视 角下的人体动作识别方法成为当前研究热点。 在计算机视觉和模式识别相关研究领域中,多视角人体动作分析一直是最活跃的 研究领域之一。由于三维空间往往较二维图像包含更多的视觉信息,因此早期研究多是通 过多视角采集的视差图像进行三维空间的重建,并在三维空间进行人体动作识别。由于三 维重建计算复杂度高,并且理想的三维重建本身存在很强的挑战性,因此,近些年通过二维 视觉信息的表征和复杂人体动作模型的构建成为该领域主流方法。但是由于目标差异较 大,同时,即使相同目标的动作也存在差异,这给人体动作识别带来了很大困难。
技术实现思路
本专利技术的目的是针对多视角动作识别中,常用方法无法充分地挖掘多视角场景下 的人体动作的内在关联性,因此,本专利技术提供了 一种1?效的基于协同表不和判别准则的多 视角联合动作词典学习方法,用于充分地挖掘多视角场景下人体动作的内在关联,并在人 体动作识别中进行了验证。 本专利技术提供的,用于挖 掘多视角监控场景中人体动作特征内在的关联性,从而为高效的人体动作识别提供帮助。 该方法具体包含以下步骤: 第1、视频预处理 第1.1、根据真实标注信息,对所有多视角视频进行分割,保证每个分割后的视频中仅 包含一个动作,并且将多个视角下的视频和动作进行对齐; 第1. 2、针对多视角视频中的所有图像序列,通过中值滤波进行噪声过滤; 第2、时空兴趣点提取 针对不同视角和不同动作的视频,采用MoSIFT分别提取时空兴趣点,并保存对应的结 果; 第3、基于概率图模型的多视角时空兴趣点融合 针对不同视角下相同动作的时空兴趣点的提取结果,使用概率图模型的方法对多视角 特征进行融合,挖掘多视角特征的内在一致性;具体步骤包括: 第3. 1、分别基于MoSIFT算法提取相邻视角下相同动作的时空兴趣点; 第3. 2、针对相邻视角,以每个时空兴趣点为节点,并以两个视角下时空兴趣点的余弦 相似性为边,构建图模型; 第3. 3、针对某个视角下每个点,根据其与另一个视角下点的相似性和预先设定的阈 值,找出最为相似的几个点,从而以这几个点的中心为替代点,其它点将被剔除; 第4、基于词袋的特征归一化 针对第2步提取的时空兴趣点以及第3步处理后的时空兴趣点,采用词袋方法对这 些时空兴趣点进行归一化,并保存对应的结果,作为对应动作的最后特征; 第5、基于协同表不和判别准则的多视角联合动作词典学习 在第4步归一化特征的基础上,根据协同表示和判别准则制定相应的正则项,构建多 视角联合动作词典,并对其进行学习,完成相应词典的构建;具体步骤包括: 第5. 1、在所有视角提取特征的基础上,为了挖掘多视角内在的关联特性,制定多视角 联合保真项、基于图模型的融合保真项、组稀疏正则项和具有结构化的判别正则项; 第5. 2、在3. 1的基础上,构建基于协同表不和判别准则的多视角联合动作词典学习模 型,用于学习对应的词典; 第5. 3、针对该模型的联合非凸性,无法直接求解,但是当其中某个变量固定时,该模型 又变为凸函数,因此,通过坐标下降法对该目标函数进行求解迭代,获得对应的多视角动作 联合词典; 第6、基于多视角联合动作词典和稀疏表示的动作识别 为了验证多视角动作联合词典构建方法的有效性,在多视角人体动作识别中进行了验 证,实现目标动作的识别。 本专利技术的优点和有益效果; 1)充分分析多视角场景中人体动作特征的内在关联特性,设计通过概率图模型的方 法,剔除多余的冗余点,保留其一致性,2)根据分析结果,设计协同表示和判别准则正则项, 构建多视角联合动作词典目标函数,充分挖掘它们内在的关联特征。 【附图说明】 图1为本专利技术的流程图。 图2为多摄像头布局的示意图。 图3为具体过滤前后的图像对比,A为过滤前的图像,B为噪声过滤后的图像。 图4为不同动作下提取的时空兴趣点示意图,其中(a)拳击、(b)鼓掌、(c)双手挥 动、(d)慢跑、(e)正常跑步、(f)走路、(g)弯腰、(h)捡东西、(i)投掷、(j)原地起跳。 图5为基于概率图模型的多视角特征融合。 图6为基于词袋方法对时空兴趣点的投影和归一化流程。 图7为待表征样本的重建系数的前后分布情况,说明模型构建的合理性。 图8为本专利技术在多视角动作数据集上评估性能以及与其它算法的比较,其中 C1+C2+C3表示不同视角下的样本直接叠加,增加训练样本,C1_C2_C3表示不同视角下的样 本特征直接连接,构建高维特征,而C1/C2/C3表示本专利技术采用的词典学习算法。 【具体实施方式】 下面结合附图对本专利技术作进一步的描述。 实施例1 如图1所示,为本专利技术的一种基于协同表示和判别准则的多视角联合动作词典学习方 法的操作流程图,图2为多摄像头布局的示意图,该方法的操作步骤包括: 步骤10视频预处理 首先,根据真实标注信息,对所有多视角视频进行分割,保证每个分割后的视频中仅包 含一个动作,并且将多个视角下的视频和动作进行对齐;其次,针对多视角视频中的所有图 像序列,通过中值滤波器对图象进行噪声过滤,其具体为:首先,针对图像中的每个像素,获 取其周围5*5模板内的所有像素,并对这些像素进行排序,取排序后的中间值代替这个像 素值;然后,依次遍历图像中的所有像素,过滤前后的图像对比如图3所示; 步骤20时空兴趣点特征提取 针对不同视角和不同动作的视频,采用MoSIFT分别提取时空兴趣点,并保存对应的结 果;提取时空兴趣点特征,具体包括以下步骤: (1) 首先通过不同尺度的高斯函数对原始图像进行滤波,并计算相邻尺度的滤波图像 的差,然后,对原始图像进行下采样,同样进行高斯滤波,从而构成金字塔图像; (2) 在金字塔图像上,寻找空间极值点,同时,过滤不稳定的极值点; (3) 进一步地,计算每个极值点的光流,判断光流大小,从而决定空间极值点是否为时 空兴趣点; (4) 针对所有时空兴趣点,分别计算对应H0G和H0F特征,从而形成最终的特征描述。 图4给出了检测出的时空兴趣点特征,其具体方法参考:Ming-yu Chen and Alex Hauptmann, MoSIFT: Rec本文档来自技高网
...

【技术保护点】
一种基于协同表示和判别准则的多视角联合动作词典学习方法,用于挖掘多视角视频监控中目标动作的内在关联,以实现对多视角场景的动作识别,其特征在于该方法具体包含以下步骤:第1、视频预处理第1.1、根据真实标注信息,对所有多视角视频进行分割,保证每个分割后的视频中仅包含一个动作,并且将多个视角下的视频和动作进行对齐;第1.2、针对多视角视频中的所有图像序列,通过中值滤波进行噪声过滤;第2、时空兴趣点提取针对不同视角和不同动作的视频,采用MoSIFT分别提取时空兴趣点,并保存对应的结果;第3、基于概率图模型的多视角时空兴趣点融合针对不同视角下相同动作的时空兴趣点的提取结果,使用概率图模型的方法对多视角特征进行融合,挖掘多视角特征的内在一致性;第4、基于“词袋”的特征归一化针对第2步提取的时空兴趣点以及第3步处理后的时空兴趣点,采用“词袋”方法对这些时空兴趣点进行归一化,并保存对应的结果,作为对应动作的最后特征;第5、基于协同表示和判别准则的多视角联合动作词典学习在第4步归一化特征的基础上,根据协同表示和判别准则制定相应的正则项,构建多视角联合动作词典,并对其进行学习,完成相应词典的构建;第6、基于多视角联合动作词典和稀疏表示的动作识别为了验证多视角动作联合词典构建方法的有效性,在多视角人体动作识别中进行了验证,实现目标动作的识别。...

【技术特征摘要】
1. 一种基于协同表示和判别准则的多视角联合动作词典学习方法,用于挖掘多视角视 频监控中目标动作的内在关联,以实现对多视角场景的动作识别,其特征在于该方法具体 包含以下步骤: 第1、视频预处理 第1.1、根据真实标注信息,对所有多视角视频进行分割,保证每个分割后的视频中仅 包含一个动作,并且将多个视角下的视频和动作进行对齐; 第1. 2、针对多视角视频中的所有图像序列,通过中值滤波进行噪声过滤; 第2、时空兴趣点提取 针对不同视角和不同动作的视频,采用MoSIFT分别提取时空兴趣点,并保存对应的结 果; 第3、基于概率图模型的多视角时空兴趣点融合 针对不同视角下相同动作的时空兴趣点的提取结果,使用概率图模型的方法对多视角 特征进行融合,挖掘多视角特征的内在一致性; 第4、基于词袋的特征归一化 针对第2步提取的时空兴趣点以及第3步处理后的时空兴趣点,采用词袋方法对这 些时空兴趣点进行归一化,并保存对应的结果,作为对应动作的最后特征; 第5、基于协同表不和判别准则的多视角联合动作词典学习 在第4步归一化特征的基础上,根据协同表示和判别准则制定相应的正则项,构建多 视角联合动作词典,并对其进行学习,完成相应词典的构建; 第6、基于多视角联合动作词典和稀疏表示的动作识别 ...

【专利技术属性】
技术研发人员:高赞张桦宋健明薛彦兵徐光平
申请(专利权)人:天津理工大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1