手势识别方法及装置制造方法及图纸

技术编号:9668284 阅读:76 留言:0更新日期:2014-02-14 07:01
本发明专利技术公开了一种手势识别方法,捕捉常见的人体基本动作并存储为样本动作;根据所述样本动作得到最终的训练动作;对训练动作进行图形渲染生成初步的深度图及相应部位标识图;根据所生成的深度图合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型;通过基于平滑度约束的区域生长提取精确深度人像轮廓;基于随机森林模型计算深度人像轮廓的每个像素的深度特征向量,通过随机森林模型确定每个像素的部位标识概率;基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;记录骨架节点的时序序列形成骨架运动轨迹;抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。本发明专利技术同时公开了一种手势识别装置。

【技术实现步骤摘要】
手势识别方法及装置
本专利技术涉及手势识别技术,尤其涉及一种手势识别方法及装置。
技术介绍
基于视觉的体感交互技术近年来越来越多地受到研究人员的关注,特别是当微软发布能够支持全身动作姿态识别的体感交互装置方案Kinect以来,更让广大研究人员看到了体感交互技术未来的应用前景。近年来有大量学者、研究机构和相关企业在从事体感交互方面的探索与研究,大致可分为两个方面:一为近景动作交互,捕获区域和对象较小,集中在手部姿态,如SixthSense等;一为全身动作交互,动作的幅度也更大,需要更大的捕获区域和软硬件处理能力,但用户与虚拟空间的联系感更为强烈,如Kinect、Wii以及一些大型虚拟实境系统。实时姿态估计技术是体感交互的关键技术之一,一直是计算机视觉与多媒体领域内的热点。姿态估计技术指从视频或图片中,提取和估计人物的姿态。在具体交互语境中,系统就能够根据姿态结合上下文识别具体的动作语义。传统的基于色彩光度图的姿态估计技术,容易受光照等多种环境因素的影响,很难同时达到对实时性能与精度的较高要求,并且鲁棒性不佳。深度相机能够直接提供拍摄场景的较准确空间信息,这大大降低了姿态估计的难度。微软的体感交互装置Kinect使用对运动轨迹的方向判断、预测进行手势动作的识别,该方法虽然能够准确的识别出手势动作,但计算量大、耗时久,不能在基于JAVA的Android平台平板电脑、以及IPTV的电视机顶盒上使用。同时,微软的骨架聚合识别工具NITE中间件并未对外开源,在动作识别的开发上存在困难。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种手势识别方法及装置,能快速、准确的识别出体感动作,适用于计算性能并不强大终端如电视机顶盒中。为达到上述目的,本专利技术的技术方案是这样实现的:一种手势识别方法,包括:实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率;基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;记录骨架节点的时序序列形成骨架运动轨迹;抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。优选地,基于随机森林模型计算深度人像轮廓的每个像素的深度特征之前,所述方法还包括:捕捉常见的人体基本动作并存储为样本动作;对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应部位标识图;对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型。优选地,所述利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:定义深度变化差异特征为:定义深度凹凸差异特征为:其中,u,v为所述深度特征的随机参数,为像素x在u,v方向的位移;dI(x)为深度图I上的像素x的深度值;随机挑选合成样本,并随机抽取合成样本中的若干像素作为训练样本,并读取对应部位标识图获取部位标识;从根节点开始生成单棵随机决策树,对于当前分裂节点进行以下处理:计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时,停止分裂;确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时,继续分裂,寻找最优分裂;所有节点停止分裂时停止训练。优选地,所述基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率,包括:读入轮廓提取后的人物深度图;对于图中的所有像素中的每一个非背景像素,计算深度特征向量;调用随机森林识别模型,单棵决策树的终叶子节点给出类别c概率分布为Pt(c|I,x),则整个随机森林的最终预测结果为:取其中概率最大的类作为当前像素的类别:C(I,x)=argmaxP(c|I,x)。优选地,所述基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点,包括:初始化搜索窗口为整个人像范围;对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点;定义每个部位的密度分布估计为:其中,x是像素对应的三维空间位置,N为人像像素总数,x1为对应于深度值d将x重投影到三维空间的位置,bc未通过离线训练获得的每个部位的宽度,Exp()为指数运算,“‖‖”表示二范数,为欧几里得距离,wi为像素权重,wt=P(c|I,xt).dI(xt)2;对于被腐蚀的标识点,计算腐蚀窗口的质心,根据当前帧率确定迭代次数,完成骨架节点的聚合,并计算部位的大小和轴方向,确定下一帧的窗口位置和大小;对于落于搜索窗口外的像素,记录其为错误标识,制作错误标识蒙版;对于未被腐蚀且落于搜索窗口内的像素,记录其为正确标识,制作正确标识模板;在下一帧图像中,使用获得的搜索窗口,对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点,生成骨架节点。优选地,所述实时获取人体深度图片为:使用深度相机获取人体深度图片;捕捉常见的人体基本动作时,还捕捉人体手部的动作。一种手势识别装置,包括人像轮廓获取单元、部位标识概率确定单元、骨架节点生成单元、记录单元和识别单元,其中:人像轮廓获取单元,实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;部位标识概率确定单元,用于通过随机森林模型确定每个像素的部位标识概率;骨架节点生成单元,用于基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;记录单元,用于记录骨架节点的时序序列形成骨架运动轨迹;识别单元,用于抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。优选地,所述装置还包括:训练单元,用于捕捉常见的人体基本动作并存储为样本动作;对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应部位标识图;对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型;优选地,所述训练单元利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:定义深度变化差异特征为:定义深度凹凸差异特征为:其中,u,v为所述深度特征的随机参数,为像素x在u,v方向的位移;dI(x)为深度图I上的像素x的深度值;随机挑选合成样本,并随机抽取合成样本中的若干像素作为训练样本,并读取对应部位标识图从而获取对应像素的部位标识;从根节点开始生成单棵随机决策树,对于当前分裂节点进行以下处理:计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时,停止分裂;确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类本文档来自技高网...
手势识别方法及装置

【技术保护点】
一种手势识别方法,其特征在于,所述方法包括:实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率;基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;记录骨架节点的时序序列形成骨架运动轨迹;抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。

【技术特征摘要】
1.一种手势识别方法,其特征在于,所述方法包括:实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率;基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;记录骨架节点的时序序列形成骨架运动轨迹;抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。2.根据权利要求1所述的方法,其特征在于,基于随机森林模型计算深度人像轮廓的每个像素的深度特征之前,所述方法还包括:捕捉常见的人体基本动作并存储为样本动作;对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应部位标识图;对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型。3.根据权利要求2所述的方法,其特征在于,所述利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:定义深度变化差异特征为:定义深度凹凸差异特征为:其中,u,v为所述深度特征的随机参数,为像素x在u,v方向的位移;dI(x)为深度图I上的像素x的深度值;随机挑选合成样本,并随机抽取合成样本中的若干像素作为训练样本,并读取对应部位标识图获取部位标识;从根节点开始生成单棵随机决策树,对于当前分裂节点进行以下处理:计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时,停止分裂;确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时,继续分裂,寻找最优分裂;所有节点停止分裂时停止训练。4.根据权利要求1或2所述的方法,其特征在于,所述基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率,包括:读入轮廓提取后的人物深度图;对于图中的所有像素中的每一个非背景像素,计算深度特征向量;调用随机森林识别模型,单棵决策树的终叶子节点给出类别c概率分布为Pt(c|I,x),则整个随机森林的最终预测结果为:取其中概率最大的类作为当前像素的类别:C(I,x)=argmaxP(c|I,x)。5.根据权利要求1或2所述的方法,其特征在于,所述基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点,包括:初始化搜索窗口为整个人像范围;对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点;定义每个部位的密度分布估计为:其中,x是像素对应的三维空间位置,N为人像像素总数,xl为对应于深度值d将x重投影到三维空间的位置,bc未通过离线训练获得的每个部位的宽度,Exp()为指数运算,“||||”表示二范数,为欧几里得距离;对于被腐蚀的标识点,计算腐蚀窗口的质心,根据当前帧率确定迭代次数,完成骨架节点的聚合,并计算部位的大小和轴方向,确定下一帧的窗口位置和大小;对于落于搜索窗口外的像素,记录其为错误标识,制作错误标识蒙版;对于未被腐蚀且落于搜索窗口内的像素,记录其为正确标识,制作正确标识模板;在下一帧图像中,使用获得的搜索窗口,对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点,生成骨架节点。6.根据权利要求1所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:罗圣美王高浩耿卫东
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1