手势识别方法及装置制造方法及图纸

技术编号：9668284 阅读：76 留言：0更新日期：2014-02-14 07:01

本发明专利技术公开了一种手势识别方法，捕捉常见的人体基本动作并存储为样本动作；根据所述样本动作得到最终的训练动作；对训练动作进行图形渲染生成初步的深度图及相应部位标识图；根据所生成的深度图合成与实时采集的深度图相似的样本；利用合成样本计算对应深度特征向量，训练得到随机森林模型；通过基于平滑度约束的区域生长提取精确深度人像轮廓；基于随机森林模型计算深度人像轮廓的每个像素的深度特征向量，通过随机森林模型确定每个像素的部位标识概率；基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点；记录骨架节点的时序序列形成骨架运动轨迹；抽取人体手部节点的运动轨迹与预定义的模板进行匹配，识别出手势动作类型。本发明专利技术同时公开了一种手势识别装置。

全部详细技术资料下载

【技术实现步骤摘要】
手势识别方法及装置
本专利技术涉及手势识别技术，尤其涉及一种手势识别方法及装置。
技术介绍
基于视觉的体感交互技术近年来越来越多地受到研究人员的关注，特别是当微软发布能够支持全身动作姿态识别的体感交互装置方案Kinect以来，更让广大研究人员看到了体感交互技术未来的应用前景。近年来有大量学者、研究机构和相关企业在从事体感交互方面的探索与研究，大致可分为两个方面：一为近景动作交互，捕获区域和对象较小，集中在手部姿态，如SixthSense等；一为全身动作交互，动作的幅度也更大，需要更大的捕获区域和软硬件处理能力，但用户与虚拟空间的联系感更为强烈，如Kinect、Wii以及一些大型虚拟实境系统。实时姿态估计技术是体感交互的关键技术之一，一直是计算机视觉与多媒体领域内的热点。姿态估计技术指从视频或图片中，提取和估计人物的姿态。在具体交互语境中，系统就能够根据姿态结合上下文识别具体的动作语义。传统的基于色彩光度图的姿态估计技术，容易受光照等多种环境因素的影响，很难同时达到对实时性能与精度的较高要求，并且鲁棒性不佳。深度相机能够直接提供拍摄场景的较准确空间信息，这大大降低了姿态估计的难度。微软的体感交互装置Kinect使用对运动轨迹的方向判断、预测进行手势动作的识别，该方法虽然能够准确的识别出手势动作，但计算量大、耗时久，不能在基于JAVA的Android平台平板电脑、以及IPTV的电视机顶盒上使用。同时，微软的骨架聚合识别工具NITE中间件并未对外开源，在动作识别的开发上存在困难。
技术实现思路
有鉴于此，本专利技术的主要目的在于提供一种手势识别方法及装置，能快速、准...

【技术保护点】
一种手势识别方法，其特征在于，所述方法包括：实时获取人体深度图片，使用阈值分割背景而确定人物位置，再通过基于平滑度约束的区域生长提取精确深度人像轮廓；基于随机森林模型计算深度人像轮廓的每个像素的深度特征，形成特征向量，再通过随机森林模型确定每个像素的部位标识概率；基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点；记录骨架节点的时序序列形成骨架运动轨迹；抽取人体手部节点的运动轨迹与预定义的模板进行匹配，识别出手势动作类型。

【技术特征摘要】
1.一种手势识别方法，其特征在于，所述方法包括：实时获取人体深度图片，使用阈值分割背景而确定人物位置，再通过基于平滑度约束的区域生长提取精确深度人像轮廓；基于随机森林模型计算深度人像轮廓的每个像素的深度特征，形成特征向量，再通过随机森林模型确定每个像素的部位标识概率；基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点；记录骨架节点的时序序列形成骨架运动轨迹；抽取人体手部节点的运动轨迹与预定义的模板进行匹配，识别出手势动作类型。2.根据权利要求1所述的方法，其特征在于，基于随机森林模型计算深度人像轮廓的每个像素的深度特征之前，所述方法还包括：捕捉常见的人体基本动作并存储为样本动作；对所述样本动作进行关键帧聚类，剔除重复和相似的动作，得到最终的训练动作；配合不同的人体模型，对训练动作进行图形渲染生成初步的深度图及相应部位标识图；对所生成的深度图进行重采样、加噪处理，合成与实时采集的深度图相似的样本；利用合成样本计算对应深度特征向量，训练得到随机森林模型。3.根据权利要求2所述的方法，其特征在于，所述利用合成样本计算对应深度特征向量，训练得到随机森林模型，包括：定义深度变化差异特征为：定义深度凹凸差异特征为：其中，u，v为所述深度特征的随机参数，为像素x在u，v方向的位移；dI(x)为深度图I上的像素x的深度值；随机挑选合成样本，并随机抽取合成样本中的若干像素作为训练样本，并读取对应部位标识图获取部位标识；从根节点开始生成单棵随机决策树，对于当前分裂节点进行以下处理：计算当前节点训练样本中样本数量最多的类别，作为该节点的类别，同时计算更新交叉验证错误率；确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时，停止分裂；确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时，继续分裂，寻找最优分裂；所有节点停止分裂时停止训练。4.根据权利要求1或2所述的方法，其特征在于，所述基于随机森林模型计算深度人像轮廓的每个像素的深度特征，形成特征向量，再通过随机森林模型确定每个像素的部位标识概率，包括：读入轮廓提取后的人物深度图；对于图中的所有像素中的每一个非背景像素，计算深度特征向量；调用随机森林识别模型，单棵决策树的终叶子节点给出类别c概率分布为Pt(c|I,x)，则整个随机森林的最终预测结果为：取其中概率最大的类作为当前像素的类别：C(I，x)＝argmaxP(c|I，x)。5.根据权利要求1或2所述的方法，其特征在于，所述基于每个像素对应的人体部位及其概率，滤除识别噪点，聚合生成骨架节点，包括：初始化搜索窗口为整个人像范围；对当前帧的部位识别标识图，遍历所有像素点，按照部位对应的腐蚀窗口大小，腐蚀去除噪点和边缘标识点；定义每个部位的密度分布估计为：其中，x是像素对应的三维空间位置，N为人像像素总数，xl为对应于深度值d将x重投影到三维空间的位置，bc未通过离线训练获得的每个部位的宽度，Exp()为指数运算，“||||”表示二范数，为欧几里得距离；对于被腐蚀的标识点，计算腐蚀窗口的质心，根据当前帧率确定迭代次数，完成骨架节点的聚合，并计算部位的大小和轴方向，确定下一帧的窗口位置和大小；对于落于搜索窗口外的像素，记录其为错误标识，制作错误标识蒙版；对于未被腐蚀且落于搜索窗口内的像素，记录其为正确标识，制作正确标识模板；在下一帧图像中，使用获得的搜索窗口，对当前帧的部位识别标识图，遍历所有像素点，按照部位对应的腐蚀窗口大小，腐蚀去除噪点和边缘标识点，生成骨架节点。6.根据权利要求1所述的方法，其特征在于，所述...

【专利技术属性】
技术研发人员：罗圣美，王高浩，耿卫东，
申请(专利权)人：中兴通讯股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人