当前位置: 首页 > 专利查询>清华大学专利>正文

深度图像中的高精度指尖定位方法及装置制造方法及图纸

技术编号:14517324 阅读:72 留言:0更新日期:2017-02-01 19:50
本发明专利技术公开一种深度图像中的高精度指尖定位方法及装置,能够提高定位精度。所述方法包括:S1、从深度图中提取出边缘梯度图;S2、将所述深度图及边缘梯度图分别利用卷积神经网络提取特征;S3、将两路特征利用卷积神经网络进行融合,并回归出指尖的三维位置。

【技术实现步骤摘要】

本专利技术涉及图像处理
,具体涉及一种深度图像中的高精度指尖定位方法及装置。
技术介绍
基于深度图的手部关键点定位在人机交互中十分关键,在近年来一直是研究热点。在所有手部关键点中,指尖是最重要的部分,和诸如点击、滑动等手势都有密切的关系。同时由于手势的巨大变化、严重的自遮挡和各种深度成像中在指尖处的较大误差,导致指尖位置的估计十分困难,位置误差大于1厘米。现有的关键点检测算法主要分为两类:(1)生成式方法:基于模型的方法,主要有四个组成部分,即模型定义、模型与图像的相似性度量,初始模型参数及最优化模型参数使得相似性最大的算法。其中最优化方法常用的有基于关节的迭代最近点算法和粒子群优化算法。这类方法对于遮挡比较鲁棒,且不需要复杂的模型训练过程,在最优值附近优化时能准确找到解,但算法需要很强的先验和较为准确的初始化参数,对于局部最优比较敏感,而且速度通常较慢,不能满足实时性的要求,这严重制约了算法的适用范围。(2)判别式方法:通过图像特征直接预测关键点位置,即直接从特征训练一个机器学习的模型来对关键点参数进行预测。判别式方法一般采用回归的算法,回归的目标通常有两类,一类是位置偏移,即回归当前位置到目标关键点的位置偏移量,另一类是误差偏移,即回归当前预测的关键点位置和真实关键点位置的残差。常用的模型有随机森林和卷积神经网络。直接预测的方法计算速度比基于模型的方法要快,而且不需要初始化,预测值更为全局,但需要更多的训练,容易过拟合到训练集,在时间维度上会跳变,且对于遮挡更为敏感。目前这类方法大部分均基于手部的拓扑结构,从手掌逐步定位到指尖,这导致在指尖处的位置估计误差累积。
技术实现思路
有鉴于此,本专利技术提供一种深度图像中的高精度指尖定位方法及装置,能够提高定位精度。一方面,本专利技术实施例提出一种深度图像中的高精度指尖定位方法,包括:S1、从深度图中提取出边缘梯度图;S2、将所述深度图及边缘梯度图分别利用卷积神经网络提取特征;S3、将两路特征利用卷积神经网络进行融合,并回归出指尖的三维位置。另一方面,本专利技术实施例提出一种深度图像中的高精度指尖定位装置,包括:第一提取单元,用于从深度图中提取出边缘梯度图;第二提取单元,用于将所述深度图及边缘梯度图分别利用卷积神经网络提取特征;回归单元,用于将两路特征利用卷积神经网络进行融合,并回归出指尖的三维位置。本专利技术实施例提供的深度图像中的高精度指尖定位方法及装置,创造性地利用了深度图的边缘梯度图,并提出了新的特征融合算法,相较于现有的判别式方法,不需要从手掌逐步定位到指尖,从而能够克服指尖处位置估计的误差积累问题,定位精度高,空间位置误差小于1厘米,而且整个过程运算速度快,可以在单核CPU下达到实时,算法鲁棒,能够适应不同的环境,实现简单,易于产品化。附图说明图1为本专利技术深度图像中的高精度指尖定位方法一实施例的流程示意图;图2为图1中S1一实施例的流程示意图;图3为本专利技术深度图像中的高精度指尖定位方法另一实施例的部分流程示意图;图4为本专利技术深度图像中的高精度指尖定位装置一实施例的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参看图1,本实施例公开一种深度图像中的高精度指尖定位方法,包括:S1、从深度图中提取出边缘梯度图;本实施例中,从深度图中提取边缘梯度图的流程如图2所示,主要将深度图或通过深度图提取出来的特征输入到机器学习的模型,得到每个位置预测的边缘梯度信息。特征可以是原图的像素值,也可以是其他机器视觉中的局部特征,比如原图中随机点对的像素差。机器学习模型有随机森林、卷积神经网络等,这些模型首先需要在一些已经标定好了边缘信息的深度图数据集上进行训练,最小化边缘估计误差。通过对每个图像位置的边缘估计,可以得到全图的梯度图。S2、将所述深度图及边缘梯度图分别利用卷积神经网络提取特征;S3、将两路特征利用卷积神经网络进行融合,并回归出指尖的三维位置。后面两个步骤S2和S3的流程如图3所示(图3中各个内置数字的矩形框表示卷积神经网络的一个层,矩形框中的数字表示对应层的参数)。首先需要将深度图和梯度图进行像素值的归一化,使其范围在-1到1之间。然后利用两路卷积神经网络提取出特征,其中卷积神经网络的结构主要由交替的卷积层、降采样层和非线性层组成。为了避免过拟合,两路网络的参数实现共享。最后,利用慢融合的技术,两路特征进一步利用卷积神经网络经过卷积、降采样和非线性操作进行融合,并通过全连接层回归出指尖的三维空间坐标。我们在实验中对比了不同的融合方式,包括早融合(将两路图直接输入进卷积神经网络进行回归)、迟融合(两路特征直到全连接层才进行合并和回归),增强融合(将边缘图直接叠加在原深度图上作为单幅图进行回归),最后发现慢融合技术效果最好。需要说明的是,特征提取的网络及指尖定位的网络可以利用基于随机梯度下降的反向传播算法进行训练。在已经标注了三维指尖位置的深度图数据集上对两部分网络进行联合训练,最小化指尖定位的误差。训练时也需要对深度图提取边缘图,以保证训练和测试的统一。经过评估,本专利的指尖定位误差为9.9毫米,优于目前论文中的所有结果。本专利技术实施例提供的深度图像中的高精度指尖定位方法,创造性地利用了深度图的边缘梯度图,并提出了新的特征融合算法,相较于现有的判别式方法,不需要从手掌逐步定位到指尖,从而能够克服指尖处位置估计的误差积累问题,定位精度高,空间位置误差小于1厘米,而且整个过程运算速度快,可以在单核CPU下达到实时,算法鲁棒,能够适应不同的环境,实现简单,易于产品化。参看图4,本实施例公开一种深度图像中的高精度指尖定位装置,包括:第一提取单元1,用于从深度图中提取出边缘梯度图;在具体应用中,所述第一提取单元1,可以用于:将所述深度图或从所述深度图中提取出来的特征输入到预设的机器学习模型,预测每个位置的边缘梯度信息,从而得到所述边缘梯度图。其中,所述机器学习模型包括随机森林、卷积神经网络。第二提取单元2,用于将所述深度图及边缘梯度图分别利用卷积神经网络提取特征;本实施例中,所述第二提取单元2,可以用于:将所述深度图和边缘梯度图进行像素值的归一化,使像素范围在-1到1之间;利用相同的两路卷积神经网络分别从归一化后的所述深度图和边缘梯度图提取出特征,其中,所述两路卷积神经网络的结构主要由交替的卷积层、降采样层和非线性层组成。回归单元3,用于将两路特征利用卷积神经网络进行融合,并回归出指尖的三维位置。所述回归单元3,可以用于:利用慢融合的技术,利用卷积神经网络将两路特征进行融合,并通过全连接层回归出指尖的三维空间坐标。本专利技术实施例提供的深度图像中的高精度指尖定位装置,创造性地利用了深度图的边缘梯度图,并提出了新的特征融合算法,相较于现有的判别式方法,不需要从手掌逐步定位到指尖,从而能够克服指尖处位置估计的误差积累问题,定位精度高,空间位置误差小于1厘米,而且整个过程运算速度快,可以在单核CPU下达到实本文档来自技高网
...

【技术保护点】
一种深度图像中的高精度指尖定位方法,其特征在于,包括:S1、从深度图中提取出边缘梯度图;S2、将所述深度图及边缘梯度图分别利用卷积神经网络提取特征;S3、将两路特征利用卷积神经网络进行融合,并回归出指尖的三维位置。

【技术特征摘要】
1.一种深度图像中的高精度指尖定位方法,其特征在于,包括:S1、从深度图中提取出边缘梯度图;S2、将所述深度图及边缘梯度图分别利用卷积神经网络提取特征;S3、将两路特征利用卷积神经网络进行融合,并回归出指尖的三维位置。2.根据权利要求1所述的方法,其特征在于,所述S1,包括:将所述深度图或从所述深度图中提取出来的特征输入到预设的机器学习模型,预测每个位置的边缘梯度信息,从而得到所述边缘梯度图。3.根据权利要求2所述的方法,其特征在于,所述机器学习模型包括随机森林、卷积神经网络。4.根据权利要求1所述的方法,其特征在于,所述S2,包括:将所述深度图和边缘梯度图进行像素值的归一化,使像素范围在-1到1之间;利用相同的两路卷积神经网络分别从归一化后的所述深度图和边缘梯度图提取出特征,其中,所述两路卷积神经网络的结构主要由交替的卷积层、降采样层和非线性层组成。5.根据权利要求1所述的方法,其特征在于,所述S3,包括:利用慢融合的技术,利用卷积神经网络将两路特征进行融合,并通过全连接层回归出指尖的三维空间坐标。6.一种深度图像中的高精度...

【专利技术属性】
技术研发人员:王贵锦郭亨凯陈醒濠
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1