基于深度卷积神经网络的自由场景第一视角手指关键点检测方法技术

技术编号：13323381 阅读：304 留言：0更新日期：2016-07-11 10:18

本发明专利技术公开了一种基于深度卷积神经网络的自由场景第一视角手指关键点检测方法，包括下述步骤：S1、获取训练数据，通过合适的定位技术获取得到包含手部的区域，人工标记手指关键点所在的坐标，所述手指关键点包括指尖和手指关节点；S2、设计一个深度卷积神经网络，利用该深度卷积网络求解点坐标回归问题；S3、通过大量标记样本训练该深度卷积神经网络的权重参数，经过一定迭代到达稳定后，获得多层的卷积核参数；S4、以任意前景图片作为输入，经过网络参数的计算后准确得到手指关键点坐标。本发明专利技术提供了一种准确度高、鲁棒性好的第一视角手指关键点检测方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉以及机器学习的研究领域，特别涉及一种基于深度卷积神经网络的自由场景第一视角手指关键点检测方法。
技术介绍
近年来，随着智能眼镜的兴起，第一视角(EgocentricVision)手势交互技术受到学术界和工业界的广泛关注，尤其是GoogleGlass、MicrosoftHololens等智能可穿戴式设备以及Oculus等虚拟现实设备的出现使得传统的人机交互方式难以适用，急需一种算法来帮助设备理解人的交互需要,如手势操作等。手势交互技术主要涉及两个方面，手势识别和关键点定位，本专利技术着眼于关键点定位，即指尖检测定位和指关节检测定位。在过去的几十年中，基于计算机视觉的手部建模方法主要有基于肤色、轮廓、运动的方法。然而基于肤色的方法对背景和光线有较高的要求，基于轮廓的方法在手势发生形变的情况下效果非常不好,基于运动的方法要求背景变化不能有太大变化。总而言之，这些传统方法各自都有较大的局限性，一般都要求在特定的简单背景下才能达到较好的效果。在背景复杂多变、光照变化、手势变化、手势快速移动、摄像头移动、图像模糊等各种各样的非约束条件下，传统的手部建模方法效果很差。另外还有基于红外信息或者深度信息的RGB-D手部建模算法，然而这些技术都需要特殊而昂贵的设备，最有大规模应用前景的还是基于普通摄像头所采集的RGB图像信息的技术。传统方法中人工定义的特征大多都有比较大的局限性,而近来兴起的深度学习技术正好可...

【技术保护点】
基于深度卷积神经网络的自由场景第一视角手指关键点检测方法，其特征在于，包括下述步骤：S1、获取训练数据，通过定位技术获取得到包含手部的区域，人工标记手指关键点所在的坐标，所述手指关键点包括指尖和手指关节点；S2、设计一个深度卷积神经网络，利用该深度卷积网络求解点坐标回归问题，其目标函数为四维向量输出和四维向量真实值之差的欧氏范数，并利用定义进行误差反向传播和梯度下降对目标函数进行优化；S3、通过大量标记样本训练该深度卷积神经网络的权重参数，经过迭代到达稳定后，获得多层的卷积核参数；S4、以任意前景图片作为输入，经过网络参数的计算后得到准确的手指关键点坐标。

【技术特征摘要】
1.基于深度卷积神经网络的自由场景第一视角手指关键点检测方法，其特征在于，包
括下述步骤：
S1、获取训练数据，通过定位技术获取得到包含手部的区域，人工标记手指关键点所在
的坐标，所述手指关键点包括指尖和手指关节点；
S2、设计一个深度卷积神经网络，利用该深度卷积网络求解点坐标回归问题，其目标函
数为四维向量输出和四维向量真实值之差的欧氏范数，并利用定义进行误差反向传播和梯
度下降对目标函数进行优化；
S3、通过大量标记样本训练该深度卷积神经网络的权重参数，经过迭代到达稳定后，获
得多层的卷积核参数；
S4、以任意前景图片作为输入，经过网络参数的计算后得到准确的手指关键点坐标。
2.根据权利要求1所述的基于深度卷积神经网络的自由场景第一视角手指关键点检测
方法，其特征在于，步骤S1具体为：
S1.1、采集大量实际场景样本，以摄像头处于眼镜处作为第一视角模拟，进行大量录像
并使得录像的每一帧包含手势姿态，数据样本需要覆盖不同场景、光照、姿势；然后，切割出
包含手部区域的矩形前景图像；
S1.2、人工标记手指关键点所在位置的笛卡尔坐标，并根据图片的原始长宽进行归一
化存储，即在一个长宽为(w,h)的矩形图像，手指关键点坐标为(a，b)，则归一化坐标为(a/
w,b/h)；
S1.3、转化为一种键值对的数据存储格式，使得图片与坐标配对存储。
3.根据权利要求2所述的基于深度卷积神经网络的自由场景第一视角手指关键点检测
方法，其特征在于，步骤S1.1和S1.2中，
所述手势姿态为单指手势姿态，手指关键点坐标经过人工标记后，第一视角的画面可
见指尖和指关节。
4.根据权利要求2所述的基于深度卷积神经网络的自由场景第一视角手指关键点检测
方法，其特征在于，步骤S1.3中，所述键值对的数据存储格式包括LevelDB或LMDB的数据格
式。
5.根据权利要求1所述的基于深度卷积神经网络的自由场景第一视角手指关键点检测
方法，其特...

【专利技术属性】
技术研发人员：金连文，黄毅超，刘孝睿，张鑫，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人