基于深度卷积神经网络的自由场景第一视角手指关键点检测方法技术

技术编号:13323381 阅读:304 留言:0更新日期:2016-07-11 10:18
本发明专利技术公开了一种基于深度卷积神经网络的自由场景第一视角手指关键点检测方法,包括下述步骤:S1、获取训练数据,通过合适的定位技术获取得到包含手部的区域,人工标记手指关键点所在的坐标,所述手指关键点包括指尖和手指关节点;S2、设计一个深度卷积神经网络,利用该深度卷积网络求解点坐标回归问题;S3、通过大量标记样本训练该深度卷积神经网络的权重参数,经过一定迭代到达稳定后,获得多层的卷积核参数;S4、以任意前景图片作为输入,经过网络参数的计算后准确得到手指关键点坐标。本发明专利技术提供了一种准确度高、鲁棒性好的第一视角手指关键点检测方法。

【技术实现步骤摘要】

本专利技术涉及计算机视觉以及机器学习的研究领域,特别涉及一种基于深度卷积神经网络的自由场景第一视角手指关键点检测方法。
技术介绍
近年来,随着智能眼镜的兴起,第一视角(EgocentricVision)手势交互技术受到学术界和工业界的广泛关注,尤其是GoogleGlass、MicrosoftHololens等智能可穿戴式设备以及Oculus等虚拟现实设备的出现使得传统的人机交互方式难以适用,急需一种算法来帮助设备理解人的交互需要,如手势操作等。手势交互技术主要涉及两个方面,手势识别和关键点定位,本专利技术着眼于关键点定位,即指尖检测定位和指关节检测定位。在过去的几十年中,基于计算机视觉的手部建模方法主要有基于肤色、轮廓、运动的方法。然而基于肤色的方法对背景和光线有较高的要求,基于轮廓的方法在手势发生形变的情况下效果非常不好,基于运动的方法要求背景变化不能有太大变化。总而言之,这些传统方法各自都有较大的局限性,一般都要求在特定的简单背景下才能达到较好的效果。在背景复杂多变、光照变化、手势变化、手势快速移动、摄像头移动、图像模糊等各种各样的非约束条件下,传统的手部建模方法效果很差。另外还有基于红外信息或者深度信息的RGB-D手部建模算法,然而这些技术都需要特殊而昂贵的设备,最有大规模应用前景的还是基于普通摄像头所采集的RGB图像信息的技术。传统方法中人工定义的特征大多都有比较大的局限性,而近来兴起的深度学习技术正好可以解决这个特征提取问题。深度学习技术中比较适合处理视觉信息的主要是深度卷积神经网络(CNN),它是一种监督学习的方法,需要训练样本及其标记,通过反向传播算法,训练出一个能够提取图像浅层特征并逐层将浅层特征通过非线性变换抽象成高级特征的网络。CNN方法在各种视觉识别任务如人脸关键点检测、行人检测等任务中均表现出非常好的效果。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于深度卷积神经网络的自由场景第一视角手指关键点检测方法,解决静态图像中手指关键点检测问题,进而应用到视频流中的手指关键点识别和跟踪。。为了达到上述目的,本专利技术采用以下技术方案:本专利技术基于深度卷积神经网络的自由场景第一视角手指关键点检测方法,包括下述步骤:S1、获取训练数据,通过定位技术获取得到包含手部的区域,人工标记手指关键点所在的坐标,所述手指关键点包括指尖和手指关节点;S2、设计一个深度卷积神经网络,利用该深度卷积网络求解点坐标回归问题,其目标函数为四维向量输出和四维向量真实值之差的欧氏范数,并利用定义进行误差反向传播和梯度下降对目标函数进行优化;S3、通过大量标记样本训练该深度卷积神经网络的权重参数,经过迭代到达稳定后,获得多层的卷积核参数;S4、以任意前景图片作为输入,经过网络参数的计算后得到准确的手指关键点坐标。作为优选的技术方案,步骤S1具体为:S1.1、采集大量实际场景样本,以摄像头处于眼镜处作为第一视角模拟,进行大量录像并使得录像的每一帧包含手势姿态,数据样本需要覆盖不同场景、光照、姿势;然后,切割出包含手部区域的矩形前景图像;S1.2、人工标记手指关键点所在位置的笛卡尔坐标,并根据图片的原始长宽进行归一化存储,即在一个长宽为(w,h)的矩形图像,手指关键点坐标为(a,b),则归一化坐标为(a/w,b/h);S1.3、转化为一种键值对的数据存储格式,使得图片与坐标配对存储。作为优选的技术方案,步骤S1.1和S1.2中,所述手势姿态为单指手势姿态,手指关键点坐标经过人工标记后,第一视角的画面可见指尖和指关节。作为优选的技术方案,所述键值对的数据存储格式包括LevelDB或LMDB的数据格式。作为优选的技术方案,步骤S2具体为:S2.1、设计一个深度卷积神经网络,该深度卷积神经网络包括卷积层、池化层和全卷积层,使得该深度卷积神经网络输入为三通道RGB图像,输出为二维坐标(x,y);S2.2、确定其应用损失函数,应用损失函数用下述公式表示: E = 1 N Σ N ( p i - t i ) 2 ]]>其中pi代表预测的坐标值,ti代表训练样本中已经标注的坐标真实值,N代表输出的手指关键点坐标的个数;S2.3通过损失函数求解其梯度,求得反向传播的残差εi为:εi=pi-ti;其中1≤i≤4。作为优选的技术方案,步骤S3中还包括下述步骤:训练该深度卷积神经网络能够提取不同层级的低层特征和高层特征。作为优选的技术方案,步骤S4中;所述深度卷积神经网络所输出的四个值对应为单指姿态下的指尖二维归一化坐标(x,y)以及指关节二维归一化坐标(x,y)。作为优选的技术方案,步骤S4具体为:S4.1、合理预处理后的前景图片输入到网络,进行一次前向传播,若一次前向传播记为函数F,则有(x1,y1,x2,y2)=F(ImageRGB)S4.2、最终输入为四个浮点值,代表预测的指尖关键点坐标(x1,y1)和手指关节关键点(x2,y2),去归一化后可以得到手指关键点的真实坐标并进行可视化。本专利技术与现有技术相比,具有如下优点和有益效果:1、本专利技术采用人工标记指尖坐标的方式,达到了为后续利用深度卷积神经网络进行监督学习提供了良好的训练样本的效果;2、本专利技术采用归一化坐标结合图像文件名称进行键值对数据格式的储存,达到了训练数据尺寸的可变性;3、本专利技术采用欧氏范数作为损失函数进行优化的方式,达到了利用深度卷积神经网络进行回归问题求解的效果;4、本专利技术采用深度神经网络作为求解回归问题的算法,达到了提取多个层次多个维度的丰富的图像特征的优点附图说明图1(a)-图1(b)是本专利技术体验者佩戴智能眼镜的第一视角示意图;图2是本专利技术的第一视角采集的样本示意;图3是本专利技术的已经完成人工标注的样本;图4是本专利技术的手指关键点检测定位算法流程图;图5是本专利技术的求解点坐标回归问题所使用的深度卷积神经网络示意图;图6(a)-图6(b)是本专利技术的卷积神经网络可视化特征图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,本文档来自技高网
...

【技术保护点】
基于深度卷积神经网络的自由场景第一视角手指关键点检测方法,其特征在于,包括下述步骤:S1、获取训练数据,通过定位技术获取得到包含手部的区域,人工标记手指关键点所在的坐标,所述手指关键点包括指尖和手指关节点;S2、设计一个深度卷积神经网络,利用该深度卷积网络求解点坐标回归问题,其目标函数为四维向量输出和四维向量真实值之差的欧氏范数,并利用定义进行误差反向传播和梯度下降对目标函数进行优化;S3、通过大量标记样本训练该深度卷积神经网络的权重参数,经过迭代到达稳定后,获得多层的卷积核参数;S4、以任意前景图片作为输入,经过网络参数的计算后得到准确的手指关键点坐标。

【技术特征摘要】
1.基于深度卷积神经网络的自由场景第一视角手指关键点检测方法,其特征在于,包
括下述步骤:
S1、获取训练数据,通过定位技术获取得到包含手部的区域,人工标记手指关键点所在
的坐标,所述手指关键点包括指尖和手指关节点;
S2、设计一个深度卷积神经网络,利用该深度卷积网络求解点坐标回归问题,其目标函
数为四维向量输出和四维向量真实值之差的欧氏范数,并利用定义进行误差反向传播和梯
度下降对目标函数进行优化;
S3、通过大量标记样本训练该深度卷积神经网络的权重参数,经过迭代到达稳定后,获
得多层的卷积核参数;
S4、以任意前景图片作为输入,经过网络参数的计算后得到准确的手指关键点坐标。
2.根据权利要求1所述的基于深度卷积神经网络的自由场景第一视角手指关键点检测
方法,其特征在于,步骤S1具体为:
S1.1、采集大量实际场景样本,以摄像头处于眼镜处作为第一视角模拟,进行大量录像
并使得录像的每一帧包含手势姿态,数据样本需要覆盖不同场景、光照、姿势;然后,切割出
包含手部区域的矩形前景图像;
S1.2、人工标记手指关键点所在位置的笛卡尔坐标,并根据图片的原始长宽进行归一
化存储,即在一个长宽为(w,h)的矩形图像,手指关键点坐标为(a,b),则归一化坐标为(a/
w,b/h);
S1.3、转化为一种键值对的数据存储格式,使得图片与坐标配对存储。
3.根据权利要求2所述的基于深度卷积神经网络的自由场景第一视角手指关键点检测
方法,其特征在于,步骤S1.1和S1.2中,
所述手势姿态为单指手势姿态,手指关键点坐标经过人工标记后,第一视角的画面可
见指尖和指关节。
4.根据权利要求2所述的基于深度卷积神经网络的自由场景第一视角手指关键点检测
方法,其特征在于,步骤S1.3中,所述键值对的数据存储格式包括LevelDB或LMDB的数据格
式。
5.根据权利要求1所述的基于深度卷积神经网络的自由场景第一视角手指关键点检测
方法,其特...

【专利技术属性】
技术研发人员:金连文黄毅超刘孝睿张鑫
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1