一种基于彩色图像的人手三维姿态估计方法和装置制造方法及图纸

技术编号：26304637 阅读：40 留言：0更新日期：2020-11-10 20:00

本发明专利技术提供一种基于彩色图像的人手三维姿态估计方法和装置。主要解决的问题是如何从单张彩色图像恢复人手三维姿态，该问题主要的技术难点在于彩色图像具有多变的光照影响，人手丰富的手势变化以及由于拍摄角度导致的人手自遮挡等。本发明专利技术提出了基于深度神经网络的人手姿态估计算法，能够从丰富的训练数据中自适应提取特征，并且在实时回归人手关节点的三维位置的同时，能够预测人手区域的深度信息，利用深度信息和关节标注的内在联系，帮助网络提高泛化能力，缓解单任务网络提取的特征泛化能力差的问题。经过实际使用验证，本发明专利技术具有自动化程度高、精度高和实时性的优点，可满足专业的或者大众化的应用需求。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于彩色图像的人手三维姿态估计方法和装置
本专利技术属于计算机视觉、计算机图像处理领域，具体涉及到一种基于彩色图像的人手三维姿态估计方法和装置。
技术介绍
视觉人机交互通过图像处理或视频处理使计算机具备“看”的能力，并依赖大规模数据的统计学习方法使之具备理解分析的能力，是人机交互中最自然最方便的一种方式。其中基于肢体动作的交互是视觉人机交互的核心问题之一，包括姿态估计、人脸识别、手势识别、面部表情识别、三维重建等。人手作为肢体动作中最灵活的部分，操作起来自然、快捷、方便，传递的信息量丰富，应用范围十分广泛，如现在的智能手机、平板电脑，任天堂的Wii，微软的Surface、Kinect等，都使用了拖拽、点击等来实现特定功能。手势交互和手语识别均有广泛的应用场景，且需要精确的手部姿态作为基础，而基于单视角图像的三维人手姿态估计在准确率方面还达不到精细领域的操作要求，因此，精确的人手姿态估计成为了视觉人机交互发展的瓶颈。近年来，机器学习和模式识别的发展，特别是深度学习的带动，使得人手姿态估计有了突破性的进展，但...

【技术保护点】
1.一种基于彩色图像的人手三维姿态估计方法，其特征在于，包括以下步骤：/n构建多任务级联神经网络，用于同时回归彩色图像对应的深度图像和三维关节点位置；/n利用深度图恢复损失和关节点恢复损失对所述多任务级联神经网络进行训练；/n将待估计的彩色图像输入训练完成的所述多任务级联神经网络，得到人手三维关节点坐标。/n

【技术特征摘要】
1.一种基于彩色图像的人手三维姿态估计方法，其特征在于，包括以下步骤：
构建多任务级联神经网络，用于同时回归彩色图像对应的深度图像和三维关节点位置；
利用深度图恢复损失和关节点恢复损失对所述多任务级联神经网络进行训练；
将待估计的彩色图像输入训练完成的所述多任务级联神经网络，得到人手三维关节点坐标。

2.根据权利要求1所述方法，其特征在于，对所述多任务级联神经网络进行训练之前进行数据预处理，包括对齐、裁剪、归一化。

3.根据权利要求2所述方法，其特征在于，所述数据预处理包括：
1)彩色图像和深度图像先进行对齐处理，保证每个像素之间的一一对应；
2)计算深度图像中人手部分点云的中心点COM，以此中心点计算三维包围盒和二维包围盒，对彩色图像和深度图像进行裁剪；
3)彩色图像归一化：除以256，减去0.5；深度图像的归一化：深度减去COM的z值，然后除以一个定值将其约束到[-1,1]之间；三维关节点的归一化：关节点减去COM，然后除以一个定值将其约束到[-1,1]之间。

4.根据权利要求1所述方法，其特征在于，所述多任务级联神经网络以彩色图像为输入，在第一阶段通过深度网络恢复对应的深度图像，在第二阶段利用根据彩色图像提取的特征和第一阶段的中间层特征采用姿态网络预测人手三维关节点坐标；网络中以U-Net为主体特征提取网络，能够将图像的底层特征和高层特征利用起来。

5.根据权利要求1所述方法，其特征在于，所述深度图恢复损失是每个像素的L1损失和，所述关节点恢复损失是每个关节的L2损失和；最后用两个任务损失函数的加权求和作为总损失。

6.根据权利要求5所述方法，其特征在于，所述总损失、所述关节点恢复损失、所述深度图恢复损失采用...

【专利技术属性】
技术研发人员：邓小明，朱玉影，王宏安，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人