一种基于卡尔曼滤波和深度学习的手势姿态估计方法技术

技术编号:35795491 阅读:29 留言:0更新日期:2022-12-01 14:46
本发明专利技术涉及计算机视觉技术领域,尤其是一种基于卡尔曼滤波和深度学习的手势姿态估计方法,本发明专利技术包括两个主要部分:一是一种基于卡尔曼滤波数据融合的高精度姿态标注的姿态估计数据集制作,包括第一阶段仿真手姿态估计阶段和第二阶段真实手势图像采集和姿态数据融合阶段;二是基于深度学习和集成学习的对双视角RGB图像进行3D手势姿态估计,3D手势姿态估计分为手势姿态估计模型的训练阶段和预测阶段。在数据集的制作过程中也需要使用到本申请提出的基于深度学习和集成学习的手势姿态估计方法作为卡尔曼滤波中的观测校正使用。估计方法作为卡尔曼滤波中的观测校正使用。估计方法作为卡尔曼滤波中的观测校正使用。

【技术实现步骤摘要】
一种基于卡尔曼滤波和深度学习的手势姿态估计方法


[0001]本专利技术涉及计算机视觉,人机交互相关
,尤其是一种基于卡尔曼滤波和深度学习的手势姿态估计方法,进行了虚实信息融合。

技术介绍

[0002]手势作为人体与外界进行接触的一种重要媒介,在人机交互、增强现实、虚拟现实和手势识别等领域具有十分广泛的应用。随着新型人交互方式朝着更加自然、便利的趋势发展,基于手势的人机交互在游戏娱乐、医疗、智能家居和军工等领域具有非常重要的研究意义和前景,准确的手势姿态估计是使用手势进行人机交互等应用的关键环节。
[0003]目前,手势姿态估计方法可以分为基于可穿戴传感器设备的方法和基于计算机视觉的方法。基于可穿戴传感器设备的方法要求使用者穿戴装有传感器的数据手套或其它外部辅助设备,借助传感器部件直接获取手势关节点的位置坐标。此类方法不易受光照、背景等自然环境因素的影响,具有较好的鲁棒性和稳定性,但该方法由于辅助设备一般价格昂贵,精密度较高,需要繁琐的操作步骤和维护校准过程,佩戴后会对人手产生一定的动作束缚,使用时灵活性不高。另一种基于计算机视觉的方法,是对手势图像进行模型学习或者数据匹配的方法,它又可根据预测结果的空间维度分为3D姿态估计和2D姿态估计。3D手势姿态估计的研究大多是基于深度图像的,深度图像自带目标对象的深度信息,极大的便利姿态估计的研究。而获取深度图像的深度相机是依据结构光技术、双目立体视觉技术或者飞行时间方法而成像的,其对光照等其它环境因素十分敏感,不适合室外以及其它特殊场景的使用,且一般价格昂贵,移植性差。相比于深度图像,RGB图像的适用性更高,对环境要求低,获取简便,但RGB图像具有深度模糊性,是实现3D姿态估计难点之一,同时难以对其进行精确的姿态数据标注,常用的姿态标注方法就是借助外部物理传感器获取相应的姿态数据,但在实际使用过程中,传感器与手的相对位移以及传感器受环境影响等因素容易产生误差,高质量、高精度的数据集相对缺乏。另外,人手的高自由度和自遮挡特性仍然是手势姿态估计需要克服的问题。
[0004]在基于手势进行视觉人机交互的一些应用中,如移动车载云台监控、特种武装移动侦察机器人以及各种简单的机械臂结构,它们的受控对象的自由度不高,使用一种或几种简单手型即可完成相应的控制。因此,在2D图像上实现对固定手型的3D姿态估计具有十分重要的研究意义和广泛的应用前景。
[0005]由于RGB图像缺乏深度信息,常借助单一外部传感器设备进行姿态标注的方法仍然不够精确,其原因一是传感器本身的精度问题;二是传感器在使用过程中难以避免与人手发生相对位移等情况,即使使用精确度较高的传感器仍然可能存在较大误差。

技术实现思路

[0006]针对上述问题,本专利技术提出了一种基于卡尔曼滤波和深度学习的手势姿态估计方法, 本方法中基于双视角RGB图像的对固定手型进行3D手势姿态估计, 采用卡尔曼滤波融
合了采集手势图像时手中姿态传感器输出的姿态角度数据(实际物理传感器观测数据)和手势图像经过预先训练的手势姿态估计模型预测的姿态角度数据(虚拟传感器观测数据),通过对一个实际传感器和一个虚拟传感器观测数据的卡尔曼滤波融合,能够有效纠正如传感器在使用中与目标对象间因发生相对位移等情况产生的非传感器精度而导致的测量误差。
[0007]本方案中的数据集制作方法的主要流程为,首先在3D仿真环境中预先构建所预测手型的仿真手模型并采集仿真手模型在三维空间中匀速转动过程中的双视角RGB手势图像以及手势图像对应的三维姿态数据,对采集的仿真手图像和姿态数据训练仿真手的3D姿态估计模型; 在现实环境中,人手保持与上述仿真环境中同样的手型姿态并手握姿态传感器,使用两个RGB相机采集真手在三维空间中匀速转动过程中与上述仿真环境中的视角相似的双视角真手RGB图像,同时记录采集手势图像时姿态传感器输出的手势姿态数据。将采集的双视角真手RGB图像使用上述训练好的仿真手姿态估计模型进行姿态预测,使用卡尔曼滤波多传感器数据融合算法将该模型预测的手势姿态数据和双视角真手图像对应的姿态传感器输出的手势姿态数据进行数据融合,融合输出对双视角真手图像的高精度姿态标注数据。采集大量的双视角真手RGB图像并使用卡尔曼滤波对上述来自两种不同渠道的姿态数据进行数据融合,以此获得高精度姿态标注的手势姿态估计数据集,并解决RGB图像因缺少深度信息而标注困难的问题。另外,本申请公开了基于双视角RGB图像的对固定手型进行3D姿态估计的方法,融合了深度学习出色的自动特征提取能力和集成学习算法稳健的回归拟合能力,首先使用CNN提取双视角手势图像的深层特征,再对特征使用集成学习算法进行姿态的回归,构造了一种对双视角RGB手势图像的深度特征进行集成的手势姿态估计模型。该手势姿态估计方法能够有效克服手势自遮挡对预测产生的影响,解决了在普通2D图像上的3D手势姿态估计问题。
[0008]本专利技术提供如下技术方案:一种基于卡尔曼滤波和深度学习的手势姿态估计方法,首先,制作基于卡尔曼滤波数据融合的姿态标注的双视角手势姿态估计数据集,包括第一阶段仿真手姿态估计阶段和第二阶段真实手势图像采集和姿态数据融合阶段;其次,对姿态标注的双视角手势姿态估计数据集进行3D姿态估计,包括手势姿态估计模型的训练阶段和预测阶段。
[0009]步骤1

9为基于卡尔曼滤波数据融合的高精度姿态标注的姿态估计数据集制作方法,步骤1

4为第一阶段仿真手姿态估计阶段,步骤5

9为第二阶段真实手势图像采集和姿态数据融合阶段;步骤10

20为第二部分基于深度学习和集成学习的手势姿态估计方法,步骤10

14为第一阶段手势姿态估计模型的训练阶段,步骤15

20为第二阶段模型的预测阶段,高质量的数据集是基于学习的姿态估计方法取得预期效果的前提。
[0010]制作双视角手势姿态估计数据集时,首先进行仿真手姿态估计,其次,进行真实手势图像采集和姿态数据融合。
[0011]仿真手姿态估计包括如下步骤,步骤1、确定所要预测的固定手势形态,即固定手型;步骤2、对于步骤1确定的固定手型,使用建模仿真软件对固定手型进行3D建模,生成与该手型在形态、肤色和纹理等物理外观特性近似的仿真手模型;步骤3、在3D仿真软件中导入对于步骤2中获得的仿真手模型,并在3D仿真软件中
设置两个摄像头,然后在3D仿真环境软件中采集仿真手模型在3维空间中旋转时的双视角手势图像和三轴姿态角度数据,为翻滚角、为俯仰角、为偏航角,制作仿真手模型的姿态估计数据集;其中3D仿真软件中两个摄像头和仿真手模型的位姿关系与人类双眼和手势的位姿关系相同;步骤4、对于仿真手模型的姿态估计数据集使用本基于深度学习和集成学习的手势姿态估计方法,训练仿真手的3D姿态估计模型,使3D姿态估计模型能够对仿真手模型图像实现三维手势姿态的预测;具体操作同步骤10

20。
[0012]真实手势图像采集和姿态数据融合包括如下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卡尔曼滤波和深度学习的手势姿态估计方法,其特征在于:制作基于卡尔曼滤波数据融合的姿态标注的双视角手势姿态估计数据集,包括第一阶段仿真手姿态估计阶段和第二阶段真实手势图像采集和姿态数据融合阶段;对姿态标注的双视角手势姿态估计数据集进行3D姿态估计,包括手势姿态估计模型的训练阶段和预测阶段。2.根据权利要求1所述的基于卡尔曼滤波和深度学习的手势姿态估计方法,其特征在于,制作双视角手势姿态估计数据集时,首先进行仿真手姿态估计,其次,进行真实手势图像采集和姿态数据融合;仿真手姿态估计包括如下步骤,步骤1、确定所要预测的固定手势形态,即固定手型;步骤2、对于步骤1确定的固定手型,使用建模仿真软件对固定手型进行3D建模,生成与该手型的物理外观特性近似的仿真手模型,物理外观特性包括在形态、肤色和纹理;步骤3、在3D仿真软件中导入对于步骤2中获得的仿真手模型,并在3D仿真软件中设置两个摄像头,然后在3D仿真环境软件中采集仿真手模型在3维空间中旋转时的双视角手势图像和三轴姿态角度数据,为翻滚角、为俯仰角、为偏航角,制作仿真手模型的姿态估计数据集;其中3D仿真软件中两个摄像头和仿真手模型的位姿关系与人类双眼和手势的位姿关系相同;步骤4、对于仿真手模型的姿态估计数据集使用基于深度学习和集成学习的手势姿态估计方法,训练仿真手的3D姿态估计模型,使3D姿态估计模型能够对仿真手模型图像实现三维手势姿态的预测;真实手势图像采集和姿态数据融合包括如下步骤,步骤5、真实环境下,真实人手保持所要预测的手型姿态,手中置有姿态传感器,采集真实人手在三维空间旋转时的双视角手势图像序列和姿态传感器输出的三轴姿态角度数据序列,此时的双视角相机视角位置与步骤2中的双视角设置相同,此过程的姿态称为传感器输出姿态;步骤6、将步骤3采集的双视角真手图像帧输入到步骤4,使用仿真手图像训练得到的仿真手姿态估计模型中进行姿态预测,该姿态数据称为模型预测姿态;步骤7、将步骤6中预测的双视角图像对应的传感器输出姿态和模型对图像的预测姿态使用卡尔曼滤波进行数据的融合,将两个均具有不确定性的姿态数据通过卡尔曼滤波融合后输出准确的手势三维姿态数据,该三维姿态数据称为融合姿态,此过程中使用卡尔曼滤波进行多传感器的姿态数据融合操作,融合的是来自不同传感器的手势姿态数据;步骤8、将步骤7生成的手势融合姿态作为步骤6采集的手势图像的标签并保存;步骤9、对步骤5中采集的所有双视角真实手势图像帧和对应的传感器输出姿态均按照步骤6、7、8进行操作,获得具有融合姿态数据标签的真手图像序列,即生成了高精度姿态标注的手势姿态估计数据集。3.根据权利要求2所述的基于卡尔曼滤波和深度学习的手势姿态估计方法,其特征在于,
所述的步骤3中制作仿真手模型的姿态估计数据集,具体步骤如下:步骤31、在3D建模仿真软件中导入步骤2设计的仿真手的3D建模模型,并设置好坐标系;步骤32、在3D建模软件中设置可以捕获两个不同视角RGB仿真手图像的视觉传感器和能够输出仿真手模型三轴姿态角度的姿态传感器;步骤33、实现仿真手模型在3D建模软件中绕三维空间坐标轴旋转,定时采集双视角传感器捕获的仿真手图像,同时记录采集图像时的传感器输出姿态角度,以姿态角度作为双视角图像的标签进行保存,采集手势图像和姿态数据就完成了仿真手模型的姿态估计数据集的制作。4.根据权利要求3所述的基于卡尔曼滤波和深度学习的手势姿态估计方法,其特征在于,所述的步骤5中采集真手的双视角手势图像序列和对应的三维姿态数据序列的具体步骤如下:步骤51、保持所要预测的手势形态并在手中置有姿态传感器,手在转动时姿态传感器元件与手不发生相对移动;步骤52、设置两个与步骤3中视角相同的两个普通RGB相机;步骤53、匀速转动手腕并定时捕获两个视角相机的手势图像,并记录采集图像时手中姿态传感器输出的姿态数据。5.根据权利要求4所述的基于卡尔曼滤波和深度学习的手势姿态估计方法,其特征在于,卡尔曼滤波数据串行融合的步骤如下:步骤701、卡尔曼滤波手势姿态数据融合系统的参数初始化,初始化系统状态,初始化系统不确定性协方差矩阵、系统状态噪声协方差矩阵以及以姿态传感器输出姿态角度作为系统观测量的噪声协方差矩阵和以手势姿态估计模型对手势图像预测的手势姿态角度作为系统观测量的噪声协方差矩阵,步骤702、根据时刻的最优手势姿态角度估计时刻的手势姿态角度,,步骤703、根据先验估计系统不确定性协方差矩阵,

【专利技术属性】
技术研发人员:纪鹏王先建马凤英张慧曹茂永
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1