一种三维手部姿态估计器构建方法及系统技术方案

技术编号：40508773 阅读：10 留言：0更新日期：2024-03-01 13:24

本发明专利技术涉及一种三维手部姿态估计器构建方法及系统，对相机采集的手部图像数据进行高分辨率特征提取；利用不同尺度热力图模块的三个分支从高分辨率特征中学习三维手部关节点特征、三维手部网格顶点特征和注意力特征三种不同的特征；通过特征融合获得带有三维手部关节点特征和三维手部网格顶点特征的多信息特征；通过多层Transformer编码器‑解码器模块学习多信息特征和全局特征之间的联系；最后通过回归器回归三维手部关节点和三维手部粗网格顶点，再利用网格的上采样生成三维手部精细网格顶点，完成三维手部姿态估计器构建任务。本发明专利技术提高了三维手部姿态估计的速度，降低了预测的三维手部关节点与真实三维手部关节点坐标之间的平均欧氏距离。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种三维手部姿态估计器构建方法及系统，属于计算机应用。

技术介绍

1、随着增强现实技术与虚拟现实的技术的发展，人机交互的方式在不断发生着变化，除去听觉交互与视觉交互，手作为人类与环境互动最自然的方式之一，在人机交互中也起着重要的作用。三维手部姿态估计是指从视频或图像中精确定位到手部关节点的位置，从而根据这些位置关系推断出相应的手部姿态。精确地三维手部姿态估计是实现手在三维空间里人机交互这一应用的基础。由于手部明显的自遮挡、深度模糊和各种各样的手势，三维手部姿态估计是一项极具挑战性的任务。随着深度学习的发展，目前大多数手部姿态估计的方法都是基于深度学习的，根据输入数据的不同可以分为基于深度图像的，基于点云的和基于rgb图像的，基于深度图像和基于点云的方法的输入依赖于日常中不易获取的设备，比如深度摄像机和激光雷达。因此，越来越多的研究者对基于rgb图像的方法展开研究，从而涌现出来了很多基于rgb图像的三维手部姿态估计方法。但由于单目图像的深度模糊，从二维rgb图像中估计出三维的手部姿态这项任务仍具有挑战性。

技术实现思路

1、本专利技术要解决的技术问题：克服现有技术的不足，提供一种三维手部姿态估计器构建方法及系统，提高三维手部姿态估计的速度，降低预测的手部三维关节点与真实关节点坐标之间的平均欧氏距离。

2、本专利技术技术解决方案：

3、第一方面，本专利技术提供一种三维手部姿态估计器构建方法，基于注意力和热力图的姿态估计，包括如下步骤：

5、步骤2、对具有标签信息的手部图像数据使用预训练的swin-transformer网络进行四个阶段的特征提取获取第四阶段手部图像数据特征作为全局特征，将四个阶段的四个手部图像数据特征通过高分辨率特征聚合模块获得空间尺寸上比全局特征分辨率高八倍的高分辨率特征；

6、步骤3、将步骤2所述高分辨率特征输入至基于不同尺度的热力图模块，所述基于不同尺度的热力图模块包括三个不同的分支和融合模块，通过三个不同的分支获得三维手部关节点热力图特征、三维手部网格顶点热力图特征和注意力特征；同时将步骤2所述全局特征输入至相机参数回归器中获得相机特征；通过所述融合模块将所述三维手部关节点热力图特征、三维手部网格顶点热力图特征、注意力特征和相机特征进行特征融合，得到带有三维手部关节点特征信息、三维手部网格顶点特征信息和相机特征信息的多种信息联合特征；

7、步骤4、将所述联合特征与所述全局特征同时输入至多层transformer编码器-解码器模块，设计不同尺度掩码以捕获更多的三维手部关节点与三维手部网格顶点之间的关系，最后得到融合特征；

8、步骤5、将所述融合特征分别输入至相机参数回归器回归出相机参数和三维坐标回归器中回归出三维手部关节点坐标与三维手部粗网格顶点坐标，将所述三维手部粗网格顶点坐标上采样获得三维手部精细网格顶点坐标，再通过相机参数将所述三维手部精细网格顶点坐标投影到二维中获得二维手部关节点坐标；

9、步骤6、确定手部姿态估计网络损失函数，通过所述手部姿态估计网络损失函数对步骤5所述三维手部关节点坐标、三维手部精细网格顶点坐标、二维手部关节点坐标进行有监督学习，最终实现三维手部姿态估计。

10、进一步，所述步骤2中，高分辨率特征聚合模块实现如下：对swin-transformer网络中四个阶段构建的特征进行以下操作，首先对第二阶段的特征进行上采样后与第一阶段的特征图拼接输入至第一个swin-transformer网络模块中(swin-transforme-block)得到第一个高分辨率特征其次，对第三阶段的特征进行上采样后与第一个高分辨率特征拼接后输入至第二个swin-transformer网络模块中得到第二个高分辨率特征最后，对第四阶段的特征进行上采样后与第二个高分辨率特征拼接后输入至第三个swin-transformer网络模块中最终得到高分辨率特征fh，高分辨率特征聚合模块如附图3所示。

11、进一步，所述不同尺度热力图模块，具体实现如下：

12、基于不同尺度的热力图模块包括三个不同的分支和融合模块；

13、三个不同的分支为三维手部关节点热力图分支，三维手部网格顶点热力图分支和注意力图分支；三维手部关节点热力图分支将步骤2中获得的高分辨率特征fh输入至第一个resnet网络模块(resnet-block)中得到三维手部关节点热力图特征fj，三维手部网格顶点热力图分支将高分辨率特征fh输入至第二个resnet网络模块中得到三维手部网格顶点热力图特征fv，注意力图分支将高分辨率特征fh输入至第三个resnet网络模块中得到注意力特征fa；同时将步骤2中的全局特征fg输入至相机参数回归器中获得相机特征fcam；

14、融合模块将三维手部关节点热力图特征fj、三维手部网格顶点热力图特征fv、注意力特征fa和相机特征fcam进行特征融合，特征融合具体实现如下：将三维手部关节点热力图特征fj通过softmax层获得热力图特征中每个像素位置对应的手部三维关节点置信度概率，即获得三维手部关节点概率热力图；将三维手部网格顶点热力图特征fv通过softmax层获得热力图特征中每个像素位置对应的三维手部网格顶点置信度概率，即获得三维手部网格顶点概率热力图；将三维手部关节点概率热力图与三维手部网格顶点概率热力图拼接后与注意力特征fa进行逐元素乘积，在注意力特征fa中采样概率高的三维手部关节点和三维手部网格顶点特征fj_v。

15、融合模块实现公式如下：

16、

17、将从注意力特征fa中采样出的三维手部关节点与三维手部网格顶点特征fj_v和相机特征fcam通过cat操作进行特征融合，得到多种信息的联合特征fatt，多种信息的联合特征fatt公式如下：

18、fatt＝cat(fcam,fj_v) (2)

19、其中，k是三维手部关节点个数，m是三维手部网格顶点个数，h是高分辨率特征的高度，w是高分辨率特征的宽度，cat(·)表示的融合操作，表示的逐元素乘积操作(hadamardproduct)，基于不同尺度的热力图模块如图4所示。

20、进一步，所述多层transformer编码器-解码器模块，具体实现如下：

21、多层transformer编码器-解码器模块包括两个transformer编码器层和四个transformer解码器层，将所述步骤2中全局特征fg添加位置编码后输入至两个transformer编码器中，从全局特征中学习三维手部关节点和三维手部网格顶点的特征，同时又将全局特征fg作为四个transformer解码器中交叉注意力的键(keys)和值(values)，将所述步骤3中多种信息的联合特征fatt作为作为四个transformer解码器中交叉注意力的查本文档来自技高网...

【技术保护点】

1.一种三维手部姿态估计器构建方法，其特征在于：基于注意力和热力图的姿态估计实现，包括如下步骤：

2.根据权利要求1中所述的三维手部姿态估计器构建方法，其特征在于，所述步骤2中，高分辨率特征指空间尺寸上比全局特征分辨率高八倍。

3.根据权利要求1中所述的三维手部姿态估计器构建方法，其特征在于，所述步骤2中，高分辨率特征聚合模块实现如下：对Swin-Transformer网络中四个阶段构建的特征进行以下操作，首先对第二阶段的特征进行上采样后与第一阶段的特征图拼接输入至第一个Swin-Transformer网络模块中得到第一个高分辨率特征其次，对第三阶段的特征进行上采样后与第一个高分辨率特征拼接后输入至第二个Swin-Transformer网络模块中得到第二个高分辨率特征最后，对第四阶段的特征进行上采样后与第二个高分辨率特征拼接后输入至第三个Swin-Transformer网络模块中最终得到高分辨率特征fh。

4.根据权利要求1中所述的三维手部姿态估计器构建方法，其特征在于：所述步骤3中，基于不同尺度的热力图模块实现如下：

5.根据权利

6.根据权利要求1中所述的三维手部姿态估计器构建方法，其特征在于，所述步骤5包括，将步骤4获得的所述融合特征fc分别输入至相机参数回归器回归出相机参数：相机成像的缩放比例、相机成像时在水平方向上的平移或位移、相机成像时在垂直方向上的平移或位移和三维坐标回归器中回归出手部的三维关节点坐标Xj_3d与三维粗网格顶点坐标Xv1，Xj_3d包括X3d,Y3d,Z3d,其中通过三维粗网格顶点坐标上采样获得三维精细网格顶点坐标Xv，再通过相机参数将三维精细网格顶点Xv投影到二维得到手部的二维关节点坐标Xj_2d，包括X2d,Y2d,其中获取二维关节点坐标Xj_2d进行正交投影的计算公式如下：

7.根据权利要求1中所述的三维手部姿态估计器构建方法，其特征在于，所述步骤6中，手部姿态估计网络损失函数Ltotal如下：

8.一种的三维手部姿态估计器构建系统，其特征在于，包括：获取带标签的手部RGB图像模块、高分辨率特征聚合模块、不同尺度热力图模块、多层Transformer编码器-解码器模块、手部三维网格和三维关节点回归模块；

9.一种电子设备，其特征在于，包括存储器与处理器，其中所述存储器用于存储所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至8中任一所述的方法，或权利要求9所述的系统。

10.一种计算机可读的介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序执行时，实现权利要求1至8任一所述的方法，或权利要求9所述的系统。

...

【技术特征摘要】

1.一种三维手部姿态估计器构建方法，其特征在于：基于注意力和热力图的姿态估计实现，包括如下步骤：

2.根据权利要求1中所述的三维手部姿态估计器构建方法，其特征在于，所述步骤2中，高分辨率特征指空间尺寸上比全局特征分辨率高八倍。

3.根据权利要求1中所述的三维手部姿态估计器构建方法，其特征在于，所述步骤2中，高分辨率特征聚合模块实现如下：对swin-transformer网络中四个阶段构建的特征进行以下操作，首先对第二阶段的特征进行上采样后与第一阶段的特征图拼接输入至第一个swin-transformer网络模块中得到第一个高分辨率特征其次，对第三阶段的特征进行上采样后与第一个高分辨率特征拼接后输入至第二个swin-transformer网络模块中得到第二个高分辨率特征最后，对第四阶段的特征进行上采样后与第二个高分辨率特征拼接后输入至第三个swin-transformer网络模块中最终得到高分辨率特征fh。

4.根据权利要求1中所述的三维手部姿态估计器构建方法，其特征在于：所述步骤3中，基于不同尺度的热力图模块实现如下：

5.根据权利要求1中所述的三维手部姿态估计器构建方法，其特征在于：所述步骤4中，多层transformer编码器-解码器模块包括两个transformer编码器层和四个transformer解码器层，将所述步骤2中全局特征fg添加位置编码后输入至两个transformer编码器中，从全局特征中学习三维手部关节点和三维手部网格顶点的特征，同时又将全局特征fg作为四个transformer解码器中交叉注意力的键(keys)和值(values)，将所述步骤3中多种信息的联合特征fatt作为作为四个transformer解码器中交叉注意力的查询(qureis)，通过交叉注意力学习三维手部关节点和三维手部网格顶点之间的连接关系，在四层transformer解码...

【专利技术属性】
技术研发人员：周锋，申沛，饶竣恺，蔡兴泉，
申请(专利权)人：北方工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人