基于分割图引导与正则约束的手部姿势与形状估计方法技术

技术编号:37670984 阅读:13 留言:0更新日期:2023-05-26 04:32
本发明专利技术公开了一种基于分割图引导与正则约束的手部姿态与形状估计方法,主要解决现有技术在手物遮挡情况下估计结果准确率较低的问题。其实现方案是:将数据集划分为训练数据集与测试数据集;构建由特征提取主干、正则约束金字塔模块、分割引导模块以及回归模块构成的基于分割图引导与正则约束的手部姿势与形状估计网络;使用训练数据集对该网络进行训练;将测试数据集输入到训练好的网络中得到手部估计结果。本发明专利技术通过引入分割引导模块以利用不同可见度的手部分割图辅助手物遮挡下的估计,并通过引入正则约束金字塔模块对网络特征进行约束,相较于现有手部姿势与形状估计方法,显著提高了手部估计效果,可用于手部图像解译的中间处理。解译的中间处理。解译的中间处理。

【技术实现步骤摘要】
基于分割图引导与正则约束的手部姿势与形状估计方法


[0001]本专利技术属于图像处理
,特别涉及一种手部姿势与形状估计方法,可用于手部图像解译的中间处理。

技术介绍

[0002]近年来,计算机视觉经历了由二维处理到三维处理的发展,从手部图像估计手的三维姿势与形状显得越来越重要。随着深度学习在计算机视觉、语音信号处理、自然语言处理等领域表现出的优良性能,如何将深度学习方法与手部姿势和形状估计问题相结合也变成了热点问题。深度学习方法是通过逐层训练学习的思想,对于训练数据的内在属性特征不断挖掘,进而实现数据的抽象表示。
[0003]杨理欣等人在文章《Bihand:Recovering hand mesh with multi

stage bisected hourglass networks》中提出了一种手部分割图在手部姿势与形状估计的使用方法,其以沙漏网络为基础,在第一个沙漏网络输出手部分割图与手关节二维热力图,在第二个沙漏网络后输出深度图与手关节三维热力图,最后根据得到的手关节三维热力图来估计手的姿势与形状。此方法以手部分割图为基础进一步回归得到深度图,以在获得二维视觉信息的同时加入深度信息。
[0004]唐逍在论文《Towards accurate alignment in real

time 3d hand

mesh reconstruction》中提出了一种手部分割图辅助手部姿势与形状估计的方法,该方法将获得手部分割图作为一个额外的任务来辅助网络的训练。在网络训练过程中,此方法输出手部分割图与手部关节点的二维位置,在测试时,该方法将手部二维关节点与手部分割图的网络的输出部分进行裁剪,使得模型效率更高。
[0005]在手部图像中,通常存在手物交互的场景。上述手部姿势与形状估计的方法在使用手部分割图时,没有考虑到区分手部的不同可见程度,即没有考虑手被部分遮挡情况下分割图的应用方法,缺少对不同可见情况手分割图的处理,其在手物遮挡情况下估计的准确性将会受到影响。
[0006]为了进一步辅助手部姿势与形状估计过程,根据从RGB图像中估计手的三维姿态与形状任务的高度非线性性关系,有些方法采用了渐进优化的策略对特征进行约束以实现更好的估计。
[0007]Baowen Zhang在文章《Interacting two

hand 3d pose and shape reconstruction from single color image》中提出使用单一尺度的特征进行渐进优化来实现手部姿势与形状估计,该方法在网络的末尾加入了一个渐进优化模块,该模块通过对手的高级特征进行循环处理与约束得到一个优化后的估计结果。
[0008]张雄在文章《Hand image understanding via deep multi

task learning》中提出了一个采用渐进优化方式的手部姿势与形状估计方法。该方法将整个流程分为了多个层级,在每个层级该方法都输出一个估计的手以实现对特征的约束,在最后层级输出一个最优的估计结果。
[0009]上述这两种方法将渐进优化的方式加入到了手部姿势与形状估计中,由于只利用了单一尺度特征来实现渐进优化,没有将多尺度特征与渐进优化进行联系,即没有在渐进优化的过程中考虑手部自然存在着手掌、手指、关节等多尺度的部分,因而这些方法在渐进优化中缺少多对尺度特征的表达与约束,依然存在估计准确性低的问题。

技术实现思路

[0010]本专利技术的目的在于针对上述现有技术的不足,提出一种基于分割图引导与正则约束的手部姿势与形状估计方法,以利用不同可见度的手部分割图与标注的约束来辅助手部姿势与形状估计,提高在手物遮挡情况下的估计准确性。
[0011]为实现上述目的,本专利技术的实现方案包括如下步骤:
[0012](1)构建训练和测试数据集:
[0013](1a)按照数据集给定的划分方式划分训练样本与测试样本;
[0014](1b)根据d个训练样本的标签信息E渲染,得到手整体分割图S
w

[0015](1c)根据d个训练样本的输入图像、标签信息和手整体分割图,构建训练数据集D:
[0016][0017]其中,I
i
为第i个训练样本的输入图像,E
i
为第i个训练样本的标签信息,为第i个训练样本的手整体分割图;
[0018](1d)根据m个测试样本的输入图像、手关节点的3D位置和手表面点的3D位置,构建测试数据集M:
[0019][0020]其中,为第j个测试样本的输入图像,为第j个测试样本的手关节点的3D位置,为第j个测试样本的手表面点的3D位置;
[0021](2)构建基于分割图引导与正则约束的手部姿势与形状估计网络G:
[0022](2a)建立由三个正则约束模块与一个沙漏网络依次级联组成正则约束金字塔模块,用于对特征提取主干中的多尺度特征进行约束以得到手部结构特征;
[0023](2b)建立由三个可见分割块与整体分割模块组成的分割引导模块,用于得到手的可见分割图与手的整体分割图;
[0024](2c)选用已知的特征提取主干和回归模块,并将特征提取主干与正则约束金字塔模块先串联连接后,再将两者的输出分别连接到分割引导模块与回归模块级联,构成基于分割图引导与正则约束的手部姿势与形状估计网络G:
[0025](3)采用小批量梯度下降算法,通过训练数据集D对基于分割图引导与正则约束的手部姿势与形状估计网络G进行训练,直至网络损失函数处于收敛状态,得到训练后的手部姿势与形状估计网络;
[0026](4)将测试数据集M输入到训练好的手部姿势与形状估计网络,得到测试数据对应的估计结果。
[0027]本专利技术与现有技术相比具有以下优点:
[0028]1)提高对手物遮挡场景下的手部姿态与形状估计的鲁棒性。
[0029]本专利技术将手部分割图在使用时划分为可见分割图与整体分割图,利用可见分割图捕获手的可见信息,并在手部可见分割图的基础上,进一步使用正则约束后的特征得到手部整体分割图,通过融合不同可见度的手部分割图,缓解手部姿势与形状估计中的手物遮挡问题,提高在手物交互场景下的手部姿态与形状估计的鲁棒性。
[0030]2)减小手部估计误差。
[0031]本专利技术基于分割图引导与正则约束进行手部姿态与形状估计,通过引入分割引导模块以利用不同可见度的手部分割图辅助手物遮挡下的估计,并通过引入正则约束金字塔模块以利用渐进优化对网络特征进行约束,在这两个模块的加入下,利用基于分割引导与正则约束的手部姿态与形状估计网络可分别在融合数据集及真实数据集中实现更低的估计误差。
附图说明
[0032]图1是本专利技术的实现流程图;
[0033]图2是本专利技术中构建基于分割图引导与正则约束的手部姿态与形状估计网络结构图;...

【技术保护点】

【技术特征摘要】
1.一种基于分割图引导与正则约束的手部姿势与形状估计方法,其特征在于,包括:(1)构建训练和测试数据集:(1a)按照数据集给定的划分方式划分训练样本与测试样本;(1b)根据d个训练样本的标签信息E渲染,得到手整体分割图S
w
;(1c)根据d个训练样本的输入图像、标签信息和手整体分割图,构建训练数据集D:其中,I
i
为第i个训练样本的输入图像,E
i
为第i个训练样本的标签信息,为第i个训练样本的手整体分割图;(1d)根据m个测试样本的输入图像、手关节点的3D位置和手表面点的3D位置,构建测试数据集M:其中,为第j个测试样本的输入图像,为第j个测试样本的手关节点的3D位置,为第j个测试样本的手表面点的3D位置;(2)构建基于分割图引导与正则约束的手部姿势与形状估计网络G:(2a)建立由三个正则约束模块与一个沙漏网络依次级联组成正则约束金字塔模块,用于对特征提取主干中的多尺度特征进行约束以得到手部结构特征;(2b)建立由三个可见分割块与整体分割模块组成的分割引导模块,用于得到手的可见分割图与手的整体分割图;(2c)选用已知的特征提取主干和回归模块,并将特征提取主干与正则约束金字塔模块先串联连接后,再将两者的输出分别连接到分割引导模块与回归模块级联,构成基于分割图引导与正则约束的手部姿势与形状估计网络G:(3)采用小批量梯度下降算法,通过训练数据集D对基于分割图引导与正则约束的手部姿势与形状估计网络G进行训练,直至网络损失函数处于收敛状态,得到训练后的手部姿势与形状估计网络;(4)将测试数据集M输入到训练好的手部姿势与形状估计网络,得到测试数据对应的估计结果。2.根据权利要求1所述的方法,其特征在于,(1b)中d个训练样本的标签信息E,表示如下:其中,为第i个训练样本的手可见分割图,为第i个训练样本的手关节旋转参数,为第i个训练样本的手形状参数,为第i个训练样本手关节点的3D位置,V
ig
为第i个训练样本的手表面点的3D位置,为第i个训练样本的手关节点2D位置。3.根据权利要求1所述的方法,其特征在于,步骤(2c)中选用的特征提取主干与回归模块,其结构和功能如下:所述特征提取主干,是由一个卷积层和四个残差块依次级联组成,用于提取图像的多尺度特征;
所述回归模块,其由三个残差块与手模型回归器依次级联组成,用于获得最终的手部姿势与形状估计结果。4.根据权利要求3所述的方法,其特征在于,所述特征提取主干与回归模块中的每个残差块均包括级联的跳跃残差层与保留残差层,每个残差层分为并接的两路,其中:第一路跳跃残差层的结构为:第一卷积层

第一滤波响应归一化层

第二卷积层

第二滤波响应归一化层;第二路跳跃残差层的结构为:卷积层

滤波响应归一化层;第一路保留残差层的结构为:第一卷积层

第一滤波响应归一化层

第二卷积层

第二滤波响应归一化层;第二路保留残差层为本身映射;每个滤波响应归一化层后均使用ReLU激活函数激活。5.根据权利要求1所述的方法,其特征在于,所述(2a)建立正则约束金字塔模块中的正则约束模块,其由下采样块与上采样块级联构成,该下采样块由三个下采样层与一个手模型回归器级联构成,该上采样块由三个解码上采样层与一个线性上采样层级联构成:所述每个下采样层的结构为:第一跳跃残差层

第一池化层

保留残差层

第二池化层

第二跳跃残差层

第三池化层;所述每个解码上采样层的结构为:线性层

第一反卷积层

第一保留残差层

第二反卷积层

第二保留残差层

第三反卷积层

第三保留残差层;所述手模型回归器,其由三个线性层与手模型层级联组成,其中手模型层用来将参数映射到手关节点与手表面点;所述线性上采样层,其由线性层与上采样层级联组成。6.根据权利要求1所述的方法,其特征在于,步骤(2b)中构成分割引导模块的可见分割块和整体分割模块结构如下:所述每个可见分割模块,其由第一卷积层

第一滤波响应归一化层

第二卷积层

第二滤波响应归一化层依次级联组成:所述整体分割模块,其结构为沙漏网络与两个保留残差层级联。7.根据权利要求1所述的方法,其特征在于,步骤(3)采用小批量梯度下降算法,通过训练数据集D对基于分割图引导与正则约束的手部姿势与形状估计网络G进行训练,实现如下:(3a)随机从训练数据集D中批量选择b个训练样本将输入图像I
t
输入到特征提取主干,经过四个残差块后,依次得到四个多尺度图像特征F
1s
,F
2s
,F
3s
,(3b)将(3a)中得到的四个多尺度图像特征输入到正则约束金字塔模块,得到手部结构特征F
a
与手关节二维热力图H;(3c)将四个多尺度图像特征F
1s
,F
2s
,F
3s
,手部结构特征F
a
及手关节二维热力图H输入到分割引导模块,输出融合特征F
t
;(3d)将融合特征F
t
输入到回归模块,输出第一级的预测结果(θ1,β1,J1,V1),其中θ1为预测的第一级手关节旋转参数,β1为预测的第一级手形状参数,J1为预测的第一级手关节点的3D位置,V1为预测的第一级手表面点的3D位置;
(3e)定义基于分割图引导的正则约束下的手部姿势与形状估计网络G的损失为:其中,为手部可见分割图的损失,为手部整体分割图的损失,L
h
为手部关节二维位置的损失,L
r
为手部参数回归损失;(3f)根据(3e)中得到的损失Loss使用梯度下降算法更新网络参数;(3g)重复(3...

【专利技术属性】
技术研发人员:李睿敏逯皓帆缑水平李卫斌郑洋刘浩敏
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1