一种基于单张RGB图像的双流多尺度手部姿态估计方法技术

技术编号：29082520 阅读：68 留言：0更新日期：2021-06-30 09:44

本发明专利技术涉及一种基于单张RGB图像的双流多尺度手部姿态估计方法，用于解决单张RGB图像中自遮挡、近邻关节预测歧义问题。本发明专利技术是以RGB图像作为输入，利用深度神经网络提取单张图像的特征并得到手部关节2D姿态初始坐标，利用双分支网络进行2D姿态估计，得到两路手部关节2D姿态坐标；对于两路2D姿态坐标，利用双分支的多尺度语义图U

全部详细技术资料下载

【技术实现步骤摘要】
一种基于单张RGB图像的双流多尺度手部姿态估计方法

[0001]本专利技术属于计算机视觉领域，具体涉及一种针对RGB图像的基于双流多尺度网络的手部姿态估计方法。

技术介绍

[0002]人与人之间的日常交际过程中，自然语言、书面语言和肢体语言是三个最为主要的表达方式，但是前两者均会受到地域、国家、种族、文化的限制，而肢体语言不仅灵活多变，能够表达人们一些基本的意图，并且直观易懂，不容易产生歧义。因此，肢体语言逐步受到人机交互研究者的青睐。而人类的双手更是肢体语言表达时最为重要的部分之一，能够传达丰富的信息，所以，让计算机读懂人类的手所传达的信息是有价值而且有必要的。
[0003]手势是人类与外界传递信息的主要方式，由于它的灵活自由和复杂多变，手势动作包含了大量的有用信息，手承担了生活中的绝大多数如交流、操作等工作。众所周知，绝大多数机器的操作都是通过手来操作完成的。因此，无论是自然人机交互，还是为机器人传递人手操作经验，首先需要做的是估计人手的姿态，并将手的姿态信息传递给机器设备，进而进行人机交互。
[0004]目前手姿态估计的方法大致分为两个阶段，首先输入图像估计出手的2D姿态，然后再通过2D姿态回归手的3D姿态。根据输入图像的种类可以将手姿态估计大致分为三类：1)根据深度图像进行手部姿态估计：传统上基于深度图像的方法是手部姿态估计的主要方法。深度图像包含一定的深度信息，在进行3D姿态回归过程中能够更好的得到手部关节的三维信息，但是现阶段的深度摄像机的成像范围十分有限，而且质量不够高，会给依赖深度图像...

【技术保护点】

【技术特征摘要】
1.一种基于单张RGB图像的双流多尺度手部姿态估计方法，其特征在于包括以下步骤：步骤1)提取单张图像的特征并得到手部关节2D姿态初始坐标；步骤2)利用双分支网络进行2D姿态估计，得到手部关节2D姿态准确坐标，所述的双分支网络具有结构相同的两路分支；步骤3)利用多尺度语义图U
‑
Net网络估计手部关节的3D坐标，所述多尺度语义图U
‑
Net网络具有结构相同的两路分支，每个分支的多尺度语义图U
‑
Net网络输入均为步骤2)中一路分支得到的2D姿态坐标和相应的邻接矩阵，输出为手部关节的3D姿态；然后再将两个分支得到的3D姿态进行加和求平均，最终输出手部关节的3D坐标。2.根据权利要求1所述的一种基于单张RGB图像的双流多尺度手部姿态估计方法，其特征在于：步骤1)具体如下，利用Resnet50网络对输入的单张RGB图像进行编码，每个输入图像产生一个2048维的特征向量；然后再使用一个额外全连接层生成手关节点的初始预测的二维坐标，同时将得到的特征向量与每个关节点的初始二维预测坐标拼接起来，生成每个节点具有F个特征的图，即得到一个N
×
F的特征矩阵，其中N表示手部关节的数量，F表示特征维度。3.根据权利要求1所述的一种基于单张RGB图像的双流多尺度手部姿态估计方法，其特征在于：步骤2)具体包括，根据第一步中得到N
×
F的特征矩阵，N表示手部关节的数量，F表示特征维度，得到两种图结构，每种图结构由一个邻接矩阵表示，其中第一种图结构称为物理连接，用于表示手的物理关节之间的联系，第二种图结构称为对称连接，用于表示每个手指相同关节处之间的联系；将N
×
F的特征矩阵与物理连接的邻接矩阵输入到双分支网络中的一支，将N
×
F的特征矩阵与对称连接的邻接矩阵输入到双分支网络中的另一支，每支网络由相互串联的3层语义图卷积层组成。4.根据权利要求3所述的一种基于单张RGB图像的双流多尺度手部姿态估计方法，其特征在于：所述的语义图卷积公式如下：X
(l+1)
＝σ(WX
(l)
ρ
i
(M
⊙
A))
ꢀꢀꢀꢀ
(2)其中ρ
i
是Softmax非线性变换，用于归一化矩阵元素，
⊙
表示矩阵像素级运算，如果矩阵A中元素a
ij
的值为1，那么返回矩阵M中m
ij
元素的值，否则的话，返回值经过ρ
i
操作得到近似0的值，矩阵A是节点的邻接矩阵，表示各节点间的连接关系，σ表示ReLu非线性激活函数，表示可学习的加权矩阵，X0为网络的输入，即X0＝N
×
F为步骤1)得到的特征矩阵，输出是准确估计的N个关节点的2D坐标。5.根据权利要求3所述的一种基于单张RGB图像的双流多尺度手部姿态估计方法，其特征在于：对称连接的邻接矩阵的构建方法为：令G＝{V，E}表示一个图，其中V是N个手关节点的集合，E表示边；邻接矩阵A，当两个关节点之间相连时a
ij
＝1否则a
ij
＝0，i和j分别表示手的两个关节；每个手指有三个关节，指尖处为第三关节，指尖之下的两个关节分别为第二关节和第一关关节；相邻手指相同关节之间相互连接；手掌有6个关节，其中一个为腕关节，腕关节与其余的5个掌指关节相连，相邻掌指关节之间相连。6.根据权利要求1所述的一种基于单张RGB图像的双流多...

【专利技术属性】
技术研发人员：王立春，马胜蕾，李敬华，孔德慧，王少帆，尹宝才，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人