基于深度残差网络的人手深度图像位姿估计方法及系统技术方案

技术编号:22595163 阅读:56 留言:0更新日期:2019-11-20 11:19
本发明专利技术公开了一种基于深度残差网络的人手深度图像位姿估计方法及系统,该方法及系统首先输入人手深度图像到CNN模型中,利用该模型对输入的图像进行特征提取,得到人手特征图;其次,将提取得到的人手特征图输入到训练好的区域集成网络中,通过该网络进行人手姿态估计;其中,在所述区域集成网络中,将提取得到的人手特征图均匀分成若干个特征区域,将每个特征区域输入到回归模型进行人手位姿估计,通过融合每个特征区域的回归结果,最终回归出人手深度图像的人手位姿。该方法及系统充分提取了更优化、更具有代表性的人手特征,相较于其他方法人手位姿估计的精度更高。

A method and system of pose estimation of human hand depth image based on depth residual network

The invention discloses a method and system for estimating the pose of human hand depth image based on the depth residual network. The method and system first input the human hand depth image into the CNN model, use the model to extract the features of the input image, and obtain the human hand feature map; secondly, input the extracted human hand feature map into the trained area integration network, and enter the human hand depth image through the network In the area integration network, the extracted hand feature map is divided into several feature areas evenly, each feature area is input into regression model to estimate the hand pose, and the final regression of the hand pose of the hand depth image is obtained by fusing the regression results of each feature area. This method and system fully extract the more optimized and representative human hand features, and the accuracy of human hand pose estimation is higher than other methods.

【技术实现步骤摘要】
基于深度残差网络的人手深度图像位姿估计方法及系统
本专利技术涉及机器学习、计算机视觉领域,更具体地说,涉及一种基于深度残差卷机网络并结合区域集成网络,研究人手深度图像位姿的估计方法及系统。
技术介绍
随着计算机视觉技术的不断发展,人们开始追求更加自然和谐的人机交互方式,手部运动是人类交互的重要渠道,人手不仅可以表达语义信息,还可以定量的表达空间方向和位置信息,这将有助于构建更自然、高效的人机交互环境。因此基于视觉的多关节人手三维位姿估计与运动分析是一个重要的研究方向,旨在用计算机视觉方法以非接触方式从图像或图像序列中检测人手及其指关节的三维位姿。多关节人手三维位姿估计方法对增强/虚拟现实、智能机器人、辅助驾驶、医疗卫生等领域有着重要的意义。人机交互技术已经从以计算机为中心逐步转移到以人为中心,是一种全新的多种媒体、多种模式的交互技术。手是人体最为灵活的部位,相较其他交互方式而言,将手势作为人机交互的手段显得更加自然,因此手势识别技术是人机交互的一大研究点。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术识别强度弱的缺陷,提供一种基于深度残差卷积网络的人手深度图像的位姿估计方法,通过引用一种姿态引导的卷积神经网络结构,来克服现有的三维姿态估计方法从单张深度图回归出人手的三维位姿坐标的缺点。本专利技术解决其技术问题所采用的技术方案是:构造一种基于深度残差网络的人手深度图像位姿估计方法,该方法包括以下步骤:S1、输入人手深度图像到CNN模型中,利用该模型对输入的图像进行特征提取,得到人手特征图;S2、将输入的人手深度图像作为训练样本,对区域集成网络进行训练,并将提取得到的人手特征图输入到训练好的区域集成网络中,通过该网络进行人手姿态估计;其中,在进行人手姿态估计时,所述区域集成网络中,将提取得到的人手特征图均匀分成若干个特征区域,将每个特征区域输入到回归模型进行人手位姿估计,通过融合每个特征区域的回归结果,最终回归出人手深度图像的人手位姿。该方法中,基于步骤S2,克服了从单张深度图回归出人手的三维位姿坐标的缺点,通过对人手的关节区域进行特征提取,在利用区域集成网络中的全连接层,对提取得到的特征区域进行分层融合,使得估计出的三维人手姿态更加精准。进一步的,步骤S2中,包括以下子步骤:S21、所述CNN模型包括若干个卷积层,其中,将最后一个卷积层提取得到的特征图表示为F,根据在阶段t-1即t-1时刻,预估得到的人手位姿估计pt-1,从特征图F中提取第一特征区域;S22、在阶段t,采用矩形窗口对步骤S21提取得到的第一特征区域进行切割,得到若干个包含人手关节点的矩形区域,其中,所述矩形区域定义为和为人手关节点i所在矩形区域的左上角坐标点,w和h分别表示当前矩形区域的宽度和高度;将包含人手关节点i的特征区域表示为:函数表示从人手深度图像提取的特征图F中,用矩形窗口裁剪出包含人手关节点的特征区域;S23、所述区域集成网络包括若干个全连接层,利用所述全连接层,对步骤S22切割得到的若干个包含人手关节点的矩形区域进行融合,得到一个包括五根手指关节的融合特征区域,针对所述融合特征区域,利用回归模型R,回归出人手深度图像的人手位姿Pt。进一步的,步骤S23中针对同一手指上的关节点,其中,切割得到的特征区域均通过全连接层l1进行融合连接,得到第一融合特征区域;然后,针对每根手指融合得到的第一融合特征区域,将其集中输入到全连接层l2进行特征区域融合,得到所述包括人手五根手指关节的融合特征区域。进一步的,步骤S23中,将所有属于同一手指的关节点串联在一起,其中,用concate表示连接函数,串联后神经元将进一步通过全连接层l2进行融合连接,得到不同手指的特征区域:其中,为将五根手指关节的特征区域各自输入到全连接层l1后,得到的五根手指的关节点坐标,M表示切割所得的矩形区域数量;第ith个手指上的所有关节点表示为Mi表示第ith个手指的关节点数量;FC(·)表示利用全连接层对输入的“·”进行计算,得到对应的关节点坐标;将不同手指的特征区域串联后,在将其输入到的全连接层l2中,回归出最终的人手位姿其中,进一步的,在区域集成网络模型的训练过程中,设定训练集合方程为T0:其中,NT表示训练样本即输入的人手深度图像的数量,Di为输入的人手深度图像,Pi0是人手的位姿初始估计值,Pigt是人工标注的真实人手姿态三维坐标。本专利技术提出的一种基于深度残差网络的人手深度图像位姿估计系统,该系统包括以下模块:特征图提取模块,用于输入人手深度图像到CNN模型中,利用该模型对输入的图像进行特征提取,得到人手特征图;人手位姿估计模块,用于将提取得到的人手特征图输入到训练好的区域集成网络中,通过该网络进行人手姿态估计;其中,在所述区域集成网络中,将提取得到的人手特征图均匀分成若干个特征区域,将每个特征区域输入到回归模型进行人手位姿估计,通过融合每个特征区域的回归结果,最终回归出人手深度图像的人手位姿。进一步的,人手位姿估计模块中,包括以下子模块:特征区域提取模块,用于将最后一个卷积层提取得到的特征图表示为F,根据在阶段t-1即t-1时刻,预估得到的人手位姿估计pt-1,从特征图F中提取第一特征区域;切割模块,用于在阶段t,采用矩形窗口对特征区域提取模块提取得到的第一特征区域进行切割,得到若干个包含人手关节点的矩形区域,其中,所述矩形区域定义为和为人手关节点i所在矩形区域的左上角坐标点,w和h分别表示当前矩形区域的宽度和高度;将包含人手关节点i的特征区域表示为:函数表示从人手深度图像提取的特征图F中,用矩形窗口裁剪出包含人手关节点的特征区域;人手位姿计算模块,用于对切割模块切割得到的若干个包含人手关节点的矩形区域进行融合,得到一个包括五根手指关节的融合特征区域,针对所述融合特征区域,利用回归模型R,回归出人手深度图像的人手位姿Pt。进一步的,人手位姿计算模块中针对同一手指上的关节点,其中,切割得到的特征区域均通过全连接层l1进行融合连接,得到第一融合特征区域;然后,针对每根手指融合得到的第一融合特征区域,将其集中输入到全连接层l2进行特征区域融合,得到所述包括人手五根手指关节的融合特征区域。在本专利技术所述的一种基于深度残差网络的人手深度图像位姿估计方法及系统中,通过对人手的关节区域进行特征提取,进行分层融合后,再进行三维人手姿态估计。实施本专利技术公开的一种基于深度残差网络的人手深度图像位姿估计方法及系统,其中利用的人手姿态引导的结果区域集成网络,将预测的人手位姿估计作为引导信息,并将其反馈到特征图中,通过不断反馈误差,能够进一步学习到更好的人手特征。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1是本专利技术公开的人手深度图像位姿估计方法流程图;图2是残差结构示意图;本文档来自技高网...

【技术保护点】
1.一种基于深度残差网络的人手深度图像位姿估计方法,其特征在于,该方法包括以下步骤:/nS1、输入人手深度图像到CNN模型中,利用该模型对输入的图像进行特征提取,得到人手特征图;/nS2、将输入人手深度图像作为训练样本,对区域集成网络进行训练,并将步骤S1提取得到的人手特征图输入到训练好的区域集成网络中,通过该网络进行人手姿态估计;其中,在进行人手姿态估计时,所述区域集成网络中,将提取得到的人手特征图均匀分成若干个特征区域,将每个特征区域输入到回归模型进行人手位姿估计,通过融合每个特征区域的回归结果,最终回归出人手深度图像的人手位姿。/n

【技术特征摘要】
1.一种基于深度残差网络的人手深度图像位姿估计方法,其特征在于,该方法包括以下步骤:
S1、输入人手深度图像到CNN模型中,利用该模型对输入的图像进行特征提取,得到人手特征图;
S2、将输入人手深度图像作为训练样本,对区域集成网络进行训练,并将步骤S1提取得到的人手特征图输入到训练好的区域集成网络中,通过该网络进行人手姿态估计;其中,在进行人手姿态估计时,所述区域集成网络中,将提取得到的人手特征图均匀分成若干个特征区域,将每个特征区域输入到回归模型进行人手位姿估计,通过融合每个特征区域的回归结果,最终回归出人手深度图像的人手位姿。


2.根据权利要求1所述的人手深度图像位姿估计方法,其特征在于,步骤S2中,包括以下子步骤:
S21、所述CNN模型包括若干个卷积层,其中,将最后一个卷积层提取得到的特征图表示为F,根据在阶段t-1即t-1时刻,预估得到的人手位姿估计pt-1,从特征图F中提取第一特征区域;
S22、在阶段t,采用矩形窗口对步骤S21提取得到的第一特征区域进行切割,得到若干个包含人手关节点的矩形区域,其中,所述矩形区域定义为和为人手关节点i所在矩形区域的左上角坐标点,w和h分别表示当前矩形区域的宽度和高度;将包含人手关节点i的特征区域表示为:




函数表示从人手深度图像提取的特征图F中,用矩形窗口裁剪出包含人手关节点的特征区域;
S23、所述区域集成网络包括若干个全连接层,利用所述全连接层,对步骤S22切割得到的若干个包含人手关节点的矩形区域进行融合,得到一个包括五根手指关节的融合特征区域,针对所述融合特征区域,利用回归模型R,回归出人手深度图像的人手位姿Pt。


3.根据权利要求2所述的人手深度图像位姿估计方法,其特征在于,所述区域集成网络在最后一层卷积层之后依次连接的有全连接层l1和全连接层l2;步骤S23中针对同一手指上的关节点,其中,切割得到的特征区域均通过全连接层l1进行融合连接,得到第一融合特征区域;然后,针对每根手指融合得到的第一融合特征区域,将其集中输入到全连接层l2进行特征区域融合,得到所述包括人手五根手指关节的融合特征区域。


4.根据权利要求3所述的人手深度图像位姿估计方法,其特征在于,步骤S23中,将所有属于同一手指的关节点串联在一起,其中,用concate表示连接函数,串联后神经元将进一步通过全连接层l2进行融合连接,得到不同手指的特征区域:



其中,为将五根手指关节的特征区域各自输入到全连接层l1后,得到的五根手指的关节点坐标,M表示切割所得的矩形区域数量;第ith个手指上的所有...

【专利技术属性】
技术研发人员:李勇波赵涛谢中朝蔡文迪朱正东王畯翔
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1