【技术实现步骤摘要】
一种基于时空上下文学习的手部姿态估计方法
本专利技术属于计算机视觉领域,特别地涉及一种基于时空上下文学习的手部姿态估计方法。
技术介绍
手部姿态估计被定义为如下问题:在给定包含手部的深度图像中发现并给出手部关节点相对摄像机的具体位置。手部姿态估计常用于人机交互、增强现实或虚拟现实应用中。传统方法通过对手部使用参数化模型进行表达,并定义能量函数进行模型参数的优化,但是由于基于模型的方法计算消耗较为昂贵以及今年来深度神经网络的发展,基于表观特征的方法从数据中发掘手部姿态的模式,并且资源消耗与基于模型的方法相比更小。由于统计建模的有效性,目前基于学习的方法逐渐被应用到手部姿态估计任务中。现有的基于表观特征的学习方法主要采用的是端到端的深度神经网络模型,通过输入单帧或多帧包含手部的深度图像,输出预测的手部关节点位置。一方面,现今大部分方法使用深度图像或三维体素作为输入,本专利技术认为两种输入相互关联,并可以相互进行补充;另一方面,在实际场景中多帧深度图像间具有相关性,通过在时间维度上建模上下文信息提高网络的预测准确性。 >专利技术内本文档来自技高网...
【技术保护点】
1.一种基于时空上下文学习的手部姿态估计方法,其特征在于,包括以下步骤:/nS1、获取用于训练手部姿态估计的连续帧深度图像数据集;/nS2、在空间以及时间维度上使用空间网络以及时间网络分别建模对应的上下文信息;/nS3、根据输入图像使用融合网络为时间空间模型的输出进行融合;/nS4、建立手部姿态估计的预测模型;/nS5、使用所述的预测模型对连续帧深度图像进行手部姿态估计。/n
【技术特征摘要】
1.一种基于时空上下文学习的手部姿态估计方法,其特征在于,包括以下步骤:
S1、获取用于训练手部姿态估计的连续帧深度图像数据集;
S2、在空间以及时间维度上使用空间网络以及时间网络分别建模对应的上下文信息;
S3、根据输入图像使用融合网络为时间空间模型的输出进行融合;
S4、建立手部姿态估计的预测模型;
S5、使用所述的预测模型对连续帧深度图像进行手部姿态估计。
2.如权利要求1所述的基于时空上下文学习的手部姿态估计方法,其特征在于,步骤S1中,获取用于训练手部姿态估计的连续帧深度图像数据集,包括N个训练视频,每个训练视频中含有连续帧深度图像(X1,...,XT)train,以及预先标注的手部关节点位置(J1,...,JT)train。
3.如权利要求2所述的基于时空上下文学习的手部姿态估计方法,其特征在于,步骤S2中,在空间以及时间维度上使用空间网络以及时间网络分别建模对应的上下文信息具体包括:
S21、针对连续帧深度图像(X1,...,XT)train中的任意一帧深度图像,先将图像缩放到128×128尺寸,再对其随机旋转和翻转,最后进行归一化使其缩放到-1到1之间,最终得到归一化深度图像(I1,...,IT)train作为算法输入,随后按照深度值将归一化深度图像转换为128×128×8的三维体素表达(V1,...,VT)train后也作为算法输入,并对(J1,...,JT)train做与(X1,...,XT)train对应的旋转和翻转变换,得到
S22、为建模空间上下文信息,对任意一帧深度图像It以及三维体素表达Vt进行空间网络操作Fspatio(·),所述的空间网络操作中,对It以及Vt均使用每一层加入ReLU激活函数的三层卷积操作以及最大池化操作进行下采样,分别得到特征以及随后使用总层数为3的层级融合方法对两个特征进行融合,即:
m=1,2
其中:φm,t表示第m层的融合特征,以及为第m层的全连接函数,以及均为第m层的全连接层参数;再使用一个全连接操作回归手部关节点坐标
将以上空间网络操作形式化表达为:
其中:Fspatio(·)表示空间网络操作,Θspatio为空间网络中的参数;
S23、为建模时间上下文信息,对S21中得到的多帧深度图像(I1,...,IT)train,逐帧进行时间网络操作Ftemp(·),所述的时间网络操作中,先使用每一层加入ReLU激活函数的三层卷积操作以及最大池化操作进行下采样,得到特征(ψ1,...,ψT),其中深度图像It的特征ψt=H(It;θc),H(·)为卷积操作,θc为卷积参数;使用LSTM对得到的特征进行时间维度的关联建模,得到隐含层特征(h1,...,hT),t时刻的隐含层特征ht下式计算得到:<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。