【技术实现步骤摘要】
一种基于稀疏和深度的3D人体姿态估计方法
本专利技术涉及一种3D人体姿态估计技术,尤其是涉及一种基于稀疏和深度的3D人体姿态估计方法。
技术介绍
现实场景中绝大多数对于人类姿态的描述都是二维的,例如图像或视频。从单目图像或视频中估计其对应的3D人体姿态对于高级计算机视觉任务来说,如人机交互,视频监控,虚拟现实和人体行为分析等,有着重要且广泛的应用。然而,从单目图像或视频中估计3D人体姿态极具挑战性:首先,从单目图像或视频中重构3D人体姿态本身是一个病态问题。几何角度上讲,从单视角下估计人体3D的姿态存在着固有的任意性(LeeHJ,ChenZ.Determinationof3Dhumanbodyposturesfromasingleview[J].ComputerVision,Graphics,andImageProcessing,1985,30(2):148-168.),也就是说,根据2D姿态能够得到的3D姿态并不是唯一的。此外,人体姿态的丰富性以及在3D姿态估计过程中存在类内可变性、非刚体形变等问题,使3D姿态估计问题变得 ...
【技术保护点】
1.一种基于稀疏和深度的3D人体姿态估计方法,其特征在于包括以下步骤:/n①假设人体的形状由p个关节点的坐标表示,对给定的2D人体关节点序列定义为:W={W
【技术特征摘要】
1.一种基于稀疏和深度的3D人体姿态估计方法,其特征在于包括以下步骤:
①假设人体的形状由p个关节点的坐标表示,对给定的2D人体关节点序列定义为:W={W1,...,Wt,...,WT},其中,T为序列长度,Wt为第t帧2D人体姿态坐标,定义为表示Wt是2行p列的矩阵,第一行为p个关节点的X轴坐标,第二行为p个关节点的Y轴坐标;
②运用非负稀疏编码,对Human3.6M数据集中的三个训练集S1,S5,S6的15个动作,每个动作分别学习出一个基础姿态字典B,大小表示为k为基础姿态字典B的原子个数,表示B是k×3行p列的矩阵,从第一行开始,每三行代表第k个原子的p个关节点的X,Y,Z轴坐标;
③根据稀疏表示原理,采用融合稀疏表示的3D可变形状模型来表示人体形状,将单帧2D人体姿态坐标Wt转化为对应3D空间下的姿态初始值,用第t帧3D人体姿态坐标表示为记为表示是一个3行p列的矩阵;
④对于整个2D人体关节点序列W={W1,...,Wt,...,WT},逐帧采用步骤③进行估计,得到其对应3D空间下的不考虑时间关系的3D姿态初始序列,记为
⑤对于步骤④获得的3D姿态初始序列进行优化,修正时间不连贯的3D姿态初始化的序列将优化的结果作为最终估计的3D姿态序列,记为:具体步骤如下:
⑤-1将通过稀疏表示方法初始化后的3D初始序列设定为MLSTM的降噪编/解码器模型输入,将对应的优化3D序列设定为输出;
⑤-2设置两层带有BatchNormalization和Dropout的线性层:第一层用于编码输入数据,提取输入数据的高维特征,采用RELU激活函数;第二层用于解码数据,预测人体p个关键点的3D位置;将输入数据转化为X,Y,Z三个坐标轴方向的分量,分别对不同方向的关节点位置细化,对于每个方向的分量设置三层LSTM单元:用于学习对应分量上人物姿态的时间变化特征,在每一个方向上的LSTM单元上增加了一个残差连接用于融合输入数据与学习到的时间变化特征,然后通过第二层线性层解码,回归相应方向分量上p个关键点的3D姿态坐标序列,将三个方向分量上的子结果拼接得到最终的优化结果;
其中,MLSTM降噪编/解码器模型是通过以下方式得到:
1)设定损失函数:定义MLSTM降噪编/解码器模型的损失函数由以下两项组成:第一项为具有N个序列的训练集中,每个序列T帧的3D关节点位置的优化值与其对应的3D标注数据的均方误差;第二项为相邻帧之间的3D关节点位置的优化值的一阶平滑约束...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。