一种基于神经变形的可变形场景中人体运动捕捉方法技术

技术编号:37272498 阅读:13 留言:0更新日期:2023-04-20 23:41
本发明专利技术公开了一种基于神经变形的可变形场景中人体运动捕捉方法,该方法首先使用三维人体姿态估计器初始化人体运动学模型的三维人体姿态,这产生了相对于根节点的三维姿态。接下来,估计三维人体姿态下的人体网格的接触概率图,获得与场景接触的人体网格顶点,并通过光线投射来找到场景网格上相应的接触点,利用人体网格和场景网格的接触点对优化获得全局三维人体姿态。然后,搭建基于Transformer的神经变形网络,根据当前人体网格和场景网格的交互状态对场景网格执行非刚性变形。最后,迭代交替优化全局人体姿态和执行场景网格非刚性变形,实现高质量的无标记单目三维人体运动捕捉和非刚性三维场景变形。捕捉和非刚性三维场景变形。捕捉和非刚性三维场景变形。

【技术实现步骤摘要】
一种基于神经变形的可变形场景中人体运动捕捉方法


[0001]本专利技术涉及一种基于神经变形的可变形场景中人体运动捕捉方法,属于计算机视觉和计算机图形学领域。

技术介绍

[0002]人体运动捕捉在角色动画、人机交互和人类行为理解等方面有着广泛应用。传统的运动捕捉通过光学动捕系统或惯性动捕系统来采集动作人的运动信息。然而,无论是光学动捕还是惯性动捕都需要动作人穿上特定设备,这影响了动捕的使用范围和人体运动的真实性,并且这些设备通常价格昂贵。近年来,随着深度学习的发展和大型数据集的创建,无标记运动捕捉技术研究取得了显著进展。现有大量工作可以从单视角视频和图像中进行三维人体运动捕捉。然而,从单目彩色图像中进行三维人体重建存在尺度模糊问题,现有方法并不能很好的解决。此外,这些方法大多认为背景是静态的,忽略了由人类场景交互引起的潜在场景变化。虽然它们使用人体环境接触和渗透约束来避免碰撞,但忽略场景变形,容易导致大量的三维重建错误。
[0003]场景约束可以为全局三维人体运动捕捉提供线索,高质量的场景变形可以指导提高全局三维人体姿态估计精度。现有可变形物体的网格变形方法能够从预定义的稀疏控制顶点指导下变形网格。然而,这个问题通常是严重不适定和欠约束,特别是对于大的表面,因为有许多可能的变形可以与稀疏控制点的部分表面变形相匹配。因此,强先验编码的变形规律性是解决这一问题的必要条件。优化方法使用各种解析先验来定义自然的网格变形,如弹性,拉普拉斯平滑和刚性先验。但这些方法简单的将局部表面限制为以类似的方式进行变换,难以建模复杂的变形。现有基于神经网络的方法估计位移场来建模变形,但是维度大,难以进行泛化。我们基于Transformer建模相互关系,学习局部几何变形先验,基于变形先验推断一组由位移和旋转组成的欧式变换来变形网格。
[0004]因此,采用基于Transformer的神经变形网络建模可变形场景的几何形状,同时利用环境约束来为全局三维人体运动捕捉提供额外的线索,能够有效提高全局三维人体姿态的估计精度。

技术实现思路

[0005]本专利技术提出一种基于神经变形的可变形场景中人体运动捕捉方法。该方法首先使用三维人体姿态估计器初始化人体运动学模型的三维人体姿态,这产生了相对于根节点的三维姿态。接下来,估计三维人体姿态下的人体网格的接触概率图,获得与场景接触的人体网格顶点,并通过光线投射来找到场景网格上相应的接触点,利用人体网格和场景网格的接触点对优化获得全局三维人体姿态。然后,搭建基于Transformer的神经变形网络,根据当前人体网格和场景网格的交互状态对场景网格执行非刚性变形。最后,迭代交替优化全局人体姿态和执行场景网格非刚性变形,实现高质量的无标记单目三维人体运动捕捉和非刚性三维场景变形。
[0006]本专利技术提出的一种基于神经变形的可变形场景中人体运动捕捉方法包含以下步骤:
[0007]步骤1,使用三维人体姿态估计器,从单目彩色图像中初始化人体模型的三维人体姿态;
[0008]步骤2,估计三维人体姿态下的人体网格的接触概率图,获得与场景接触的接触点,并通过光线投射找到场景网格上相应的接触点,即得到人体网格和场景网格的接触点对;
[0009]步骤3,基于步骤2获得的人体网格和场景网格的接触点对,优化目标函数获得全局三维人体姿态;
[0010]步骤4,搭建基于Transformer的神经变形网络,根据全局三维人体姿态下的人体网格和场景网格的交互状态对场景网格执行非刚性变形;
[0011]步骤5,迭代交替优化全局三维人体姿态和执行场景网格非刚性变形,实现高质量的无标记单目三维人体运动捕捉和非刚性三维场景变形。
[0012]进一步,所述步骤1采用基于优化的SMPLify

X初始化人体模型的三维人体姿态,通过最小化目标函数来优化人体模型SMPL

X的三维人体姿势。
[0013]进一步,所述目标函数定义如下:
[0014]E
init
(β,θ,t)=E
J

θ
E
θ

α
E
α

β
E
β

C
E
C
[0015]该目标函数优化的参数β表示人体形状参数,θ代表可优化姿势参数的完整集合,t表示全局平移,目标函数第一项E
J
是重投影损失,表示从单目彩色图像中估计的2D关节位置和对应估计的人体模型三维关节的二维投影的鲁棒加权距离误差,目标函数第二项E
θ
是一个基于VAE的身体姿势先验,目标函数第三项E
α
是惩罚肘部和膝盖极端弯曲的先验,目标函数第四项E
β
是人体形状正则化项,惩罚偏离中性状态,目标函数最后一项E
C
表示惩罚身体部位自我碰撞,λ
θ
、λ
α
、λ
β
、λ
C
分别表示E
θ
、E
α
、E
β
、E
C
的权重系数。
[0016]进一步,所述步骤2中,对于当前三维人体姿态下的人体网格,使用一个条件变分自编码器为该三维姿态下的人体生成接触概率图。训练好的解码器以初始化三维人体姿态下的人体网格顶点和隐变量作为采样条件,其中隐变量空间服从于高斯分布。生成的接触概率图进行阈值操作,则可以得到与环境接触的人体网格顶点。
[0017]进一步,所述步骤2,使用现有的光线投射查找策略找到场景网格上相应的接触点,将与环境接触的人体网格顶点重新投影到图像空间中,若重新投影的接触点落在未被遮挡的人体部位上,则投射来自相机的光线,以找到与三维场景网格的相交点;若重新投影的接触点落在被遮挡的人体部位上,则将其最近的场景顶点作为相对应的接触顶点。
[0018]进一步,所述步骤3,获得人体网格和场景网格的接触点对后,将人体网格上的接触点对齐到相应的场景网格接触点上,并在步骤1的目标函数优化后的结果基础上进一步优化全局目标函数,获得全局三维人体姿态。所述全局目标函数定义如下:
[0019]E
global
(β,θ,t)=E
J

C
E
C

P
E
P

T
E
T
[0020]该目标函数优化的参数β表示人体形状参数,θ代表可优化姿势参数的完整集合,t表示全局平移。目标函数第一项E
J
是重投影损失。目标函数第二项E
C
表示惩罚身体部位自我碰撞。目标函数第三项E
P
表示让人体网格上的接触点和对应场景网格上接触点的距离最小。目标函数最后一项E
T
表示时间平滑项,表示当前帧姿势和全局平移与上一帧姿势和全
局平移的L本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经变形的可变形场景中人体运动捕捉方法,其特征在于,该方法包含以下步骤:步骤1,使用三维人体姿态估计器,从单目彩色图像中初始化人体模型的三维人体姿态;步骤2,估计三维人体姿态下的人体网格的接触概率图,获得与场景接触的接触点,并通过光线投射找到场景网格上相应的接触点,即得到人体网格和场景网格的接触点对;步骤3,基于步骤2获得的人体网格和场景网格的接触点对,优化目标函数获得全局三维人体姿态;步骤4,搭建基于Transformer的神经变形网络,根据全局三维人体姿态下的人体网格和场景网格的交互状态对场景网格执行非刚性变形;步骤5,迭代交替优化全局三维人体姿态和执行场景网格非刚性变形,实现高质量的无标记单目三维人体运动捕捉和非刚性三维场景变形。2.根据权利要求1所述的一种基于神经变形的可变形场景中人体运动捕捉方法,其特征在于,步骤1所述初始化人体模型的三维人体姿态是采用基于优化的SMPLify

X进行初始化,通过最小化目标函数来优化人体模型SMPL

X的三维人体姿势,所述目标函数定义如下:E
init
(β,θ,t)=E
J

θ
E
θ

α
E
α

β
E
β

C
E
C
该目标函数优化的参数β表示人体形状参数,θ代表可优化姿势参数的完整集合,t表示全局平移,目标函数第一项E
J
是重投影损失,表示从单目彩色图像中估计的2D关节位置和对应估计的人体模型三维关节的二维投影的鲁棒加权距离误差,目标函数第二项E
θ
是一个基于VAE的身体姿势先验,目标函数第三项E
α
是惩罚肘部和膝盖极端弯曲的先验,目标函数第四项E
β
是人体形状正则化项,惩罚偏离中性状态,目标函数最后一项E
C
表示惩罚身体部位自我碰撞,λ
θ
、λ
α
、λ
β
、λ
C
分别表示E
θ
、E
α
、E
β
、E
C
的权重系数。3.根据权利要求1所述的一种基于神经变形的可变形场景中人体运动捕捉方法,其特征在于,所述步骤2中,对于当前三维人体姿态下的人体网格,使用一个条件变分自编码器为该三维姿态下的人体生成接触概率图,训练好的解码器以初始化三维人体姿态下的人体网格顶点和隐变量作为采样条件,其中隐变量空间服从于高斯分布,生成的接触概率图进行阈值操作,则可以得到与环境接触的人体网格顶点;再使用现有的光线投射查找策略找到场景网格上相应的接触点,将与环境接触的人体网格顶点重新投影到图像空间中,若重新投影的接触点落在未被遮挡的人体部位上,则投射来自相机的光线,以找到与三维场景网格的相交点;若重新投影的接触点落在被遮挡的人体部位上,则将其最近的场景顶点作为相对应的接触顶点。4.根据权利要求1所述的一种基于神经变形的可变形场景中人体运动捕捉方法,其特征在于,所述步骤3,获得人体网格和场景网格的接触点对后...

【专利技术属性】
技术研发人员:王雁刚谢薇高桓朱明敏
申请(专利权)人:南京英麒智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1