一种基于双神经辐射场的穿衣人体运动捕捉和生成方法技术

技术编号:37198736 阅读:10 留言:0更新日期:2023-04-20 22:55
本发明专利技术公开了一种基于双神经辐射场的穿衣人体运动捕捉和生成方法,该方法包括建立三维人体的标准模板空间,包括表示人体和衣服的几何模型及表示人体和衣服外观的双神经辐射场;对输入视频的每一帧图像建立变形场,将标准模板空间中的三维人体模板网格变形到观察帧空间;在观察帧空间取采样点,通过逆变形场变换到标准模板空间的对应点的坐标,根据采样点所在方位属于人体还是衣服,输入不同神经辐射场查询颜色,渲染获得人体合成图像;通过多种约束联合优化标准模板空间中的几何模型和双神经辐射场以及变形场,实现三维人体的运动捕捉和动态人体的外观恢复。本发明专利技术不仅能实现三维人体的运动捕捉和外观恢复,还能实现新视角图像合成和衣服编辑。角图像合成和衣服编辑。角图像合成和衣服编辑。

【技术实现步骤摘要】
一种基于双神经辐射场的穿衣人体运动捕捉和生成方法


[0001]本专利技术属于三维重建领域,涉及一种基于双神经辐射场的穿衣人体运动捕捉和生成方法。

技术介绍

[0002]穿衣服人体的动作捕捉(Clothed human performance capture and synthesis)在计算机视觉和图形学领域是一个重要的问题,不仅需要捕捉内部人体的动作,也要恢复外部衣服运动,这一工作可以用于很多有前景的应用,如虚拟试穿、视频编辑以及远程呈现等。基于人体的多视角或单目视频,三维人体运动捕捉和生成的目标是重建几何和外观时空一致的动态人体三维模型序列,并从新的视角渲染逼真的人体运动视频。人体存在随机的运动并且伴随着衣服的非刚性运动,而且光照变化、自阴影等因素会导致时序外观的变化。因此,三维人体运动捕捉和生成是一个具有很大挑战性的问题。
[0003]先前的系统使用深度传感器或者将个性化的人体适应到观察帧图像来重建穿衣服的人体,只能恢复一体式的几何,其人体和衣服是一个整体,这些系统不能单独追踪衣服和编辑三维人体的衣服,而这是很多VR/AR应用如虚拟试穿的先决条件。相反的,因为这些方法需要从深度扫描中提取衣服和追踪,如果三维信息缺失,此应用将受限。现有的从彩色图像衣服估计方法需要人对着相机并且保持静态姿势;当人体处于运动中并且衣服在变形时,这些方法将不能真实地恢复三维衣服。最近的方法尝试从视频中模拟追踪人体和衣服的运动,但是此类方法需要为每一个表演者重建衣服模板,或者运行效率极低,因为需要在线模拟衣服或者需要算力耗费巨大的优化,这些使这些方法不能发展成广泛使用的日常应用。
[0004]神经辐射场(Neural radiance fields,简称NeRF)是一种对三维静态场景连续、隐式的表达方式,其灵活地表示了三维场景的几何和外观,实现了逼真的新视角二维图像合成。近两年NeRF被成功推广到动态场景的图像合成,通过定义一个变形场,变形场通常表示为刚体变形场或位移向量场,将观察帧空间的三维点变换到标准空间,联合优化标准空间NeRF和变形场,实现动态场景NeRF。在不使用运动先验的情况下,同时优化标准空间下的NeRF和变形场是一个欠约束问题,这些方法不适用于运动人体。最近,NerfCap和HumanNeRF分别采用SMPL模型和基于骨架驱动的变形表达动态人体,有效约束了人体变形场的学习,生成了高质量的新视角动态人体视频,但是他们使用一个单独的NeRF表示人体,而没有对衣服建模,因此衣服的运动不能被提取,这限制了其在虚拟显示、增强现实等下游任务上的应用。

技术实现思路

[0005]本专利技术的目的在于提出一种基于双神经辐射场的穿衣人体运动捕捉和生成方法,该方法通过对运动中的人体和衣服分别重建,不仅能实现三维人体的运动捕捉和外观恢复,还能实现新视角图像合成以及衣服编辑。
[0006]本专利技术为了实现上述目的,采用如下技术方案:一种基于双神经辐射场的穿衣人体运动捕捉和生成方法,包括如下步骤:步骤1. 建立三维人体的标准模板空间,包括使用预先建立的三维人体模板网格和衣服模板网格训练的占据网络和带符号距离场,用于表示人体和衣服的几何模型;以及分别用于表示人体和衣服外观的双神经辐射场;步骤2. 对输入视频的每一帧图像建立变形场,使用骨架驱动的变形以及非刚性变形对人体和衣服变形,同时使用预训练的物理感知模拟网络预测生成逼真的衣服模板网格监督衣服的变形,将标准模板空间中的三维人体模板网格和衣服模板网格变形到观察帧空间;步骤3. 在观察帧空间取采样点,将采样点的坐标通过逆变形场变换到标准模板空间下对应点的坐标,然后根据转换后的采样点坐标所在位置是衣服还是人体,将该转换后的采样点坐标输入到标准模板空间中的对应神经辐射场查询颜色,渲染获得人体合成图像;步骤4. 通过多种约束联合优化标准模板空间中的几何模型和双神经辐射场以及变形场,实现三维人体的运动捕捉以及动态人体的外观和恢复;步骤5. 利用训练好的标准模板空间中的几何模型和双神经辐射场以及变形场,选定新的相机视角进行图像合成,通过更改衣服的几何与颜色模板实现人体变装。
[0007]本专利技术具有如下优点:如上所述,本专利技术述及了一种双神经辐射场的穿衣人体运动捕捉和生成方法,该方法通过对运动中的人体和衣服分别重建,不仅能实现三维人体的运动捕捉和外观恢复,还能实现新视角图像合成以及衣服编辑。本专利技术方法重建的几何精度高、能合成任意视角的逼真图像,且人体与衣服相分离,能够实现对人体的衣服编辑操作,应用场景广泛。
附图说明
[0008]图1为本专利技术实施例中基于双神经辐射场的穿衣人体运动捕捉和生成方法的流程框图。
[0009]图2为本专利技术实施例中基于双神经辐射场的穿衣人体运动捕捉和生成方法的流程示意图。
[0010]图3为本专利技术使用单目相机视频恢复的人体几何模型和新视角生成示意图。
[0011]图4为本专利技术提出的方法的结果和其他方法的比较示意图。
[0012]图5为本专利技术衣服与人体分别渲染的结果与其他方法的比较示意图。
[0013]图6为本专利技术人体换衣结果的示意图。
具体实施方式
[0014]下面结合附图以及具体实施方式对本专利技术作进一步详细说明:如图1所示,一种基于双神经辐射场的穿衣人体运动捕捉和生成方法,包括如下步骤:步骤1. 建立三维人体的标准模板空间,包括:使用预先建立的三维人体模板网格和衣服模板网格训练的占据网络和带符号距
离场,用于表示人体和衣服的几何模型;以及分别用于表示人体和衣服外观的双神经辐射场。
[0015]其中,双神经辐射场(NeRF)在后续步骤中逐渐优化。
[0016]标准模板空间包括几何模型和颜色模型,且人体和衣服的表示相独立;人体和衣服的几何模型使用占据网络和带符号距离场表示。
[0017]标准模板空间的几何模型在时序变化的人体图像合成时保持不变。
[0018]人体和衣服的颜色模型使用双神经辐射场表示;在定义标准模板空间的颜色模型时,为人体和衣服分别定义一组隐式外观编码,对应了输入视频的每一帧图像。
[0019]在模板空间神经辐射场的颜色模型中融入隐式外观编码,表达并恢复时序变化的外观。
[0020]标准模板空间的几何模型在准备阶段使用人体和衣服网格预先训练好,使用占据网络和带符号距离场表示,标准模板空间的占据网络模型由函数Fo定义:o(x)= Fo(γ
x
(x))。
[0021]其中,o(x)∈{0, 1}表示占据网络模型输出的在x坐标处的空间是否被占据;x为采样点坐标,γ
x
(x)表示空间坐标x的位置编码,其定义如下:γ
x
(x)=[sin(x),cos(x),sin(2x),cos(2x),

, sin(2
m
‑1x),cos(2
m
‑1x)]T
,m为自然数。
[0022]为了处理变化的衣服和人体形状,本专利技术还使用带符号距离场本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双神经辐射场的穿衣人体运动捕捉和生成方法,其特征在于,包括如下步骤:步骤1. 建立三维人体的标准模板空间,包括使用预先建立的三维人体模板网格和衣服模板网格训练的占据网络和带符号距离场,用于表示人体和衣服的几何模型;以及分别用于表示人体和衣服外观的双神经辐射场;步骤2. 对输入视频的每一帧图像建立变形场,使用骨架驱动的变形以及非刚性变形对人体和衣服变形,同时使用预训练的物理感知模拟网络预测生成逼真的衣服模板网格监督衣服的变形,将标准模板空间中的三维人体模板网格和衣服模板网格变形到观察帧空间;步骤3. 在观察帧空间取采样点,将采样点的坐标通过逆变形场变换到标准模板空间下对应点的坐标,然后根据转换后的采样点坐标所在位置是衣服还是人体,将该转换后的采样点坐标输入到标准模板空间中的对应神经辐射场查询颜色,渲染获得人体合成图像;步骤4. 通过多种约束联合优化标准模板空间中的几何模型和双神经辐射场以及变形场,实现三维人体的运动捕捉以及动态人体的外观和恢复;步骤5. 利用训练好的标准模板空间中的几何模型和双神经辐射场以及变形场,选定新的相机视角进行图像合成,通过更改衣服的几何与颜色模板实现人体变装。2.根据权利要求1所述的穿衣人体运动捕捉和生成方法,其特征在于,所述步骤1中,标准模板空间包括几何模型和颜色模型,且人体和衣服的表示相独立;人体和衣服的几何模型使用占据网络和带符号距离场表示;标准模板空间的几何模型在时序变化的人体图像合成时保持不变;人体和衣服的颜色模型使用双神经辐射场表示;在定义标准模板空间的颜色模型时,为人体和衣服分别定义一组隐式外观编码,对应了输入视频的每一帧图像;在模板空间神经辐射场的颜色模型中融入隐式外观编码,表达并恢复时序变化的外观。3.根据权利要求2所述的穿衣人体运动捕捉和生成方法,其特征在于,所述步骤1具体为:标准模板空间的几何模型使用占据网络和带符号距离场表示,标准模板空间的占据网络模型由函数Fo定义:o(x)= Fo(γ
x
(x));其中,o(x)∈{0, 1}表示占据网络模型输出的在x坐标处的空间是否被占据;γ
x
(x)表示空间坐标的位置编码,其定义如下:γ
x
(x)=[sin(x),cos(x),sin(2x),cos(2x),

, sin(2
m
‑1x),cos(2 m
‑1x)]
T
,m为自然数;带符号距离场将三维空间坐标映射到带符号的距离s,即S:p∈R 3

s∈R;其中,S表示带符号距离场模型,p表示三维点坐标;s为带符号的距离,表示三维点与最近物体表面的距离,符号代表所处位置是物体的内外,在内即为负,在外即为正;标准模板空间的颜色模型使用神经辐射场表示,对输入视频的每一帧图像定义一个隐式外观编码,则颜色模型由函数F
c
定义:c
i
(x)= F
c

x
(x), r
d
(d),ψ
i
);其中,c
i
(x)表示颜色模型输出的在x坐标处的颜色,d表示观察x坐标的视角方向,即x坐标所在射线的方向;ψ
i
表示每一帧的隐式外观编码;
使用两个占据网络,两个颜色网络分别表示人体和衣服的几何和颜色;具体为:利用一个占据网络 、一个颜色网络(,)表示人体的几何和颜色,使用另一个占据网络、以及另一个颜色网络(,)表示衣服的几何和颜色;其中,、分别为表示人体颜色的颜色模型以及隐式外观编码;、分别表示表示衣服颜色的颜色模型以及隐式外观编码。4.根据权利要求3所述的穿衣人体运动捕捉和生成方法,其特征在于,所述步骤2具体为:步骤2.1. 非刚性变形;首先通过嵌入变形对非刚性变形建模,该嵌入变形基于变形图计算一个弯曲场;一个嵌入变形图G包含K个节点,并且在三维人体模板网格中能够被自动建立;节点变换由欧拉角A∈R
k
×3和平移向量T∈R
k
×3参数化;对于三维人体模板网格的每个顶点v,经过非刚性变形后的新坐标y由下述公式得到:y=∑
k∈N(v)
w(v,g
k
)[R(A
k
)(v

g
k
)+g
k
+T
k
];其中,N(v)表示影响到顶点v的邻域顶点集合,k∈N(v);g
k
表示第k个顶点的坐标;A
k
和T
k
分别表示第k个邻域顶点变形所需的欧拉角和平移向量;R(
·
) :R3→
SO(3) 将欧拉角转换为旋转矩阵;w(v,g
k
)是顶点v的第k个邻域顶点的变形权重,w(v,g
k
)的值由如下公式计算:w(v,g
k
)=(1

||v

g
k
||/d
max
)2;其中,d
max
表示顶点v到k个最近顶点的距离;非刚性形变中的欧拉角A和平移向量T都使用一个多层感知机模型训练获得,同时多层感知机还反向传播优化一个隐式变形编码w;对于第i帧非刚性变形的欧拉角A
i
,平移向量T
i
和隐式变形编码w
i
,由函数F
A,T
定义:F
A,T
:w
i

(A
i
, T
i
);步骤2.2. 估计骨架驱动的变形;首先对输入视频的每一帧图像估计一个SMPL模型,并从估计的SMPL模型中计算蒙皮权重w(y)
j
,w(y)
j
表示顶点y的第j个部分的蒙皮权重;人体的参数SMPL模型使用85维向量表示Θ=(θ,β);其中,β∈R
10
,θ∈R
75
分别表示人体的形状参数和各个关节的相对角度;基于非刚性变形获得的三维人体模板网格,进一步应用线性蒙皮变形来进行变形,对于三维人体模板网格的每个顶点y,其变形后的观察帧空间的顶点的计算公式如下:=[∑
Jj=1
w(y)
j G
j
]y;其中,J是人体关节的数量;w(v)
j
表示顶点v的第j个部分的蒙皮权重,G
j
∈SE(3) 表示刚性变换矩阵;步骤2.3. 使用预训练的物理感知模拟网络监督衣服的变形;使用物理感知模拟网络学习衣服跟随人体动作所产生的变形,物理感知模拟网络由一个多层感知机模型D
φ
定义;首先在Marvelous Designer软件中模拟各种衣服的变形;对于每种衣服类别,使用25种衣服风格以及...

【专利技术属性】
技术研发人员:王康侃丛素旭李绍园
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1