当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于深度相机的人体实时三维重建方法技术

技术编号:36887541 阅读:13 留言:0更新日期:2023-03-15 21:40
本发明专利技术公开了一种基于深度相机的人体实时三维重建方法。本发明专利技术使用SMPL

【技术实现步骤摘要】
一种基于深度相机的人体实时三维重建方法


[0001]本专利技术涉及人体三维重建
,具体的说,涉及一种基于深度相机的人体实时三维重建方法。

技术介绍

[0002]随着技术的不断进步,相关的科学研究从二维图像逐渐扩展到了三维模型。相比于二维图像,三维模型具有更直观的呈现形式和更丰富的语义信息,更符合人类对于三维立体世界的认知。远程会议、VR试衣、在线VR教育等应用不仅要求能够对人体进行重建,还需要实时地将人在3D空间中进行表示。
[0003]为了实现这一目的,可以使用基于多摄像机标定和点云融合的非参数化建模方法或是基于人体先验知识的参数化建模方法。非参数化方法通常使用点云作为人体模型表征方式,通过相机标定或是点云配准方法计算多相机之间的坐标关系,利用该关系将不同视角的稠密点云进行融合得到完整人体模型。该类方法在计算资源足够的情况下具有较高的分辨率,重建出来的人体模型具有较高的逼真程度,并且能够很好地适应人体拓扑结构变化。然而这种方法需要大量且密集的图像作为输入,并且要求严密的相机标定或复杂的点云配准方法。同时,该类方法在目标对象被遮挡时,难以完整地表征整个人体三维模型。参数化的方法首先利用机器学习技术从海量数据中学习一个参数化的人体模型,利用少量的参数就可以对该模型进行变形控制。之后,使用该模型作为模板,并利用机器学习方法从数据中生成参数,利用参数对模板进行变形控制,从而实现实时重建的效果。参数化的重建方法非常轻量,具有更广泛的应用价值,但其缺点在于需要较复杂的深度学习模型以及大量的训练数据。同时,现有方法未能充分地表征人体脸部、手部的细节。
[0004]另一方面,现有的一些预测人体模型控制参数的方法大多使用RGB数据作为输入,这类方法需要搭建较深的神经网络间接地推理深度信息特征,并且其预测的形状参数容易受光照不均等环境因素的影响。近年来,深度相机的性能不断进步,而其主动式测量的方法能够快速鲁棒地获取被测物体的深度,越来越多的研究人员将深度相机应用于三维物体重建和三维场景重建当中。相比于基于双目相机的测量办法,基于深度相机的方法无需复杂的计算过程,能够更快地获取被测物体的深度数据。
[0005]综上可知,参数化的重建方法对于部署要求较低,若能解决现存的一些问题,其应用价值将非常之高。而深度相机已经在静态场景和静态物体重建任务中证明了其在三维重建领域中的巨大优势,将之应用于参数化的重建方法将有效提高重建速度和重建精度。

技术实现思路

[0006]本专利技术所要解决的技术问题是提供一种轻量化且高性能的人体实时三维重建方法,其能够实现人体的三维重建和动态变形,其克服现有方法中存在的系统复杂、手部和脸部局部细节表征差以及存在不合理状态的问题。
[0007]本专利技术首先提出了一个人体重建网络,实现了从RGBD数据中预测SMPL

X人体模型
的参数,并且能够充分挖掘手部和脸部的局部特征。其次,本专利技术提出了一个基于自动编码器的参数压缩与矫正的方法,实现了对人体模型参数的压缩以及对不合理状态的矫正。最后,本专利技术提出了一种基于深度数据与SMPL

X的纹理贴图方法,实现了人体纹理的离线采集与在线实时贴图,使重建的人体三维模型更加真实。
[0008]人体重建网络
[0009]首先,本专利技术使用OpenPose获取人体关键点的姿态信息,然后根据其输出结果计算人体关节点的边界点x
max
,x
min
,y
max
,y
min
,则人体边界框的中心c和大小s可以计算为:
[0010][0011]s=γ(x
max

x
min
,y
max

y
min
),(x,y)∈O
[0012]其中,γ表示放大系数。接着,使用计算出的边界框进行仿射变换T
p
(c,s),从原始RGB图像I和深度图像D中剪裁得到人体图像。同样的操作也适用于脸部部位和手部部位,最后得到分别包含主干、脸部和手部的三幅RGB图像I
p
和三幅深度图像D
p

[0013]I
p
=ST[I;T
p
(c
p
,s
p
)],D
p
=ST[D;T
p
(c
p
,s
p
)],p∈[global,face,hand][0014]其中,ST代表空间变换。
[0015]在输入数据经过注意力机制处理后,本专利技术设计了一个并行多分支的神经网络用以预测SMPL

X参数,该网络包含三个子网络
[0016]主干网络从主干RGB图、主干深度图以及主干位姿中提取特征脸部网络从脸部RGB图中提取特征手部网络从手部RGB图像中提取特征在所有特征被提取后,分别通过全连接层来预测人体模型参数。最后,通过对三个子网络的输出进行加权融合得到最终输出。网络的损失函数由三部分构成,分别为参数损失L
params
、关节点损失L
joint
和反投影损失L
re

project
,每部分损失计算如下:
[0017]L=L
params
+L
j0int
+L
re

project
[0018][0019][0020][0021]其中,x
j
代表2D关节位置,加帽变量表示标签值。在分别对三个子网络进行训练后,网络停止梯度传播并输出加权结果。最终输出为:
[0022][0023]其中,λ表示自网络间的姿势权重,ζ表示自网络间的表情权重。
[0024]基于自动编码器的参数压缩与矫正
[0025]为了解决手掌外翻和肘关节向内等人体重建结果中存在的不合理现象,本专利技术使用去噪自编码器对参数进行压缩与矫正。具体地,本专利技术将不合理状态的样本视为噪声数据,并通过矫正不合理状态的样本得到干净数据集。在训练时,本专利技术使用均方误差作为损失函数。
[0026]纹理贴图方法
[0027]本专利技术的提出的纹理贴图方法包括两部分:离线采集与在线实时贴图。
[0028]离线采集过程:(1)从正面和背面收集目标人体的RGBD数据。(2)使用人体重建算法生成SMPL

X网格模型,将其转换为点云,而后根据相机参数将其投影到像素平面。(3)计算投影变换并通过像素匹配生成纹理图像。(4)存储于数据库中。
[0029]在线实时贴图:(1)基于SMPL

X模板网格将纹理图映射到顶点.(2)按照顶点索引将纹理图转换为颜色序列。(3)在生成人体模型后读出并赋值于模型顶点。
[0030]总的来说,一种基于深度相机的人体实时三维重建方法包括以下步骤:
...

【技术保护点】

【技术特征摘要】
1.一种基于深度相机的人体实时三维重建方法,其特征在于,其使用SMPL

X作为参数化的人体模型,通过训练神经网络从输入的彩色图像RGB和深度图像D中控制该模型的变形,实现实时重建效果;包括以下步骤:(1)基于深度相机从正面和背面采集目标人体的RGB图像和D图像,基于缓冲和滤波两种方法对数据进行预处理;(2)根据人体姿态估计结果对图像数据裁剪得到局部数据,通过学习局部细节特征,提升SMPL

X人体模型手部和脸部的精度,获得SMPL

X人体模型的参数:姿态参数形状参数和表情参数首先对深度相机采集得到的RGB图像,使用OpenPose获取人体关键点的姿态信息;然后根据其输出结果计算人体关节点的边界点x
max
,x
min
,y
max
,y
min
,则人体边界框的中心c和大小s计算为:s=γ(x
max

x
min
,y
max

y
min
),(x,y)∈O其中,γ表示放大系数;接着,使用计算出的边界框进行仿射变换T
p
(c,s),从原始RGB图像I和深度图像D中剪裁得到包含全部关键点的人体主干图像;同样的操作也适用于脸部部位和手部部位,最后得到分别包含主干、脸部和手部的三幅RGB图像I
p
和相应的三幅深度图像D
p
:I
p
=ST[I;T
p
(c
p
,s
p
)],D
p
=ST[D;T
p
(c
p
,s
p
)],p∈[global,face,hand]其中,ST代表空间变换;输入数据I
p
和D
p
经过注意力机制处理后,基于人体重建网络预测SMPL

X人体模型的参数;人体重建网络包含三个子网络:主干网络、手部网络和脸部网络;其中:主干网络从人体主干RGB图、人体主干深度图以及主干位姿中提取特征主干网络从人体主干RGB图、人体主干深度图以及主干位姿中提取特征脸部网络从脸部RGB图中提取特征手部网络从手部RGB图像中提取特征在所有特征被提取后,分别通过全连接层来预测SMPL

X人体模型的参数;最后,通过对三个子网络的输出进行加权融合得到最终输出;人体重建网络的损失函数由三部分构成,分别为参数损失L
params
、关节点损失L
joint
和反投影损失L
re
...

【专利技术属性】
技术研发人员:宋梁卢洋倪伟张冠华蒋林华余晗王梓名
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1