一种基于CLIP模型的三维人脸重建方法技术

技术编号:38458358 阅读:12 留言:0更新日期:2023-08-11 14:35
本发明专利技术提供了一种基于CLIP模型的三维人脸重建方法,具体包括如下步骤:S1,采用掩码预训练方式获取粗糙的特征表示;S2,采用参数细化模块从粗糙特征中学习细粒度特征表示;S3,采用特征分类器来获取3DMM参数;S4,采用BFM模型拟合3DMM参数生成三维人脸模型;S5,采用可微渲染器将3D人脸模型渲染到2D图像中;S6,采用损失函数优化模型。本发明专利技术的技术方案克服现有技术中人脸重建精度较低、人脸几何细节较少的问题。的问题。的问题。

【技术实现步骤摘要】
一种基于CLIP模型的三维人脸重建方法


[0001]本专利技术涉及计算机视觉和计算机图像学
,具体涉及一种基于CLIP模型的三维人脸重建方法。

技术介绍

[0002]近年来,基于单幅图像的3D人脸重建越来越受到研究者的重视。Vetter等(Volker Blanz,Thomas Vetter,”A morphable model for the synthesis of 3d faces,”in Proceed

ings of the ACM SIGGRAPH Annual Conference,1999,pp.187

194.)首创性提出3D形变模型(3D morphable model,3DMM)算法。自此二十多年里,3DMM方法得到快速的发展,且应用最为广泛。随着深度学习技术的兴起,一些有监督的3D人脸重建方法利用深度卷积网络来预测3DMM参数,以取代传统的优化方法以获得更好的重建效果。然而,带有3D地面真值的人脸数据不易获得。一些无监督或弱监督的学习方法获得广泛研究,并得到可接受的结果。Tewari等(A.Tewari,M.Zollofer,H.Kim,P.Garrido,F.Bernard,P.Perez,and T.Christian.MoFA:Model

based Deep Convolutional Face Autoencoder for Unsupervised Monocular Reconstruction.In ICCV,2017.3)提出在训练过程中使用光度损失作为监督信号来恢复人脸纹理。Genova等(K.Genova,F.Cole,A.Maschinot.Unsupervised training for 3D morphable model regression.In CVPR,2018,pp.8377

8386)利用人脸识别网络来提高人脸重建的保真度。Deng等(Y.Deng,J.Yang,S.Xu.Accurate 3D face reconstruction with weakly

supervised learning:From single image to image set.In CVPRW,2019,pp.285

295)采用地标损失来提高面部重建的准确性。Shang等(J.Shang,T.Shen,S.Li,L.Zhou,M.Zhen,T.Fang,and L.Quan.Self

supervised monocular 3D face Recons

truction by occlusion

aware multiview geometry consistency.In ECCV,2020,pp.53

70)提出了一种深度损失来提高人脸对齐的准确性。这些方法不断探索不同损失对3D人脸重建的作用,但是这些方法忽视对人脸几何细节的关注。总之,这些方法只能重建粗糙的几何和不保真的纹理,不能恢复几何细节。
[0003]现有技术中的一些方法能够用于恢复详细地人脸形状。Feng等(Y.Feng,H.Feng,M.J.Black,and T.Bolkart.Learning an animatable detailed 3D face model from in

the

wild images.In TOG,40(4):88:1

88:13,2021.2,3,4,5,6,7,8)提出了捕捉细节表情与动画(detailed expression capture and animat

ion,DECA)方法利用多视图人脸图像学习公共的几何细节,以此来生成富有几何细节的几何位移图。但是该方法学习的几何位移图不准确,且生成的几何细节不具有真实性。Danecek等(R.Danecek,M.J.Black,T.Bolkart.EMOCA:Emotion Driven Monocular Face Capture and Animation.In CVPR,2022.)提出情感捕捉与动画(emotion capture and animation,EMOCA)方法,利用深度感知表情一致性损失来学习人脸表情下的几何细节。该方法能够有效地恢复人脸表情的几何细节。但是该方法不能生成具有真实感的3D人脸形状。因此,这些使用位移图来恢复人脸几
何细节的方法很难学习到准确的几何细节,缺乏几何真实感。现有的工作无法有效捕捉几何细节和语义属性,导致生成的3D人脸几何细节少、纹理粗糙。此外,我们发现EMOCA方法利用表情网络获得更多的面部表情几何细节。因此,我们认为一个强大的语义表示网络可以学习几何细节和语义属性,以引导粗糙的3D人脸模型恢复更多的几何细节和具有真实感的面部表情。为此,我们利用CLIP(Contrastive

Language

Image

Pretraining)模型的强大表示能力来学习几何细节和语义特征。CLIP模型在400万文本

图像对上训练,它可以有效的获取细粒度语义特征。StyleCLIP(O.Patashnik,Z.Wu,E.Shechtman,D.Cohen

Or,and D.Lischinski.Styleclip:Text

driven manipulation of sty

egan imagery.In CVPR,pp.2085

2094,2021.)表明,CLIP模型可以捕捉人脸的几何和语义属性。
[0004]因此,现需要一种具有较高的人脸重建精度和更显著的人脸几何细节的基于CLIP模型的三维人脸重建方法。

技术实现思路

[0005]本专利技术的主要目的在于提供一种基于CLIP模型的三维人脸重建方法,以解决现有技术中人脸重建精度较低、人脸几何细节较少的问题。
[0006]为实现上述目的,本专利技术提供了一种基于CLIP模型的三维人脸重建方法,具体包括如下步骤:
[0007]S1,采用掩码预训练方式获取粗糙的特征表示。
[0008]S2,采用参数细化模块从粗糙特征中学习细粒度特征表示,参数细化模块包括:深度可分离的残差块和Transformer编码器,深度可分离的残差块用于学习局部人脸的细节特征,Transformer编码器用于从粗糙的特征表示中学习全局的语义特征,采用特征融合模块将参数细化模块学习的局部细节特征和全局语义特征进行融合。
[0009]S3,采用特征分类器来获取3DMM参数,细粒度的特征表示F
c
通过特征分类器获得低维的3DMM参数代码,参数代码由形状代码α、表情代码β、纹理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于CLIP模型的三维人脸重建方法,其特征在于,具体包括如下步骤:S1,采用掩码预训练方式获取粗糙的特征表示;S2,采用参数细化模块从粗糙特征中学习细粒度特征表示,参数细化模块包括:深度可分离的残差块和Transformer编码器,深度可分离的残差块用于学习局部人脸的细节特征,Transformer编码器用于从粗糙的特征表示中学习全局的语义特征,采用特征融合模块将参数细化模块学习的局部细节特征和全局语义特征进行融合;S3,采用特征分类器来获取3DMM参数,细粒度的特征表示F
c
通过特征分类器获得低维的3DMM参数代码,参数代码由形状代码α、表情代码β、纹理代码t、位姿代码ρ和光照代码l组成共257维参数代码;S4,采用BFM模型拟合3DMM参数生成三维人脸模型,本阶段拟合参数分为人脸模型和相机模型;S5,采用可微渲染器将3D人脸模型渲染到2D图像中,生成渲染图像I
r
=R(S
3d
),其中R(
·
)表示可微渲染器,S
3d
是3D人脸模型的顶点;S6,采用损失函数优化模型,损失函数包括粗糙损失函数和特征一致性损失函数,其中粗糙损失函数包括光度损失函数、身份损失函数、地标损失函数和正则化损失函数,特征一致性损失函数包括几何特征一致性损失函数和语义特征一致性损失函数。2.根据权利要求1所述的一种基于CLIP模型的三维人脸重建方法,其特征在于,步骤S1中,给定输入图像其中,h和w表示人脸图像的高度和宽度,在VGGFace2数据集中采用掩码方式预训练残差网络来提取粗糙的特征表示F0=H
b
(I
s
),其中H
b
(
·
)表示预训练残差网络,c代表通道数。3.根据权利要求2所述的一种基于CLIP模型的三维人脸重建方法,其特征在于,步骤S2中,参数细化阶段从粗糙特征F0中学习细粒度特征表示F
c
=H
PRM
(F0),其中H
PRM
(
·
)表示参数细化模块。4.根据权利要求3所述的一种基于CLIP模型的三维人脸重建方法,其特征在于,步骤S2具体包括如下步骤:S2.1,给定粗糙特征F0;S2.2,使用1
×
1卷积层来降低特征维度得到256维特征向量,此过程被定义为:c=C(F0);S2.3,采用并行的深度可分离的残差块和Transformer编码器分别学习局部高频特征和全局语义特征,此过程定义为F
c
=cat(T(c)+DW(c)),其中T(
·
)表示Transformer编码器,DW(
·
)表示深度可分离残差块。5.根据权利要求1所述的一种基于CLIP模型的三维人脸重建方法,其特征在于,步骤S4的人脸模型表示为:其中,s表示3D人脸的平均形状;A
id
,A
exp
和A
tex
分别表示人脸的形状、表情和纹理的主成
分基,α,β,t分别表示人脸的形状、表情和纹理参数,用于拟合生成3D人脸;步骤S4的相机模型使用透视相机将3D人脸模型投影到2D图像中,透视相机投影过程可以表示为:v=f
×
R
×
S
3d
+T
ꢀꢀ
(2)其中R是旋转矩阵,T是平移向量,S
3d
是3D人脸模型的顶点,f是相机焦距。6.根据权利要求1所述的一种基于CLIP模型的三维人脸重建方法,其特征在于,步骤S6中,光度损失函数用于使生成的纹理肤色接近输入图形的纹理肤色,光度损失函数被定义为:L
photo
=||M
I

(I
s

I
r
)||1ꢀꢀ
(3)其中M
I
是人脸肤色的掩码区域,
⊙<...

【专利技术属性】
技术研发人员:包永堂周鹏飞肖欣菲
申请(专利权)人:山东科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1