【技术实现步骤摘要】
一种基于视频监督的单图像三维人脸重建方法
本专利技术属于三维人脸重建领域,具体涉及一种基于视频监督的单图像三维人脸重建方法。
技术介绍
单图像三维人脸重建指的是从单目2D图像中分离出人脸的形状身份(中性几何体)、皮肤外观(或反照率)、表情,以及估计场景照明和相机参数,其在视觉和图形学中有着广泛的应用,包括人脸跟踪、情感识别和多媒体相关的交互式图像/视频编辑任务。然而从单目二维图像中恢复三维几何结构本身是一个病态问题,不同的几何体在不同的视角下也许有着相同的二维投影,为了消除这种歧义性,基于单图像的三维人脸重建方法,如文献1:RichardsonE,SelaM,KimmelR.3DFaceReconstructionbyLearningfromSyntheticData[J].2016.引入3DMM人脸先验模型来消除歧义,这可以将三维重建问题转换为回归问题,他们将随机设置的3DMM模型的参数值所得到的人脸重投影回图像平面生成了合成人脸数据集,并在其上进行网络的回归训练。但他们的方法有两个局限性,1、3DMM模型本身只利 ...
【技术保护点】
1.一种基于视频监督的单图像三维人脸重建方法,其特征在于,包括如下步骤:/n步骤1,搭建单图像人脸重建模块:搭建单图像编码网络、形状解码网络、形状偏移解码网络以及反照率解码网络,输入一张人脸图片,输出一个形状深度图,形状偏移深度图以及一个反照率图;/n步骤2,搭建姿态光照分解模块:建立光照姿态分解网络,输入一张人脸图片,输出图片中人脸的姿态和图片中环境的整体光照情况;/n步骤3,通过对现有视频人脸数据集中每一个视频中的人脸进行检测、跟踪、对齐和切割制作成视频人脸片段数据集,通过重投影渲染以及约束每一个视频片段内的一致性信息来优化单图像人脸重建模块和姿态光照分解模块,利用训练 ...
【技术特征摘要】
1.一种基于视频监督的单图像三维人脸重建方法,其特征在于,包括如下步骤:
步骤1,搭建单图像人脸重建模块:搭建单图像编码网络、形状解码网络、形状偏移解码网络以及反照率解码网络,输入一张人脸图片,输出一个形状深度图,形状偏移深度图以及一个反照率图;
步骤2,搭建姿态光照分解模块:建立光照姿态分解网络,输入一张人脸图片,输出图片中人脸的姿态和图片中环境的整体光照情况;
步骤3,通过对现有视频人脸数据集中每一个视频中的人脸进行检测、跟踪、对齐和切割制作成视频人脸片段数据集,通过重投影渲染以及约束每一个视频片段内的一致性信息来优化单图像人脸重建模块和姿态光照分解模块,利用训练好的单图像人脸重建模块实现单张人脸图像进行三维重建。
2.根据权利要求1所述的方法,其特征在于,步骤1包括以下步骤:
步骤1-1,搭建单图像编码网络FE;
步骤1-2,搭建形状解码网络FS,形状偏移解码网络FΔS,以及反照率解码网络FA;
步骤1-3,对于一张输入的单张人脸图像I,经过单图像编码网络FE后得到3个k维的向量编码,分别为形状向量编码vS、形状偏移向量编码vΔS和反照率向量编码vA,k∈{2n|5≤n≤10,n∈N+},其中N+表示所有自然数的集合,将形状向量编码输入进形状解码网络得到初始形状深度图DS,将形状偏移向量编码输入进形状偏移解码网络得到形状偏移深度图DΔS,将反照率编码输入进反照率解码网络得到反照率图FA(I)。
3.根据权利要求2所述的方法,其特征在于,步骤1-1中,所述单图像编码网络包含5个基本块,每个基本块包含一个核大小是4,步长是2,填充是1的卷积层,以及一个组规范化层和一个LeakyReLU层,5个基本块后并列连接3个全连接层,每个全连接层后连接一个Tanh作为激活函数,整个单图像编码网络的输入大小是64×64,输出是3个k维的向量。
4.根据权利要求3所述的方法,其特征在于,步骤1-2中所述的三个解码网络形状解码网络FS,形状偏移解码网络FΔS,以及反照率解码网络FA都由头、身和尾三个部分组成,头是由一个全连接层和一个ReLU层组成,身是由4个基本块组成,每个基本块内包含一个核大小是4,步长是1,填充是0的反卷积,一个ReLU层,一个组规范化层和一个核大小是3,步长和填充都是1的卷积层;尾是由一个双线性上采样层以及三个核大小是5,步长是1,填充是2的卷积层组成;
三个解码网络的输入大小都是一个k维的向量,经过头后变成一个64维的向量,经过身后变成32×32大小的特征图,最后经过尾变成64×64大小的输出,其中形状解码网络和形状偏移解码网络输出的通道数是1,反照率解码网络输出的通道数是3。
5.根据权利要求4所述的方法,其特征在于,步骤2中,所述姿态光照分解网络包括5个基本块,每个基本块内包括一个核大小是4,步长是2,填充是1的卷积层以及一个ReLU层,5个基本块后跟了一个核大小是1,步长是1,填充是0的卷积层,之后继续跟了Tanh激活函数,网络的输出是一个10维的向量,其中前6维表示姿态,姿态是由三个旋转角度偏航角,俯仰角,旋转角以及三个平移量即沿x,y,z轴的平移量表示的,后4维表示光照,光照采用朗博漫反射表示,其中第一维表示环境光照系数,第二维表示漫反射系数,第三到四维表示漫反射光源的方向。
6.根据权利要求5所述的方法,其特征在于,步骤3包含以下步骤:
步骤3-1,数据预处理:对现有视频人脸数据集中的每一段视频进行人脸检测和跟踪,利用人脸关键点检测方法检测跟踪到的人脸的68个关键点,并根据68个关键点的位置从视频帧中截取人脸,缩放到224×224大小,将处理后的每个视频切割成60帧一组的视频片段,制作成视频人脸片段数据集;
...
【专利技术属性】
技术研发人员:孙正兴,骆守桐,武蕴杰,孙蕴瀚,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。