一种视频驱动的三维人脸表情动画生成方法技术

技术编号:38341964 阅读:12 留言:0更新日期:2023-08-02 09:22
本发明专利技术一种视频驱动的三维人脸表情动画生成方法,逐帧将输入的源图像和驱动视频送入编码器并将得到的源图像向量与驱动视频帧向量混合,使用混合向量生成驱动网格和线性纹理贴图,完成人脸模型驱动;使用线性纹理贴图和驱动网格进行渲染得到线性纹理渲染图;将源图像展开到UV空间得到源纹理贴图,源纹理贴图和驱动网格进行渲染得到源纹理渲染图;从线性纹理渲染图中提取面部语义图;将源图像、源纹理渲染图和面部语义图作为输入条件送入纹理生成模块得到生成的面部图像并将其展开至UV空间,得到UV纹理贴图;使用UV纹理贴图和驱动网格进行渲染得到动画帧;串联所有动画帧输出三维人脸表情动画。提高了面部纹理质量,生成更高逼真度的人脸动画。高逼真度的人脸动画。高逼真度的人脸动画。

【技术实现步骤摘要】
一种视频驱动的三维人脸表情动画生成方法


[0001]本专利技术涉及计算机视觉和计算机图形学领域,具体为一种视频驱动的三维人脸表情动画生成方法。

技术介绍

[0002]人脸表情动画生成技术是一种将人脸图像或视频转换成逼真的三维动态人脸表情动画的技术。现有的人脸表情动画生成技术主要存在以下四个方面的缺点和不足:
[0003]缺乏真实性:现有技术使用的纹理贴图和模型通常是以平均面孔为基础,难以捕捉到个体面部特征的细节,缺乏真实感。
[0004]局限性:现有技术大多只能生成受限制的、静态的表情,无法根据实时视频输入生成连续的、自然的表情变化。
[0005]计算复杂度高:现有技术需要进行复杂的数据处理和计算,需要较长时间才能生成一个人脸表情动画,且计算复杂度随着动画长度和质量的提高而增加。
[0006]对数据依赖性强:现有技术需要大量的已标注或未标注的训练数据,对数据的质量和数量要求较高。

技术实现思路

[0007]本专利技术基于3DMM技术和人脸图像生成技术的视频驱动的三维人脸表情动画生成方法,引入了实时视频输入来捕捉人脸的细节和动态表情,生成更加逼真的面部纹理贴图,同时也能够实现连续的、自然的表情变化;同时,该方法还可有效减少计算复杂度和对数据的依赖性,提高了生成的动画效果的逼真度和速度。从而克服了现有技术的缺点和不足。
[0008]本专利技术为解决其技术问题所采用的技术方案是:
[0009]一种视频驱动的三维人脸表情动画生成方法,步骤包括:
[0010]S1:输入一张人脸源图像和一个驱动视频;
[0011]S2:逐帧将源图像和驱动视频送入编码器,得到源图像的向量和驱动视频帧的向量;
[0012]S3:将源图像的向量与驱动视频帧的向量混合得到混合向量,然后使用混合向量生成驱动网格和线性纹理贴图,完成人脸模型驱动;
[0013]S4:使用线性纹理贴图和驱动网格进行渲染,得到线性纹理渲染图;
[0014]S5:将源图像展开到UV空间得到源纹理贴图,然后使用源纹理贴图和驱动网格进行渲染,得到源纹理渲染图;
[0015]S6:从线性纹理渲染图中提取面部语义图;
[0016]S7:将源图像、源纹理渲染图和面部语义图作为输入条件送入纹理生成模块,得到生成的面部图像;
[0017]S8:将生成的面部图像展开至UV空间,得到UV纹理贴图;
[0018]S9:使用得到的UV纹理贴图和驱动网格进行渲染,得到动画帧;
[0019]S10:串联所有动画帧,输出三维人脸表情动画。
[0020]进一步的,步骤S2中所述的编码器采用ResNet

50结构,含有一个236维的预测头,并且输出236维向量,该向量由身份参数β、表情参数θ、位姿参数ψ、纹理参数γ、光照参数l、相机参数c拼接而成,其中身份参数β、表情参数θ、位姿参数ψ为3DMM模型参数;该编码器采用端到端的无监督训练方式。
[0021]进一步的,步骤S3中所述将源图像的向量与驱动视频帧的向量混合得到混合向量,具体为:将源图像的向量中的身份参数、纹理参数与驱动视频帧的向量中的表情参数、位姿参数、光照参数和相机参数进行混合,通过在3DMM模型的参数空间保持所述身份参数,转移所述表情参数和所述位姿参数来完成人脸模型驱动。
[0022]进一步的,步骤S5中所述将源图像展开到UV空间得到源纹理贴图,具体步骤包括:
[0023]S51:使用编码器获得源图像的向量,并进行重建得到人脸网格;
[0024]S52:将人脸网格的3D顶点投影到所述源图像,使其每个3D顶点的投影都能对应所述源图像的一个像素;
[0025]S53:根据3D顶点投影与源图像像素的对应关系将源图像的像素映射到每个3D顶点所对应的UV空间坐标上,得到所述源纹理贴图。
[0026]进一步的,步骤S6中所述面部语义图的语义部分包括面部皮肤、眉毛、眼睛、鼻子、嘴、上嘴唇、下嘴唇、部分头发的语义信息,不包括耳朵、背景、脖子的语义信息。
[0027]进一步的,步骤S7中所述的纹理生成模块采用编码器

解码器结构,解码器中包含SPADE块,以融合面部语义信息;该纹理生成模块采用源图像、源纹理渲染图和面部语义图作为其输入条件;该纹理生成模块输出的图像具有所述源图像的身份特征和所述面部语义图的表情特征;该纹理生成模块采用监督学习进行训练,并且使用对抗损失、特征匹配损失、面部语义损失、眼动一致性损失。
[0028]进一步的,所述眼动一致性损失,采用相应的眼部遮罩划分出眼周区域,来单独计算眼周区域的像素损失,计算公式如下:
[0029]L
eyes
=||mask

(I
real

I
out
)||1[0030]其中mask是眼周区域遮罩,I
real
和I
out
分别表示真实图像和生成图像。
[0031]本专利技术的有益效果包括:
[0032]本专利涉及的技术是一种视频驱动的三维人脸表情动画生成方法,旨在克服现有技术的局限性,提供更高质量和更逼真的面部纹理合成。该技术基于3DMM(三维形状和纹理模型)技术和人脸图像生成技术,实现了以下功能:
[0033]首先,该技术使用源纹理渲染图作为纹理生成的条件,提供了大部分源图像的纹理信息,以最大程度地保持纹理相似性。这样可以使网络专注于细节的合成,从而生成更逼真的面部纹理。
[0034]其次,该技术通过融合面部语义信息作为表情控制条件,提供更明确的指导,使得生成的人脸图像质量更高。具体而言,面部语义信息包括眉毛、眼睛、嘴巴等区域的特征点位置和运动轨迹,这些信息可以帮助生成更准确的面部表情。
[0035]另外,该技术在3DMM空间进行表情的转移,以最大程度地保持身份不变性。这意味着生成的动画可以保持原始面部结构和形态的一致性,同时仍然能够呈现出各种表情。
[0036]总之,视频驱动的三维人脸表情动画生成方法是一种创新的技术,该技术能够生
成更高质量和更逼真的三维人脸表情动画,具有广泛的应用前景,例如在游戏、虚拟现实、电影等领域中可以提供更加真实的角色表现,为人脸表情动画的应用提供了更加可靠和高质量的解决方案。
附图说明
[0037]图1是本专利技术方法的流程图;
[0038]图2是本专利技术方法中编码器的训练流程图;
[0039]图3是本专利技术方法中人脸模型驱动流程图;
[0040]图4是本专利技术方法的纹理生成模块结构图;
[0041]图5是本专利技术方法的整体网络结构图。
具体实施方式
[0042]下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频驱动的三维人脸表情动画生成方法,其特征步骤包括:S1:输入一张人脸源图像和一个驱动视频;S2:逐帧将源图像和驱动视频送入编码器,得到源图像的向量和驱动视频帧的向量;S3:将源图像的向量与驱动视频帧的向量混合得到混合向量,然后使用混合向量生成驱动网格和线性纹理贴图,完成人脸模型驱动;S4:使用线性纹理贴图和驱动网格进行渲染,得到线性纹理渲染图;S5:将源图像展开到UV空间得到源纹理贴图,然后使用源纹理贴图和驱动网格进行渲染,得到源纹理渲染图;S6:从线性纹理渲染图中提取面部语义图;S7:将源图像、源纹理渲染图和面部语义图作为输入条件送入纹理生成模块,得到生成的面部图像;S8:将生成的面部图像展开至UV空间,得到UV纹理贴图;S9:使用得到的UV纹理贴图和驱动网格进行渲染,得到动画帧;S10:串联所有动画帧,输出三维人脸表情动画。2.根据权利要求1所述的一种视频驱动的三维人脸表情动画生成方法,其特征在于,步骤S2中所述的编码器采用ResNet

50结构,含有一个236维的预测头,并且输出236维向量,该向量由身份参数β、表情参数θ、位姿参数ψ、纹理参数γ、光照参数l、相机参数c拼接而成,其中身份参数β、表情参数θ、位姿参数ψ为3DMM模型参数;该编码器采用端到端的无监督训练方式。3.根据权利要求2所述的一种视频驱动的三维人脸表情动画生成方法,其特征在于,步骤S3中所述将源图像的向量与驱动视频帧的向量混合得到混合向量,具体为:将源图像的向量中的身份参数、纹理参数与驱动视频帧的向量中的表情参数、位姿参数、光照参数和相机参数进行混合,通过在3DMM模型的参数空间保持所述身份参数,转移所述表情参数和所述位姿参数来完成人脸模型驱动。4.根据权利要求2所述的一种视频驱动的三维人脸表情动画生...

【专利技术属性】
技术研发人员:魏巍王袆宸张丹妮
申请(专利权)人:大连民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1