混合动作表示的高保真人脸重现方法技术

技术编号:33716438 阅读:46 留言:0更新日期:2022-06-06 09:00
本发明专利技术公开了一种混合动作表示的高保真人脸重现方法,属于深度人脸伪造领域。包括提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息;利用关键点转换模块根据驱动人脸的动作单元和姿态信息转换源人脸的关键点信息;使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域;将动作单元和转换过的关键点信息,以及人脸区域输入重现网络,生成目标人脸;将目标人脸和背景区域输入到背景融合模块,生成最终结果。本发明专利技术混合多种动作表示作为人脸重现的指引信号,并利用空间自适应正则化插入动作特征,使重现过程能更好地保持语义特征;同时结合背景分离技术,进一步提高生成人脸的真实性和帧间连续性,实现高保真的人脸重现。人脸重现。人脸重现。

【技术实现步骤摘要】
混合动作表示的高保真人脸重现方法


[0001]本专利技术涉及深度人脸伪造,特别是一种混合动作表示的高保真人脸重现方法。

技术介绍

[0002]人脸重现是根据驱动人脸的动作(姿势和表情)为源人脸生成动画的过程,在电影制作、增强现实等领域有广泛应用前景。一般来说,该过程包括三个主要步骤:1)创建源人脸身份的表示,2)提取和编码驱动人脸的动作,3)结合身份和动作表示生成伪造的源人脸。每个步骤都对生成质量有重大影响。
[0003]目前人脸重现技术主要可以分为基于传统3D模型的合成方法和基于生成对抗网络(GANs)的生成方法。在基于3D人脸模型的方法中,首先使用3D模型参数编码身份和动作特征。然后使用源人脸的身份参数和驱动人脸的动作参数渲染重现人脸。虽然这种方法可以获得高质量的输出,但需要付出大量努力才能获得人脸的真实3D表示。基于GANs的方法按人脸动作表示的不同,可以分为基于人脸关键点(landmarks)的方法、基于自监督学习的方法和基于动作单元(AUs)的方法。基于人脸关键点的方法面临身份泄露问题,因为人脸关键点在提供表情和姿态信息的同时还包含了人脸形状特征。基于自监督的方法同样难以区分身份和动作。基于AUs的方法对人脸形状约束较弱,难以生成高质量的重现结果。

技术实现思路

[0004]本专利技术解决的技术问题:提供一种混合多种动作表示的高保真人脸重现方法。
[0005]技术方案:为了解决上述技术问题,本专利技术采用的技术方案如下:一种混合动作表示的高保真人脸重现方法,主要包括如下步骤:步骤1:提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息;步骤2:将提取到的人脸的动作单元和源人脸的关键点信息输入到关键点转换模块,得到转换后的源人脸关键点信息;步骤3:使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域;步骤4:将步骤1中的人脸的动作单元,步骤2中转换后的源人脸关键点信息,以及步骤3中的人脸区域输入重现网络,生成目标人脸;步骤5:将步骤4中的目标人脸和步骤3中的背景区域输入到背景融合模块,生成最终结果。
[0006]作为优选,步骤1中,提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息,方法如下:步骤1.1:设驱动人脸图片为,源人脸图片为;表示图片所在的线性空间,表示图片的维度信息,分别表示图片的高度和宽度;步骤1.2:提取驱动人脸的动作单元和姿态信息,将二者拼接得到20维的向量
;表示该向量所在的线性空间,20x1表示向量的维度信息;步骤1.3:提取源人脸的106点关键点信息,并调整形状为;表示关键点所在的线性空间,212x1表示关键点的维度信息。
[0007]作为优选,步骤2中,将提取到的动作单元和源人脸的关键点信息输入到关键点转换模块,得到转换后的源人脸关键点信息,方法如下:步骤2.1:关键点转换模块包含两个编码器和一个解码器,两个编码器分别用于提取驱动人脸的动作单元和源人脸的关键点信息的特征,解码器用于预测源人脸的关键点信息的偏移量,最终转换后的源人脸关键点信息为 ;步骤2.2:所述关键点转换模块采用像素级L1损失、两个对抗损失这三种损失函数进行训练。
[0008]作为优选,其中像素级L1损失函数的具体内容为:训练时源人脸图片和驱动人脸图片取自同一身份的同一条视频,因此驱动人脸图片的关键点信息作为转换后的源人脸关键点信息的真值,表示关键点所在的线性空间,212x1表示关键点的维度信息;损失函数如下:对抗损失使用两个鉴别器TD
r
和TD来使关键点转换器准确和稳健,其中TDr用于判断转换后的源人脸关键点信息的真假,TD用于评估转换后的源人脸关键点信息和转换前的源人脸关键点信息的身份相似度,二者的损失函数定义如下:其中,表示驱动人脸的关键点信息的分布函数的期望值,表示转换后的源人脸关键点信息的分布函数的期望值,表示转换前的源人脸关键点信息和驱动人脸的关键点信息的分布函数的期望值,表示转换前的源人脸关键点信息和转换后的源人脸关键点信息的分布函数的期望值; 表示鉴别器TD
r
对驱动人脸的关键点信息的真实性的鉴别结果, 表示鉴别器TD
r
对转换后的源人脸关键点信息的真实性的鉴别结果,

表示鉴别器TD对转换前的源人脸关键点信息和驱动人脸的关键点信息间的身份相似度的鉴别结果, 表示鉴别器TD对转换前的源人脸关键点信息和转换后的源人脸关键点信息间的身份相似度的鉴别结果;最终关键点转换模块完整的损失函数为以上三者的线性组合:式中,分别表示三个损失函数的权重。
[0009]作为优选,步骤3中,使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域,方法如下:使用预训练的基于BiSeNet的人脸分割网络处理源人脸图片,得到人脸区域掩膜,分别将掩膜区域和掩膜以外区域填充0像素,获得源人脸的人脸区域和背景区域两张图片。
[0010]作为优选,步骤4中,将步骤1中生成目标人脸的方法如下:步骤4.1:将步骤2中转换过的源人脸关键点信息映射为一张三通道的图片,并与驱动人脸的动作单元和姿态信息AU∈R
20
×1拼接得到动作表示M
d
∈R
23
×
H
×
W
,R
23
×
H
×
W
表示图片所在的线性空间,23xHxW表示图片的维度信息,H和W分别表示图片的高度和宽度;M
d
与源人脸的人脸区域共同构成重现网络的输入;步骤4.2:预测时将源人脸的人脸区域作为网络的输入,并采用一个动作编码器用于提取动作表示M
d
的特征,然后将提取到的特征插入重现网络3组ResBlock的输出中,得到重现人脸;步骤4.3:训练时,重现网络采用以下3种损失函数进行训练:像素级L1损失、对抗损失和感知损失。
[0011]作为优选,像素级L1损失:训练时采用驱动人脸的人脸区域作为重现人脸的真值,损失函数如下:。
[0012]作为优选,对抗损失:采用两个鉴别器GD和GD
m
来提高生成结果的真实性,其中GD用于判断重现人脸的真假,GD
m
用于评估驱动动作M
d
和重现人脸之间的相关性,损失函数定义如下:
式中,表示源人脸的人脸区域的分布函数的期望值, 表示重现人脸的分布函数的期望值,表示驱动动作M
d
和驱动人脸的人脸区域的分布函数的期望值,表示驱动动作M
d
和重现人脸的分布函数的期望值, 表示鉴别器GD对源人脸的人脸区域的真实性的鉴别结果,表示鉴别器GD对重现人脸的真实性的鉴别结果,表示鉴别器GD
m
对驱动动作M
d
和驱动人脸的人脸区域间的相关性的鉴别结果,表示鉴别器GD
m
对驱动动作M
d
和重现人脸间的相关性的鉴别结果。
[0013]作为优选,对感知损失:用于最小化重现人脸和其真值间的语义距离本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种混合动作表示的高保真人脸重现方法,其特征在于,主要包括如下步骤:步骤1:提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息;步骤2:将提取到的人脸的动作单元和源人脸的关键点信息输入到关键点转换模块,得到转换后的源人脸关键点信息;步骤3:使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域;步骤4:将步骤1中的人脸的动作单元,步骤2中转换后的源人脸关键点信息,以及步骤3中的人脸区域输入重现网络,生成目标人脸;步骤5:将步骤4中的目标人脸和步骤3中的背景区域输入到背景融合模块,生成最终结果。2.根据权利要求1所述的混合动作表示的高保真人脸重现方法,其特征在于,步骤1中,提取驱动人脸的动作单元和姿态信息以及源人脸的关键点信息,方法如下:步骤1.1:设驱动人脸图片为,源人脸图片为;表示图片所在的线性空间,表示图片的维度信息,分别表示图片的高度和宽度;步骤1.2:提取驱动人脸的动作单元和姿态信息,将二者拼接得到20维的向量;表示该向量所在的线性空间,20x1表示向量的维度信息;步骤1.3:提取源人脸的106点关键点信息,并调整形状为;表示关键点所在的线性空间,212x1表示关键点的维度信息。3.根据权利要求1所述的混合动作表示的高保真人脸重现方法,其特征在于,步骤2中,将提取到的动作单元和源人脸的关键点信息输入到关键点转换模块,得到转换后的源人脸关键点信息,方法如下:步骤2.1:关键点转换模块包含两个编码器和一个解码器,两个编码器分别用于提取驱动人脸的动作单元和源人脸的关键点信息的特征,解码器用于预测源人脸的关键点信息的偏移量,最终转换后的源人脸关键点信息为 ;步骤2.2:所述关键点转换模块采用像素级L1损失、两个对抗损失这三种损失函数进行训练。4.根据权利要求3所述的混合动作表示的高保真人脸重现方法,其特征在于,其中像素级L1损失函数的具体内容为:训练时源人脸图片和驱动人脸图片取自同一身份的同一条视频,因此驱动人脸图片的关键点信息作为转换后的源人脸关键点信息的真值,表示关键点所在的线性空间,212x1表示关键点的维度信息;损失函数如下:对抗损失使用两个鉴别器TD
r
和TD来使关键点转换器准确和稳健,其中TDr用于判断转换后的源人脸关键点信息的真假,TD用于评估转换后的源人脸关键点信息和转换前
的源人脸关键点信息的身份相似度,二者的损失函数定义如下:其中,表示驱动人脸的关键点信息的分布函数的期望值,表示转换后的源人脸关键点信息的分布函数的期望值,表示转换前的源人脸关键点信息和驱动人脸的关键点信息的分布函数的期望值,表示转换前的源人脸关键点信息和转换后的源人脸关键点信息的分布函数的期望值;表示鉴别器TD
r
对驱动人脸的关键点信息的真实性的鉴别结果,表示鉴别器TD
r
对转换后的源人脸关键点信息的真实性的鉴别结果,表示鉴别器TD对转换前的源人脸关键点信息和驱动人脸的关键点信息间的身份相似度的鉴别结果,表示鉴别器TD对转换前的源人脸关键点信息和转换后的源人脸关键点信息间的身份相似度的鉴别结果;最终关键点转换模块完整的损失函数为以上三者的线性组合:式中,分别表示三个损失函数的权重。5.根据权利要求1所述的混合动作表示的高保真人脸重现方法,其特征在于,步骤3中,使用预训练的分割网络将源人脸图片分离为人脸区域和背景区域,方法如下:使用预训练的基于BiSeNet的人脸分割网络处理源人脸图片,得到人脸区域掩膜,分别将掩膜区域和掩膜以外区域填...

【专利技术属性】
技术研发人员:邵长乐耿嘉仪练智超韦志辉
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1