基于三维人脸重构和视频关键帧优化的合成视频生成方法技术

技术编号:29705972 阅读:19 留言:0更新日期:2021-08-17 14:35
本发明专利技术公开一种基于三维人脸重构和视频关键帧优化的合成视频生成方法,包括以下步骤:采用卷积神经网络对输入的人脸图像优化拟合三维人脸形变模型的各个参数;利用目标视频和人脸模型的参数训练语音到表情和头部姿势映射网络

【技术实现步骤摘要】
基于三维人脸重构和视频关键帧优化的合成视频生成方法
本专利技术涉及深度学习中三维人脸重构以及人脸合成迁移领域,更具体地,涉及一种基于三维人脸重构和视频关键帧优化的合成视频生成方法。
技术介绍
随着我国社会水平的提高、移动智能终端的普及和移动互联网技术飞速发展,视频以及成为人们的生活中学习、娱乐以及工作中不可或缺的一部分了,相对于传统的图文表现形式,视频能够将听觉和视觉结合起来,制作门槛更低。目前合成视频的应用大多还是在娱乐方面,例如美图秀秀中的换脸拍照、iPhone手机中的AR头像制作、iSwapFaces等应用,这些应用本质上大部分都是基于深度学习的神经网络对图像中人脸检测、定位和分割,然后进行源人脸与目标人脸进行交换。这些功能需要神经网络基于大量人脸数据,并且可控性差,实现人脸各个属性的耦合比较困难。音频驱动视频合成人脸讲话视频是目前实现虚拟主播、智能人脸讲话视频合成的关键问题。其关键作用在于利用这种方法可以在只有源音频和目标人物视频的情况下,生成人脸逼真、视频帧过渡自然的人脸讲话视频。传统的人物讲话视频录制需要大量的人工和时间成本,并且一定需要目标人物参与录制。因此,利用三维人脸重构以及加入视频背景帧优化下的渲染网络生成逼真合成人脸图像,从而生成逼真的合成人脸视频,对于解决虚拟主播、人物节目录制以及网络录课等,都是一项十分具有实用意义的问题。人脸合成是目前深度学习中神经网络应用在人脸视频合成方面的关键问题,基于三维人脸重构及在视频关键帧优化下的渲染网络的方法能够将人脸模型中的表情、头部姿势、形状、纹理等特征提取出来,并从源音频中提取表情及头部姿势特征替换到目标人物的人脸模型中,经过视频关键帧的优化渲染生成出所需的逼真的合成人脸帧,实现人脸合成,近年来不少学者都投入到人脸合成领域的科研中。但是由于单纯基于神经网络的人脸生成需要大量的训练数据,网络的数据采集工作是一个很大的挑战。并且由于输入的数据质量和生成模型的本身的不稳定性,这种方法合成的图片和视频可能画质较低,并且不能进行大幅度头部姿势控制。人脸合成的方式一直是人脸视频合成领域研究的难点和热点。有半岛(北京)信息科技有限公司在其专利“生成对抗网络训练方法、图像换脸、视频换脸方法及装置”(申请号:202010592443.X)提出了一种基于生成对抗网络,利用大量数据对训练生成对抗网络的生成器和判别器,提取目标图像中人物的属性特征图,通过生成的混合特征图解码得到合成人脸。虽然这种方法也能在保持原图像的属性特征和目标图像人物的身份特征,但是这种方法获得逼真合成人脸的稳定性不高,在面对只有人物语音和视频的情况下,无法得到合成人脸讲话视频,并且该方法生成的合成人脸视频的人脸背景模糊、视频帧质量较低且不自然。
技术实现思路
本专利技术提供一种基于三维人脸重构和视频关键帧优化的合成视频生成方法,使得输出的合成人脸视频每一帧的背景过渡自然逼真。为解决上述技术问题,本专利技术的技术方案如下:一种基于三维人脸重构和视频关键帧优化的合成视频生成方法,包括以下步骤:采用卷积神经网络对输入的人脸图像优化拟合三维人脸形变模型的各个参数,实现人脸模型的参数化重建;利用目标视频和人脸模型的参数训练语音到表情和头部姿势映射网络利用训练好的语音到表情和头部姿势映射网络从输入的音频中获取面部表情和头部姿势参数,所述目标视频包括视频帧以及视频帧对应的音频,视频帧中包括人脸图像;根据获取的面部表情和头部姿势参数替换参数化的人脸图像中的参数,合成得到每一帧的人脸图像并进行渲染,生成逼真人脸视频帧;利用参数化的人脸图像和视频帧中的人脸图像训练基于生成对抗网络的渲染网络,所述渲染网络用于为每一帧的人脸图像生成背景;基于视频关键帧优化进行人脸背景渲染和视频合成,得到包含源音频面部表情和头部姿势参数的合成人脸的高质量且人像与背景清晰的合成人脸视频帧,按视频帧的顺序合成完整的合成人脸的讲话视频。优选地,所述采用卷积神经网络对输入的人脸图像优化拟合三维人脸形变模型的各个参数,实现人脸模型的参数化重建,具体包括以下步骤:识别人脸图像中的人脸并且给人脸做68个标记点,使用三维人脸形变模型来表示人脸,将人脸参数化为35709个顶点组成的三角网格模型;将二维的人脸图像I转化为三维人脸参数化模型X表示为:其中是三维人脸模型的形状参数,是纹理参数,是表情参数,是光照参数,是头部姿势参数且由相机模型的旋转参数和平移参数表示,任意一张人脸图片的形状就可以用三维人脸形状参数化模型表示为:式中,Bshape为人脸形状向量,Bexp为人脸表情向量;人脸的纹理表示为:其中Btex为人脸纹理向量,和分别表示为人脸模型的平均形状和平均纹理;人脸的光照模型表示为:其中γ是人脸模型的光照参数,ni为任意人脸模型任意顶点vi的法向量,ti为顶点vi纹理参数,该顶点vi的辐照度表示为C(ni,ti|γ),且是球谐函数的基函数,γb是球谐函数的系数;因此,三维人脸模型的重建过程即可表示为人脸模型参数的优化求解,基于卷积神经网络的三维人脸模型的训练过程可以表示为下列式子(1)(2)的优化问题:式中,为三维人脸模型系数的正则项优化函数,ωα、ωβ、ωδ分别对应人脸形状系数、表情系数、和纹理系数的权重,c∈{r,g,b}代表图片是RGB图片,Tc表示图片c的人脸纹理向量参数,var()表示方差,R(X)表示人脸包含脸颊、鼻子和前额的皮肤区域。优选地,利用目标视频和人脸模型的参数训练语音到表情和头部姿势映射网络具体包括以下步骤:将目标视频中的音频提取出来并转换为梅尔频率倒谱系数,将转换得到的梅尔频率倒谱系数输入到经过预训练好的音频高级特征提取网络中,得到高级特征Ft,再将Ft和通过卷积神经网络对输入的人脸图像优化拟合三维人脸形变模型生成的βt和Pt作为训练数据集,训练所述语音到表情和头部姿势映射网络训练后的语音到表情和头部姿势映射网络从音频中提取两个人脸估计参数,分别对应三维人脸形变模型中的表情系数β={β(1),......,β(64)}和头部姿势系数P={P(1),......,P(6)},且所述语音到表情和头部姿势映射网络的训练过程即可看成表情参数的均方误差损失和头部姿势参数的均方误差损失的优化过程,如式(3)(4)所示:其中,MSE()表示均方误差函数;Ft表示t时刻输入网络的高级特征,βt为t时刻目标视频的表情参数,Pt为t时刻目标视频的头部姿势参数。优选地,所述预训练好的音频高级特征提取网络,具体为:所述音频高级特征提取网络以AT-net网络为骨干在TheOxford-BBCLipReadingintheWildDataset上训练。优选地,所述参数化的人脸图像的获取方法具体包括以下步骤:将目标视频提取为视频帧,并将每一帧的人脸整体裁剪得到人脸图像I(1),I(2),......,I(n)本文档来自技高网
...

【技术保护点】
1.一种基于三维人脸重构和视频关键帧优化的合成视频生成方法,其特征在于,包括以下步骤:/n采用卷积神经网络对输入的人脸图像优化拟合三维人脸形变模型的各个参数,实现人脸模型的参数化重建;/n利用目标视频和人脸模型的参数训练语音到表情和头部姿势映射网络

【技术特征摘要】
1.一种基于三维人脸重构和视频关键帧优化的合成视频生成方法,其特征在于,包括以下步骤:
采用卷积神经网络对输入的人脸图像优化拟合三维人脸形变模型的各个参数,实现人脸模型的参数化重建;
利用目标视频和人脸模型的参数训练语音到表情和头部姿势映射网络利用训练好的语音到表情和头部姿势映射网络从输入的音频中获取面部表情和头部姿势参数,所述目标视频包括视频帧以及视频帧对应的音频,视频帧中包括人脸图像;
根据获取的面部表情和头部姿势参数替换参数化的人脸图像中的参数,合成得到每一帧的人脸图像并进行渲染,生成逼真人脸视频帧;
利用参数化的人脸图像和视频帧中的人脸图像训练基于生成对抗网络的渲染网络,所述渲染网络用于为每一帧的人脸图像生成背景;
基于视频关键帧优化进行人脸背景渲染和视频合成,得到包含源音频面部表情和头部姿势参数的合成人脸的高质量且人像与背景清晰的合成人脸视频帧,按视频帧的顺序合成完整的合成人脸的讲话视频。


2.根据权利要求1所述的基于三维人脸重构和视频关键帧优化的合成视频生成方法,其特征在于,所述采用卷积神经网络对输入的人脸图像优化拟合三维人脸形变模型的各个参数,实现人脸模型的参数化重建,具体包括以下步骤:
识别人脸图像中的人脸并且给人脸做68个标记点,使用三维人脸形变模型来表示人脸,将人脸参数化为35709个顶点组成的三角网格模型;
将二维的人脸图像I转化为三维人脸参数化模型X表示为:



其中是三维人脸模型的形状参数,是纹理参数,是表情参数,是光照参数,是头部姿势参数且由相机模型的旋转参数和平移参数表示,任意一张人脸图片的形状就可以用三维人脸形状参数化模型表示为:



式中,Bshape为人脸形状向量,Bexp为人脸表情向量;
人脸的纹理表示为:



其中Btex为人脸纹理向量,和分别表示为人脸模型的平均形状和平均纹理;
人脸的光照模型表示为:



其中γ是人脸模型的光照参数,ni为任意人脸模型任意顶点vi的法向量,ti为顶点vi纹理参数,该顶点vi的辐照度表示为C(ni,ti|γ),且是球谐函数的基函数,γb是球谐函数的系数;
因此,三维人脸模型的重建过程即可表示为人脸模型参数的优化求解,基于卷积神经网络的三维人脸模型的训练过程可以表示为下列式子(1)(2)的优化问题:






式中,为三维人脸模型系数的正则项优化函数,ωα、ωβ、ωδ分别对应人脸形状系数、表情系数、和纹理系数的权重,c∈{r,g,b}代表图片是RGB图片,Tc表示图片c的人脸纹理向量参数,var()表示方差,R(X)表示人脸包含脸颊、鼻子和前额的皮肤区域。


3.根据权利要求2所述的基于三维人脸重构和视频关键帧优化的合成视频生成方法,其特征在于,利用目标视频和人脸模型的参数训练语音到表情和头部姿势映射网络具体包括以下步骤:
将目标视频中的音频提取出来并转换为梅尔频率倒谱系数,将转换得到的梅尔频率倒谱系数输入到经过预训练好的音频高级特征提取网络中,得到高级特征Ft,再将Ft和通过卷积神经网络对输入的人脸图像优化拟合三维人脸形变模型生成的βt和Pt作为训练数据集,训练所述语音到表情和头部姿势映射网络训练后的语音到表情和头部姿势映射网络从音频中提取两个人脸估计参数,分别对应三维人脸形变模型中的表情系数β={β(1),……,β(64)}和头部姿势系数P={P(1),……,P(6)},且所述语音到表情和头部姿势映射网络的训练过程即可看成表情参数的均方误差损失和头部姿势参数的均方误差损失的优化过程,如式(3)(4)所示:






其中,MSE()表示均方误差函数;Ft表示t时刻输入网络的高级特征,βt为t时刻目标视频的表情参数,Pt为t时刻目标视频的头部姿势参数。


4.根据权利要求3所述的基于三维人脸重构和视频关键帧优化的合成视频生成方法,其特征在于,所述预训练好的音频高级特征提取网络,具体为:
所述音频高级特征提取网络以AT-net网络为骨干在TheOxford-BBCLipReadingintheW...

【专利技术属性】
技术研发人员:杨志景李为杰温瑞冕徐永宗李凯凌永权
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1