一种基于内容感知的深度肖像视频合成方法技术

技术编号:36248240 阅读:9 留言:0更新日期:2023-01-07 09:40
本发明专利技术涉及人脸图像与视频合成技术领域,公开了一种基于内容感知的深度肖像视频合成方法,通过运动估计模块对肖像区域的运动进行了充分的建模,并通过背景估计模块来提取目标参考图片的背景,从而获得充分的全内容肖像视频网络输入内容,以最大限度地提高肩部和背景等区域的确定性,全内容肖像视频网络对肖像条件和背景条件进行细化和融合,并与先前生成的帧合成视频,全内容肖像视频网络只需学习对内容进行细化和融合,而不需要修复缺失的内容,从而确保合成视频中的确定性和稳定性。从而确保合成视频中的确定性和稳定性。从而确保合成视频中的确定性和稳定性。

【技术实现步骤摘要】
一种基于内容感知的深度肖像视频合成方法


[0001]本专利技术涉及人脸图像与视频的合成
,特别是涉及一种基于内容感知的深度肖像视频合成方法。

技术介绍

[0002]人脸作为身份认证信息的特殊属性,是众多计算机领域的研究对象。除人脸检测、识别以及活性检测等方向外,人脸合成领域同样具有很高的活跃度,且伴随着近年来深度学习技术的突破性进展,这一类技术也经历着飞速的发展,在隐私保护、影视动画、娱乐商用等各个领域得到了广泛的应用。相较于人脸检测与识别,人脸合成是一个更加开放的领域。这一领域不仅涉及到如建模、形变与渲染等诸多图形学技术,还涉及到深度学习中关于图像生成的革新技术。不同的人脸合成方法虽然可能具有类似的框架与技术路线,但在具体细节以及实现方法上可能千差万别。因此,人脸合成领域的研究与探索也在为技术本身的发展开拓空间。另外,利用人脸合成技术制作的图像或视频是多媒体篡改取证领域的重点关注对象。推动人脸合成技术发展,对数字取证领域的进步也将产生积极的推动作用。人脸重演技术,能够利用源人脸的动作来操纵目标人脸,使其做出相应的面部动作,实现实时操纵或者驱动动画角色的面部表情。基于内容感知的深度肖像视频合成方法能够将驱动人物动作完整地迁移到目标人物上,合成流畅且细节丰富的视频。
[0003]人脸合成是目前深度学习中神经网络应用在人脸视频合成方面的关键问题,对话式头部视频重演旨在将整个头部运动从源身份转移到目标身份,并完全控制目标演员,在计算机视觉和机器学习研究中越来越受欢迎,并有望在电影后期制作、视觉配音和社交媒体等多种应用中得到应用。它可以分为主题不可知的方法和主题特定的方法。主题特定和主题不特定的区别在于目标演员是特定的人物还是非特定人物,也就是训练好的模型只能用于同一个人来进行视频重演和训练好的模型其他人都能用来进行视频重演的区别。受只使用目标演员的一幅或几幅图像的限制,不可知论方法通常难以合成高保真视频。相反,通常使用特定于主题的方法训练目标人物的视频。训练后,可以合成一段高质量的人物视频。
[0004]虽然对话式头部视频重演已经取得了令人印象深刻的结果,但要生成具有良好时间连贯性和泛化性的对话视频仍然是一个具有挑战性的问题。现有的大多数方法都使用参数化人脸模式或人脸标志来传递运动,然后通过神经网络将人脸标志或参数化人脸模型的合成渲染转化为真实的视频帧。由于参数化人脸模型和人脸标志只对人脸区域进行建模,因此用于合成最终图像的神经网络输入仅包含人脸区域。在合成图像中,除人脸区域外的其他区域都是通过神经网络进行修复的,具有较大的不确定性。因此,合成视频通常是不稳定的。此外,对于需要修复的区域,神经网络可能会过度适应训练集,无法合成训练集中未出现的姿势,这可能会导致严重的伪影。
[0005]现有技术公开了一种基于三维人脸重构和视频关键帧优化的合成视频生成方法,包括以下步骤:采用卷积神经网络对输入的人脸图像优化拟合三维人脸形变模型的各个参数;利用目标视频和人脸模型的参数训练语音到表情和头部姿势映射网络利用训练好的语
音到表情和头部姿势映射网络从输入的音频中获取面部表情和头部姿势参数;合成人脸并对合成人脸进行渲染生成逼真人脸视频帧;利用参数化的人脸图像和视频帧中的人脸图像训练基于生成对抗网络的渲染网络,所述渲染网络用于为每一帧的人脸图像生成背景;基于视频关键帧优化进行人脸背景渲染和视频合成。该专利在合成图像中,除人脸区域外的其他区域都是通过神经网络进行修复的,具有较大的不确定性。因此,合成视频通常是不稳定的。此外,对于需要修复的区域,神经网络可能会过度适应训练集,无法合成训练集中未出现的姿势,这可能会导致严重的伪影,导致合成视频不流畅且细节有瑕疵。

技术实现思路

[0006]本专利技术的目的是提供一种视频流畅且细节更丰富的基于内容感知的深度肖像视频合成方法。
[0007]为了实现上述目的,本专利技术提供了一种基于内容感知的深度肖像视频合成方法,包括:
[0008]S1、获取原始目标视频数据集,所述原始目标视频数据集的每个视频中的角色都不同于其他视频;
[0009]S2、对原始目标视频数据集进行预处理,将每个视频的帧分割为训练集和测试集;
[0010]S3、构建肖像视频合成模型,肖像视频合成模型包括外貌特征捕捉模块、运动估计模块、背景估计模块和全内容肖像视频网络,外貌特征捕捉模块与运动估计模块连接,运动估计模块和背景估计模块分别与全内容肖像视频网络相连接;外貌特征捕捉模块用于从给定肖像图像中提取外貌相关特征;运动估计模块用于根据提取的外貌特征预测给定肖像图像的每个部分的运动,生成肖像条件;背景估计模块用于捕捉背景信息,生成背景条件;全内容肖像视频网络用于将肖像条件和背景条件进行融合细化,并根据先前生成的帧合成视频;
[0011]S4、利用训练集对外貌特征捕捉模块、运动估计模块、背景估计模块和全内容肖像视频网络分别进行训练,利用测试集测试肖像视频合成模型的有效性,得到训练好的肖像视频合成模型;
[0012]S5、获取待合成的目标参考照片和驱动源视频,目标参考照片为给定目标演员的肖像,驱动源视频为源演员的动作视频;将目标参考照片和驱动源视频输入训练好的目标检测模型,输出给定目标演员的驱动视频,该视频模仿源演员的动作,同时保留目标演员的身份、外观和背景变化。
[0013]作为优选方案,运动估计模块生成肖像条件包括:
[0014]外貌特征捕捉模块从目标参考图片中提取外貌相关特征;
[0015]利用运动估计模块计算目标参考图片与驱动视频帧之间的运动,该运动包括脸部、肩部在内的各部分动作的映射;
[0016]运动估计模块将估计到的运动作用于外貌相关特征中,得到扭曲后的外貌相关特征,并根据扭曲后的外貌相关特征生成一张迁移动作后的图片。
[0017]作为优选方案,在步骤S4中,对于运动估计模块的训练,在训练时,目标参考图片与驱动视频帧来自于同一段视频的不同帧,以一种自我重演的方式训练。
[0018]作为优选方案,在步骤S4中,对于运动估计模块的训练,在测试时,有标准和相对
两种模式迁移动作:
[0019]在标准模式下,计算目标参考图片与驱动视频帧之间的运动,并作用到目标参考图片上,合成迁移动作后的图片;
[0020]在相对运动迁移模式下,需要从源视频中提取一张姿势与目标参考图片相似的参照图片,提取参照图片与驱动视频帧之间的运动并作用到目标参考图片上,得到迁移动作后的图片。
[0021]作为优选方案,外貌特征捕捉模块为编码器,运动估计模块包括依次连接的无监督深度学习网络和解码器。
[0022]作为优选方案,背景估计模块生成背景条件包括:
[0023]利用图像分割技术处理目标参考图片,得到覆盖人像区域的人像掩膜;
[0024]使用覆盖背景区域的反向肖像掩膜提取右侧背景图像;
[0025]使用覆盖背景区域的反向肖像掩膜提取左侧背景图像;
[0026]根据右侧背景图像与目标参考图片的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于内容感知的深度肖像视频合成方法,其特征在于,包括:S1、获取原始目标视频数据集,所述原始目标视频数据集的每个视频中的角色都不同于其他视频;S2、对原始目标视频数据集进行预处理,将每个视频的帧分割为训练集和测试集;S3、构建肖像视频合成模型,肖像视频合成模型包括外貌特征捕捉模块、运动估计模块、背景估计模块和全内容肖像视频网络,外貌特征捕捉模块与运动估计模块连接,运动估计模块和背景估计模块分别与全内容肖像视频网络相连接;外貌特征捕捉模块用于从给定肖像图像中提取外貌相关特征;运动估计模块用于根据提取的外貌特征预测给定肖像图像的每个部分的运动,生成肖像条件;背景估计模块用于捕捉背景信息,生成背景条件;全内容肖像视频网络用于将肖像条件和背景条件进行融合细化,并根据先前生成的帧合成视频;S4、利用训练集对外貌特征捕捉模块、运动估计模块、背景估计模块和全内容肖像视频网络分别进行训练,利用测试集测试肖像视频合成模型的有效性,得到训练好的肖像视频合成模型;S5、获取待合成的目标参考照片和驱动源视频,目标参考照片为给定目标演员的肖像,驱动源视频为源演员的动作视频;将目标参考照片和驱动源视频输入训练好的目标检测模型,输出给定目标演员的驱动视频,该视频模仿源演员的动作,同时保留目标演员的身份、外观和背景变化。2.根据权利要求1所述的基于内容感知的深度肖像视频合成方法,其特征在于,运动估计模块生成肖像条件包括:外貌特征捕捉模块从目标参考图片中提取外貌相关特征;利用运动估计模块计算目标参考图片与驱动视频帧之间的运动,该运动包括脸部、肩部在内的各部分动作的映射;运动估计模块将估计到的运动作用于外貌相关特征中,得到扭曲后的外貌相关特征,并根据扭曲后的外貌相关特征生成一张迁移动作后的图片。3.根据权利要求2所述的基于内容感知的深度肖像视频合成方法,其特征在于,在步骤S4中,对于运动估计模块的训练,在训练时,目标参考图片与驱动视频帧来自于同一段视频的不同帧,以一种自我重演的方式训练。4.根据权利要求3所述的基于内容感知的深度肖像视频合...

【专利技术属性】
技术研发人员:杨志景郑斯陈俊彬
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1