一种基于内容感知的深度肖像视频合成方法技术

技术编号：36248240 阅读：9 留言：0更新日期：2023-01-07 09:40

本发明专利技术涉及人脸图像与视频合成技术领域，公开了一种基于内容感知的深度肖像视频合成方法，通过运动估计模块对肖像区域的运动进行了充分的建模，并通过背景估计模块来提取目标参考图片的背景，从而获得充分的全内容肖像视频网络输入内容，以最大限度地提高肩部和背景等区域的确定性，全内容肖像视频网络对肖像条件和背景条件进行细化和融合，并与先前生成的帧合成视频，全内容肖像视频网络只需学习对内容进行细化和融合，而不需要修复缺失的内容，从而确保合成视频中的确定性和稳定性。从而确保合成视频中的确定性和稳定性。从而确保合成视频中的确定性和稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于内容感知的深度肖像视频合成方法

[0001]本专利技术涉及人脸图像与视频的合成
，特别是涉及一种基于内容感知的深度肖像视频合成方法。

技术介绍

[0002]人脸作为身份认证信息的特殊属性，是众多计算机领域的研究对象。除人脸检测、识别以及活性检测等方向外，人脸合成领域同样具有很高的活跃度，且伴随着近年来深度学习技术的突破性进展，这一类技术也经历着飞速的发展，在隐私保护、影视动画、娱乐商用等各个领域得到了广泛的应用。相较于人脸检测与识别，人脸合成是一个更加开放的领域。这一领域不仅涉及到如建模、形变与渲染等诸多图形学技术，还涉及到深度学习中关于图像生成的革新技术。不同的人脸合成方法虽然可能具有类似的框架与技术路线，但在具体细节以及实现方法上可能千差万别。因此，人脸合成领域的研究与探索也在为技术本身的发展开拓空间。另外，利用人脸合成技术制作的图像或视频是多媒体篡改取证领域的重点关注对象。推动人脸合成技术发展，对数字取证领域的进步也将产生积极的推动作用。人脸重演技术，能够利用源人脸的动作来操纵目标人脸，使其做出相应的面部动作，实现实时操纵或者驱动动画角色的面部表情。基于内容感知的深度肖像视频合成方法能够将驱动人物动作完整地迁移到目标人物上，合成流畅且细节丰富的视频。
[0003]人脸合成是目前深度学习中神经网络应用在人脸视频合成方面的关键问题，对话式头部视频重演旨在将整个头部运动从源身份转移到目标身份，并完全控制目标演员，在计算机视觉和机器学习研究中越来越受欢迎，并有望在电影后期制作、视觉配音和社交媒体等...

【技术保护点】

【技术特征摘要】
1.一种基于内容感知的深度肖像视频合成方法，其特征在于，包括：S1、获取原始目标视频数据集，所述原始目标视频数据集的每个视频中的角色都不同于其他视频；S2、对原始目标视频数据集进行预处理，将每个视频的帧分割为训练集和测试集；S3、构建肖像视频合成模型，肖像视频合成模型包括外貌特征捕捉模块、运动估计模块、背景估计模块和全内容肖像视频网络，外貌特征捕捉模块与运动估计模块连接，运动估计模块和背景估计模块分别与全内容肖像视频网络相连接；外貌特征捕捉模块用于从给定肖像图像中提取外貌相关特征；运动估计模块用于根据提取的外貌特征预测给定肖像图像的每个部分的运动，生成肖像条件；背景估计模块用于捕捉背景信息，生成背景条件；全内容肖像视频网络用于将肖像条件和背景条件进行融合细化，并根据先前生成的帧合成视频；S4、利用训练集对外貌特征捕捉模块、运动估计模块、背景估计模块和全内容肖像视频网络分别进行训练，利用测试集测试肖像视频合成模型的有效性，得到训练好的肖像视频合成模型；S5、获取待合成的目标参考照片和驱动源视频，目标参考照片为给定目标演员的肖像，驱动源视频为源演员的动作视频；将目标参考照片和驱动源视频输入训练好的目标检测模型，输出给定目标演员的驱动视频，该视频模仿源演员的动作，同时保留目标演员的身份、外观和背景变化。2.根据权利要求1所述的基于内容感知的深度肖像视频合成方法，其特征在于，运动估计模块生成肖像条件包括：外貌特征捕捉模块从目标参考图片中提取外貌相关特征；利用运动估计模块计算目标参考图片与驱动视频帧之间的运动，该运动包括脸部、肩部在内的各部分动作的映射；运动估计模块将估计到的运动作用于外貌相关特征中，得到扭曲后的外貌相关特征，并根据扭曲后的外貌相关特征生成一张迁移动作后的图片。3.根据权利要求2所述的基于内容感知的深度肖像视频合成方法，其特征在于，在步骤S4中，对于运动估计模块的训练，在训练时，目标参考图片与驱动视频帧来自于同一段视频的不同帧，以一种自我重演的方式训练。4.根据权利要求3所述的基于内容感知的深度肖像视频合...

【专利技术属性】
技术研发人员：杨志景，郑斯，陈俊彬，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人