语音驱动人脸视频生成方法、系统、存储介质和电子设备技术方案

技术编号：43374864 阅读：25 留言：0更新日期：2024-11-19 17:54

本申请提供一种语音驱动人脸视频生成方法，包括：获取语音数据，提取语音数据的音频特征；将音频特征、背景图像和采样点输入至人脸生成模型，利用人脸生成模型生成每帧语音对应的人脸说话图像；将人脸说话图像拼接成视频，并叠加语音数据，得到语音驱动人脸视频生成视频。本申请无需对背景图像独立进行三维建模，同时可大大减少计算量，降低渲染的硬件成本，从而满足应用场景下对实时性、低成本的需求。本申请还提供一种语音驱动人脸视频生成系统、存储介质和电子设备，具有上述有益效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像处理领域，特别涉及一种语音驱动人脸视频生成方法、系统、存储介质和电子设备。

技术介绍

1、随着计算机视觉技术和自然语言处理技术的发展，人工智能在人脸生成领域得到了广泛引用。语音驱动人脸视频生成是一种根据给定的语音输入生成与该语音相对应的逼真人脸图像的技术。它可以不需要真人到场，使用预先训练好的特定人模型，只接受语音输入，便可生成该人的相对应的说话视频。它不仅可以提升娱乐体验和艺术创作，还可以改善人机交互、教育培训的效果，同时在虚拟主播领域有着广泛的应用。

2、得益于生成对抗网络(generative adversarial network，gan)的强大生成能力，它被应用到语音驱动说话人领域。gan网络可进行语音到人脸图像的映射学习，当训练完成后，它可以根据输入语音，端到端生成人脸图像。由于该二维方法直接根据语音输出目标图像的rgb值，只考虑了单帧图像的结果，因此对人脸的三维一致性缺少约束。

技术实现思路

1、本申请的目的是提供一种语音驱动人脸视频生成方法、系统、...

【技术保护点】

1.一种语音驱动人脸视频生成方法，其特征在于，包括：

2.根据权利要求1所述的语音驱动人脸视频生成方法，其特征在于，所述背景图像的生成过程包括：

3.根据权利要求2所述的语音驱动人脸视频生成方法，其特征在于，从所述训练数据中截取得到部分人脸图像包括：

4.根据权利要求2所述的语音驱动人脸视频生成方法，其特征在于，得到人脸遮罩和背景遮罩之后，还包括：

5.根据权利要求4所述的语音驱动人脸视频生成方法，其特征在于，对所述前景图像进行缩小得到所述渲染模型的真值之后，还包括：

6.根据权利要求5所述的语音驱动人脸视频生成方法，其特征在于...

【技术特征摘要】