语音驱动视频的生成方法技术

技术编号：39593707 阅读：7 留言：0更新日期：2023-12-03 19:48

本申请提供一种语音驱动视频的生成方法，涉及计算机视觉技术领域，该方法包括：获取唇形生成模型输出的初始驱动视频，初始驱动视频为唇形生成模型基于目标驱动音频对待处理图像进行驱动生成的视频，将初始驱动视频进行分解，得到初始驱动视频对应的多个初始视频帧；针对多个初始视频帧中的每个初始视频帧，对初始视频帧中的人脸区域图像进行增强处理，得到初始视频帧对应的人脸增强图像帧；基于人脸增强图像帧和所述待处理图像，生成每个初始视频帧对应的目标视频帧，目标视频帧中包括所述人脸增强图像帧中的人脸区域图像和待处理图像中的非人脸区域图像；基于目标驱动音频和每个初始视频帧对应的目标视频帧，生成目标驱动视频

全部详细技术资料下载

【技术实现步骤摘要】
语音驱动视频的生成方法

[0001]本申请涉及计算机视觉
，尤其涉及一种语音驱动视频的生成方法
。

技术介绍

[0002]随着人工智能的发展，数字人和虚拟人得到了越来越多的应用，例如应用于新闻播报
、
人机交互
、
培训等场景中模拟真人，数字人和虚拟人的主要生成方式为通过语音驱动生成，通过语音驱动唇形，使得数字人和虚拟人的嘴型与音频同步，生成完整的视频
。
[0003]目前，在基于唇形驱动生成视频时，会对人脸进行增强处理，以使生成的视频中的人脸较为清晰，但往往生成的驱动视频中不止包括人脸部分，还包括脖子
、
肩部等部分，仅通过增强处理往往不能去除脖子等部分的阴影以提高清晰度，使得生成的驱动视频的质量不高
。
[0004]因此，如何提高生成的驱动视频的质量是亟待解决的问题
。

技术实现思路

[0005]为了解决基于现有方法生成的驱动视频的质量不高的问题，本申请提供了一种语音驱动视频的生成方法
、
装置
、
电子设备及计算机可读存储介质
。
[0006]第一方面，本申请提供了一种驱动视频的生成方法，包括：
[0007]获取唇形生成模型输出的初始驱动视频，所述初始驱动视频为所述唇形生成模型基于目标驱动音频对待处理图像进行驱动生成的视频，所述唇形生成模型是根据样本训练集进行训练得到的，所述样本训练集包括多张训练图像
、
每张训练图像对应的...

【技术保护点】

【技术特征摘要】
1.
一种语音驱动视频的生成方法，其特征在于，包括：获取唇形生成模型输出的初始驱动视频，所述初始驱动视频为所述唇形生成模型基于目标驱动音频对待处理图像进行驱动生成的视频，所述唇形生成模型是根据样本训练集进行训练得到的，所述样本训练集包括多张训练图像
、
每张训练图像对应的驱动音频以及目标生成图像；将所述初始驱动视频进行分解，得到所述初始驱动视频对应的多个初始视频帧；针对所述多个初始视频帧中的每个初始视频帧，对所述初始视频帧中的人脸区域图像进行增强处理，得到所述初始视频帧对应的人脸增强图像帧；基于所述人脸增强图像帧和所述待处理图像，生成每个初始视频帧对应的目标视频帧，所述目标视频帧中包括所述人脸增强图像帧中的人脸区域图像和所述待处理图像中的非人脸区域图像；基于所述目标驱动音频和所述每个初始视频帧对应的目标视频帧，生成目标驱动视频
。2.
根据权利要求1所述的方法，其特征在于，所述针对所述多个初始视频帧中的每个初始视频帧，对所述初始视频帧中的人脸区域图像进行增强处理，得到所述初始视频帧对应的人脸增强图像帧，包括：针对所述每个初始视频帧，将所述初始视频帧和所述初始视频帧对应的待处理图像输入人脸增强模型；基于所述待处理图像对所述初始视频帧中的人脸区域图像进行增强处理，输出所述初始视频帧对应的人脸增强图像帧
。3.
根据权利要求1所述的方法，其特征在于，所述基于所述人脸增强图像帧和所述待处理图像，生成每个初始视频帧对应的目标视频帧，包括：将所述人脸增强图像帧输入人脸解析模型，获取所述人脸增强图像帧中的人脸关键点；基于所述人脸关键点在所述人脸增强图像帧中获取第一目标区域图像，所述第一目标区域图像包括人脸区域图像；基于所述第一目标区域图像对所述待处理图像进行处理，得到所述初始视频帧对应的目标视频帧
。4.
根据权利要求3所述的方法，其特征在于，所述基于所述第一目标区域图像对所述待处理图像进行处理，得到所述初始视频帧对应的目标视频帧，包括：在所述人脸增强图像帧对应的待处理图像中确定第二目标区域图像，所述第二目标区域图像包括人脸区域图像；用所述第一目标区域图像替换所述人脸增强图像帧对应的待处理图像中的第二目标区域图像，得到所述初始视频帧对应的目标视频帧
。5.
根据权利要求1所述的方法，其特征在于，所述唇形生成模型包括：生成器；所述获取唇形生成模型输出的初始驱动视频，包括：获取待处理图像和目标驱动音频；将所述待处理图像和所述目标驱动音频输入所述生成器中，获取第一特征序列和第二特征序列，并基于所述第一特征序列和所述第二特征序列生成初始驱动视频；所述第一特
征序列用于表征所述待处理图像的面部特征，所述第二特征序列用于表征所述目标驱动音频的音频特征
。6.
根据权利要求5所述的方法，其特征在于，所述生成器包括第...

【专利技术属性】
技术研发人员：雷禹，谭可华，
申请(专利权)人：天云融创数据科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人