语音驱动视频的生成方法技术

技术编号:39593707 阅读:7 留言:0更新日期:2023-12-03 19:48
本申请提供一种语音驱动视频的生成方法,涉及计算机视觉技术领域,该方法包括:获取唇形生成模型输出的初始驱动视频,初始驱动视频为唇形生成模型基于目标驱动音频对待处理图像进行驱动生成的视频,将初始驱动视频进行分解,得到初始驱动视频对应的多个初始视频帧;针对多个初始视频帧中的每个初始视频帧,对初始视频帧中的人脸区域图像进行增强处理,得到初始视频帧对应的人脸增强图像帧;基于人脸增强图像帧和所述待处理图像,生成每个初始视频帧对应的目标视频帧,目标视频帧中包括所述人脸增强图像帧中的人脸区域图像和待处理图像中的非人脸区域图像;基于目标驱动音频和每个初始视频帧对应的目标视频帧,生成目标驱动视频

【技术实现步骤摘要】
语音驱动视频的生成方法


[0001]本申请涉及计算机视觉
,尤其涉及一种语音驱动视频的生成方法


技术介绍

[0002]随着人工智能的发展,数字人和虚拟人得到了越来越多的应用,例如应用于新闻播报

人机交互

培训等场景中模拟真人,数字人和虚拟人的主要生成方式为通过语音驱动生成,通过语音驱动唇形,使得数字人和虚拟人的嘴型与音频同步,生成完整的视频

[0003]目前,在基于唇形驱动生成视频时,会对人脸进行增强处理,以使生成的视频中的人脸较为清晰,但往往生成的驱动视频中不止包括人脸部分,还包括脖子

肩部等部分,仅通过增强处理往往不能去除脖子等部分的阴影以提高清晰度,使得生成的驱动视频的质量不高

[0004]因此,如何提高生成的驱动视频的质量是亟待解决的问题


技术实现思路

[0005]为了解决基于现有方法生成的驱动视频的质量不高的问题,本申请提供了一种语音驱动视频的生成方法

装置

电子设备及计算机可读存储介质

[0006]第一方面,本申请提供了一种驱动视频的生成方法,包括:
[0007]获取唇形生成模型输出的初始驱动视频,所述初始驱动视频为所述唇形生成模型基于目标驱动音频对待处理图像进行驱动生成的视频,所述唇形生成模型是根据样本训练集进行训练得到的,所述样本训练集包括多张训练图像

每张训练图像对应的驱动音频以及目标生成图像;
[0008]将所述初始驱动视频进行分解,得到所述初始驱动视频对应的多个初始视频帧;
[0009]针对所述多个初始视频帧中的每个初始视频帧,对所述初始视频帧中的人脸区域图像进行增强处理,得到所述初始视频帧对应的人脸增强图像帧;
[0010]基于所述人脸增强图像帧和所述待处理图像,生成每个初始视频帧对应的目标视频帧,所述目标视频帧中包括所述人脸增强图像帧中的人脸区域图像和所述待处理图像中的非人脸区域图像;
[0011]基于所述目标驱动音频和所述每个初始视频帧对应的目标视频帧,生成目标驱动视频

[0012]作为本申请实施例一种可选的实施方式,所述针对所述多个初始视频帧中的每个初始视频帧,对所述初始视频帧中的人脸区域图像进行增强处理,得到所述初始视频帧对应的人脸增强图像帧,包括:
[0013]针对所述每个初始视频帧,将所述初始视频帧和所述初始视频帧对应的待处理图像输入人脸增强模型;
[0014]基于所述待处理图像对所述初始视频帧中的人脸区域图像进行增强处理,输出所述初始视频帧对应的人脸增强图像帧

[0015]作为本申请实施例一种可选的实施方式,所述基于所述人脸增强图像帧和所述待处理图像,生成每个初始视频帧对应的目标视频帧,包括:
[0016]将所述人脸增强图像帧输入人脸解析模型,获取所述人脸增强图像帧中的人脸关键点;
[0017]基于所述人脸关键点在所述人脸增强图像帧中获取第一目标区域图像,所述第一目标区域图像包括人脸区域图像;
[0018]基于所述第一目标区域图像对所述待处理图像进行处理,得到所述初始视频帧对应的目标视频帧

[0019]作为本申请实施例一种可选的实施方式,所述基于所述第一目标区域图像对所述待处理图像进行处理,得到所述初始视频帧对应的目标视频帧,包括:
[0020]在所述人脸增强图像帧对应的待处理图像中确定第二目标区域图像,所述第二目标区域图像包括人脸区域图像;
[0021]用所述第一目标区域图像替换所述人脸增强图像帧对应的待处理图像中的第二目标区域图像,得到所述初始视频帧对应的目标视频帧

[0022]作为本申请实施例一种可选的实施方式,所述唇形生成模型包括:生成器;
[0023]所述获取唇形生成模型输出的初始驱动视频,包括:
[0024]获取待处理图像和目标驱动音频;
[0025]将所述待处理图像和所述目标驱动音频输入所述生成器中,获取第一特征序列和第二特征序列,并基于所述第一特征序列和所述第二特征序列生成初始驱动视频;所述第一特征序列用于表征所述待处理图像的面部特征,所述第二特征序列用于表征所述目标驱动音频的音频特征

[0026]作为本申请实施例一种可选的实施方式,所述生成器包括第一编码器

第二编码器

以及解码器;
[0027]所述将所述待处理图像和所述目标驱动音频输入生成器中,获取第一特征序列和第二特征序列,并基于所述第一特征序列和所述第二特征序列生成初始驱动视频,包括:
[0028]将所述待处理图像输入第一编码器,对所述待处理图像的面部特征进行识别,输出第一特征序列;
[0029]将所述目标驱动音频输入第二编码器,对所述目标驱动音频的音频特征进行提取,输出第二特征序列;
[0030]将所述第一特征序列和所述第二特征序列输入所述解码器,基于所述解码器对所述第一特征序列和所述第二特征序列量进行融合处理,输出所述初始驱动视频

[0031]作为本申请实施例一种可选的实施方式,所述唇形生成模型包括:质量判别器和唇形同步判别器;
[0032]在所述获取唇形生成模型输出的初始驱动视频之前,所述方法还包括:
[0033]将所述多张训练图像和每张训练图像对应的驱动音频输入生成器中,得到预测图像;
[0034]将所述预测图像和所述训练图像入至所述质量判别器,得到第一判别结果;
[0035]将所述训练图像对应的驱动音频和所述训练图像输入至所述唇形同步判别器,得到第二判别结果;
[0036]根据损失函数

所述第一判别结果

所述第二判别结果

所述预测图像以及所述目标生成图像,调整所述唇形生成模型的权重参数,直至所述唇形生成模型收敛,得到训练好的所述唇形生成模型

[0037]第二方面,本申请提供一种驱动视频的生成装置,包括:
[0038]驱动模块,用于获取唇形生成模型输出的初始驱动视频,所述初始驱动视频为所述唇形生成模型基于目标驱动音频对待处理图像进行驱动生成的视频,所述唇形生成模型是根据样本训练集进行训练得到的,所述样本训练集包括多张训练图像

每张训练图像对应的驱动音频以及目标生成图像;
[0039]分解模块,用于将所述初始驱动视频进行分解,得到所述初始驱动视频对应的多个初始视频帧;
[0040]增强模块,用于针对所述多个初始视频帧中的每个初始视频帧,对所述初始视频帧中的人脸区域图像进行增强处理,得到所述初始视频帧对应的人脸增强图像帧;
[0041]处理模块,用于基于所述人脸增强图像帧和所述待处理图像,生成每个初始视频帧对应的目标视频帧,所述目标视频帧本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语音驱动视频的生成方法,其特征在于,包括:获取唇形生成模型输出的初始驱动视频,所述初始驱动视频为所述唇形生成模型基于目标驱动音频对待处理图像进行驱动生成的视频,所述唇形生成模型是根据样本训练集进行训练得到的,所述样本训练集包括多张训练图像

每张训练图像对应的驱动音频以及目标生成图像;将所述初始驱动视频进行分解,得到所述初始驱动视频对应的多个初始视频帧;针对所述多个初始视频帧中的每个初始视频帧,对所述初始视频帧中的人脸区域图像进行增强处理,得到所述初始视频帧对应的人脸增强图像帧;基于所述人脸增强图像帧和所述待处理图像,生成每个初始视频帧对应的目标视频帧,所述目标视频帧中包括所述人脸增强图像帧中的人脸区域图像和所述待处理图像中的非人脸区域图像;基于所述目标驱动音频和所述每个初始视频帧对应的目标视频帧,生成目标驱动视频
。2.
根据权利要求1所述的方法,其特征在于,所述针对所述多个初始视频帧中的每个初始视频帧,对所述初始视频帧中的人脸区域图像进行增强处理,得到所述初始视频帧对应的人脸增强图像帧,包括:针对所述每个初始视频帧,将所述初始视频帧和所述初始视频帧对应的待处理图像输入人脸增强模型;基于所述待处理图像对所述初始视频帧中的人脸区域图像进行增强处理,输出所述初始视频帧对应的人脸增强图像帧
。3.
根据权利要求1所述的方法,其特征在于,所述基于所述人脸增强图像帧和所述待处理图像,生成每个初始视频帧对应的目标视频帧,包括:将所述人脸增强图像帧输入人脸解析模型,获取所述人脸增强图像帧中的人脸关键点;基于所述人脸关键点在所述人脸增强图像帧中获取第一目标区域图像,所述第一目标区域图像包括人脸区域图像;基于所述第一目标区域图像对所述待处理图像进行处理,得到所述初始视频帧对应的目标视频帧
。4.
根据权利要求3所述的方法,其特征在于,所述基于所述第一目标区域图像对所述待处理图像进行处理,得到所述初始视频帧对应的目标视频帧,包括:在所述人脸增强图像帧对应的待处理图像中确定第二目标区域图像,所述第二目标区域图像包括人脸区域图像;用所述第一目标区域图像替换所述人脸增强图像帧对应的待处理图像中的第二目标区域图像,得到所述初始视频帧对应的目标视频帧
。5.
根据权利要求1所述的方法,其特征在于,所述唇形生成模型包括:生成器;所述获取唇形生成模型输出的初始驱动视频,包括:获取待处理图像和目标驱动音频;将所述待处理图像和所述目标驱动音频输入所述生成器中,获取第一特征序列和第二特征序列,并基于所述第一特征序列和所述第二特征序列生成初始驱动视频;所述第一特
征序列用于表征所述待处理图像的面部特征,所述第二特征序列用于表征所述目标驱动音频的音频特征
。6.
根据权利要求5所述的方法,其特征在于,所述生成器包括第...

【专利技术属性】
技术研发人员:雷禹谭可华
申请(专利权)人:天云融创数据科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1