一种视频生成方法、装置、服务器及存储介质制造方法及图纸

技术编号:31794324 阅读:33 留言:0更新日期:2022-01-08 10:53
本申请实施例公开了一种视频生成方法、装置、服务器及存储介质,其中方法包括:获取人声音频数据,并获取目标对象的人脸图像;根据所述人声音频数据生成模拟人脸表情参数,并根据所述人脸图像生成所述目标对象的三维人脸参数;根据所述模拟人脸表情参数和所述三维人脸参数生成所述目标对象的初始动态人脸视频;根据所述人声音频数据对所述初始动态人脸视频中的人脸唇形进行修正,得到目标动态人脸视频;所述目标动态人脸视频中的人脸唇形与所述人声音频数据中的人声内容相对应。可以产生具有逼真视觉与听觉效果的动态人脸视频。有逼真视觉与听觉效果的动态人脸视频。有逼真视觉与听觉效果的动态人脸视频。

【技术实现步骤摘要】
一种视频生成方法、装置、服务器及存储介质


[0001]本申请涉及计算机视觉
,尤其涉及一种视频生成方法、装置、服务器及存储介质。

技术介绍

[0002]随着计算机技术的快速发展,计算机视觉在日常的生活、工作、学习中得到了越来越多的应用。例如,目前在网络上也存在大量的合成视频,这种合成视频可以是基于一段语音和人脸图像而生成的人脸表情视频。但是,目前在通过语音以及人脸图像来合成人脸表情视频时,通常只关注于人脸的嘴部运动,而人脸的整体表情与语音内容的同步效果较差,而只有嘴部运动的人脸是比较僵硬的,这就导致所合成的人脸表情视频的视频效果较差。因此,如何合成一个较逼真的人脸表情视频成为了当前计算机视觉技术的研究热点问题。

技术实现思路

[0003]本申请实施例提供了一种视频生成方法、装置、服务器及存储介质,可以使动态人脸视频在表情和唇形两个维度达到较优效果,产生具有逼真视觉与听觉效果的动态人脸视频。
[0004]本申请实施例第一方面公开了一种视频生成方法,所述方法包括:
[0005]获取人声音频数据,并获取目标对象的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法,其特征在于,所述方法包括:获取人声音频数据,并获取目标对象的人脸图像;根据所述人声音频数据生成模拟人脸表情参数,并根据所述人脸图像生成所述目标对象的三维人脸参数;根据所述模拟人脸表情参数和所述三维人脸参数生成所述目标对象的初始动态人脸视频;根据所述人声音频数据对所述初始动态人脸视频中的人脸唇形进行修正,得到目标动态人脸视频;所述目标动态人脸视频中的人脸唇形与所述人声音频数据中的人声内容相对应。2.根据权利要求1所述的方法,其特征在于,所述根据所述人声音频数据生成模拟人脸表情参数,包括:将所述人声音频数据输入表情参数提取模型,基于所述表情参数提取模型对所述人声音频数据进行特征转换,得到所述人声音频数据的语音特征参数;基于所述表情参数提取模型对所述语音特征参数进行特征迁移,得到所述人声音频数据的目标音频特征;根据所述目标音频特征进行表情参数映射,得到所述模拟人脸表情参数。3.根据权利要求1所述的方法,其特征在于,所述根据所述人脸图像生成所述目标对象的三维人脸参数,包括:将所述人脸图像输入三维人脸构建模型,以使所述三维人脸构建模型提取所述人脸图像中所述目标对象的人脸关键点,并使用所述人脸关键点对所述目标对象进行人脸重构,得到所述目标对象的三维人脸参数。4.根据权利要求1所述的方法,其特征在于,所述三维人脸参数包含所述目标对象的初始人脸表情参数和人脸形态参数;所述人声音频数据具有多帧音频数据,一帧音频数据对应一组所述模拟人脸表情参数;所述根据所述模拟人脸表情参数和所述三维人脸参数生成所述目标对象的初始动态人脸视频,包括:将所述三维人脸参数中的所述初始人脸表情参数分别替换为每帧音频数据对应的所述模拟人脸表情参数,得到针对所述目标对象的所述每帧音频数据分别对应的目标人脸参数;根据所述每帧音频数据分别对应的目标人脸参数,生成所述每帧音频数据分别对应的初始人脸图像;根据所述每帧音频数据分别对应的初始人脸图像,生成所述目标对象的初始动态人脸视频。5.根据权利要求4所述的方法,其特征在于,所述根据所述每帧音频数据分别对应的初始人脸图像,生成所述目标对象的初始动态人脸视频,包括:对所述每帧音频数据分别对应的初始人脸图像进行图像渲染,得到所述每帧音频数据分别对应的渲染人脸图像;根据所述每帧音频数据分别对应的渲染人脸图像,生成所述目标对象的初始动态人脸视频。
6.根据权利要求4所述的方法,其特征在于,所述根据所述人声音频数据对所述初始动态人脸视频中的人脸唇形进行修正,得到目标动态人脸视频,包括:将所述人声音频数据和所述初始动态人脸视频输入唇形修正模型;基于所述唇形修正模型提取所述每帧音频数据分别对应的音频数据特征;根据所述每帧音频数据分别对应的音频数据特征,对所述初始动态人脸视频中所述每帧音频数据分别对应的初始人脸图像中的唇形进行修正,得到所述每帧音频数据分别对应的目标人脸图像;根据所述每帧音频数据分别对应的目标人脸图像生成进行人脸唇形修正后的所述目标动态人脸视频。7.根据权利要求6所述的方法,其特征在于,所述唇形修正模型是对唇形生成对抗模型进行训练得到,所述唇形生成对抗模型包括唇形生成网络、唇形判别网络及视频质量判别网络;所述方法还包括:获取第一训练样本对;所述第一训练样本对包含样本音频数据和样本视频数据,所述样本音频数据中的一帧音频数据与所述样本视频数据中的一帧视频数据相对应;将所述第一训练样本对输入所述唇形生成网络,得到预测动态人脸视频;将所述预测动态人脸视频和所述样本音频数据输入所述唇形判别网络,得到针对所述预测动态人脸视频的唇形判别结果;将所述预测动态人脸视频和所述样本视频数据输入所述视频质量判别网络,得到针对所述预测动态人脸视频的质量判别结果;根据所述预测动态人脸视频、所述样本视频数据、所述唇形判别结果以及质量判别结果,修正所述唇形生成网络的网络参数,得到目标唇形生成网络;将所述目标唇形生成网络确定为所述唇形修正模型。8.根据权利要求7所述的方法,其特征在于,所述第一样本训练对包含多组数据帧,一组数据帧包含相对应的所述样本音频数据中的一帧音频数据与所述样本视频数据中的一帧视频数据;所述将所述第一训练样本对输入所述唇形生成网络,得到预测动态人脸视频,包括:基于所述唇形生成网络,分别提取所述样本音频数据中每帧音频数据的样本音频特征,并分别提取所述样本视频数据中每帧视频数据的样本视频特征;分别对所述每组数据帧所包含的样本音频数据的样本音频特征以及样本视频数据的样本视频特征进行特征融合,得到所述每组数据帧分别对应的融合样本特征;对所述每组数据帧分别对应的融合样本特征进行解码处理,得到所述每组数据帧分别对应的预测人脸图像;根据所述每组数据帧分别对应的预测人脸图像生成所述预测动态人脸视频。9.根据权利要求1所述的方法,其特征在于,所述获取人声音频数据之后,所述方法还...

【专利技术属性】
技术研发人员:杨跃董治雷兆恒梅立锋
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1