视频的生成方法、装置、设备、存储介质及产品制造方法及图纸

技术编号:39304090 阅读:7 留言:0更新日期:2023-11-12 15:53
本申请提供了一种视频的生成方法、装置,包括:获取针对目标对象的包括至少两张脸部图像的脸部图像序列;对每张脸部图像的口部区域进行遮盖,得到口部遮盖特征图;对每张脸部图像进行表情归一化,得到具有目标表情的脸部参考特征图;对脸部参考特征图以及口部遮盖特征图进行合成,得到脸部标准特征图序列;基于目标语音,调整脸部标准特征图序列中目标对象的口型与目标语音的发音口型相适配,得到目标脸部图像序列;对目标语音以及目标脸部图像序列进行视频合成,得到目标视频。通过本申请,能够提高目标视频中对象口型的准确性和真实性。提高目标视频中对象口型的准确性和真实性。提高目标视频中对象口型的准确性和真实性。

【技术实现步骤摘要】
视频的生成方法、装置、设备、存储介质及产品


[0001]本申请涉及人工智能技术,尤其涉及一种视频的生成方法、装置、电子设备、计算机可读存储介质以及计算机程序产品。

技术介绍

[0002]人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习或深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
[0003]语音驱动口部和脸部生成技术可以让开发者快速构建一些基于数字人的应用,如虚拟主持人、虚拟客服和虚拟教师等。除了能提供更友好的人机交互方式之外,该技术在感知研究、声音辅助学习等方面具有重要应用价值,同时,能够在游戏和电影特效等娱乐化方面降低作品制作成本。
[0004]然而,相关技术中,基于机器学习模型的语音驱动说话人脸口型合成的方法,通常是在分辨率较低的大规模说话人脸音视频数据集上训练得到的,合成的视频分辨率低,即使是基于高清的人脸视频数据集进行训练,往往由于高清数据集的规模又太小,导致合成的视频的准确度低。

技术实现思路

[0005]本申请实施例提供一种视频的生成方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,能够保证目标视频中对象的口型与目标语音的一致性,提高目标视频中对象口型的准确性和真实性。
[0006]本申请实施例的技术方案是这样实现的:
[0007]本申请实施例提供一种视频的生成方法,包括:
[0008]获取针对目标对象的包括至少两张脸部图像的脸部图像序列;
[0009]对每张所述脸部图像的口部区域分别进行遮盖,得到每张所述脸部图像的口部遮盖特征图;
[0010]对每张所述脸部图像分别进行表情归一化,得到每张所述脸部图像的脸部参考特征图,所述脸部参考特征图具有目标表情;
[0011]对每张所述脸部图像的所述脸部参考特征图以及相应的所述口部遮盖特征图进行合成,得到对应所述脸部图像序列的脸部标准特征图序列;
[0012]基于目标语音,调整所述脸部标准特征图序列中目标对象的口型与所述目标语音的发音口型相适配,得到目标脸部图像序列;
[0013]对所述目标语音以及所述目标脸部图像序列进行视频合成,得到目标视频。
[0014]本申请实施例提供一种视频的生成装置,包括:
[0015]获取模块,用于获取针对目标对象的包括至少两张脸部图像的脸部图像序列;
[0016]图像遮盖模块,用于对每张所述脸部图像的口部区域分别进行遮盖,得到每张所述脸部图像的口部遮盖特征图;
[0017]图像归一化模块,用于对每张所述脸部图像分别进行表情归一化,得到每张所述脸部图像的脸部参考特征图,所述脸部参考特征图具有目标表情;
[0018]图像合成模块,用于对每张所述脸部图像的所述脸部参考特征图以及相应的所述口部遮盖特征图进行合成,得到对应所述脸部图像序列的脸部标准特征图序列;
[0019]口型合成模块,用于基于目标语音,调整所述脸部标准图序列中目标对象的口型与所述目标语音的发音口型相适配,得到目标脸部图像序列;
[0020]视频合成模块,用于对所述目标语音以及所述目标脸部图像序列进行视频合成,得到目标视频。
[0021]本申请实施例提供一种电子设备,包括:
[0022]存储器,用于存储可执行指令;
[0023]处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的视频的生成方法。
[0024]本申请实施例提供一种计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的视频的生成方法。
[0025]本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例提供的视频的生成方法。
[0026]本申请实施例具有以下有益效果:
[0027]应用本申请实施例,对脸部图像的表情进行归一化,得到具有目标表情的脸部参考特征图,如此,能够保证提取的口型特征的准确性;然后,对脸部图像的口部进行遮盖,得到口部遮盖特征图,并对脸部参考特征图和口部遮盖特征图进行合并,得到脸部标准特征图,如此,既能保持脸部图像中除口部区域外其他部位的特征与脸部图像的一致性,也能保证口型的准确性;然后,通过调整脸部标准特征图中的口型与目标语音的发音口型相适配,得到具有准确口型的目标脸部图像序列,最后,对目标脸部图像序列与目标语音进行视频合成,得到目标视频,如此,能够保证目标视频中对象的口型与目标语音的一致性,提高目标视频中对象口型的准确性和真实性。
附图说明
[0028]图1是本申请实施例提供的视频的生成系统100的架构示意图;
[0029]图2是本申请实施例提供的实施视频的生成方法的电子设备500的结构示意图;
[0030]图3是本申请实施例提供的视频的生成方法的流程示意图;
[0031]图4是本申请实施例提供的图像处理模型的模型结构图;
[0032]图5是本申请实施例提供的图像归一化操作处理流程图;
[0033]图6是本申请实施例提供的图像中表情归一化的操作处理流程图;
[0034]图7是本申请实施例提供的初始脸部参考特征图的获取方式流程图;
[0035]图8是本申请实施例提供的图像合成过程方法流程图;
[0036]图9是本申请实施例提供的图像合成方式流程图;
[0037]图10是本申请实施例提供的图像合成层的层次结构示意图;
[0038]图11是本申请实施例提供的基于交叉注意力机制的脸部标准特征图的获取方式流程图;
[0039]图12是本申请实施例提供的交叉注意力层的注意力子层的结构图;
[0040]图13是本申请实施例提供的音频提取层的层次结构示意图;
[0041]图14是本申请实施例提供的口型合成方式流程图;
[0042]图15是本申请实施例提供的口型合成层的层次结构图;
[0043]图16是本申请实施例提供的口型合成层的调整层结构示意图;
[0044]图17是本申请实施例提供的口型调整过程示意图;
[0045]图18是本申请实施例提供的发音风格迁移过程示意图;
[0046]图19是本申请实施例提供的目标脸部图像的增强处理流程图;
[0047]图20是本申请实施例提供的针对目标脸部图像的后处理过程示意图;
[0048]图21是本申请实施例提供的图像处理模型的训练过程方法流程图;
[0049]图22是本申请实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频的生成方法,其特征在于,所述方法包括:获取针对目标对象的包括至少两张脸部图像的脸部图像序列;对每张所述脸部图像的口部区域分别进行遮盖,得到每张所述脸部图像的口部遮盖特征图;对每张所述脸部图像分别进行表情归一化,得到每张所述脸部图像的脸部参考特征图,所述脸部参考特征图具有目标表情;对每张所述脸部图像的所述脸部参考特征图以及相应的所述口部遮盖特征图进行合成,得到对应所述脸部图像序列的脸部标准特征图序列;基于目标语音,调整所述脸部标准特征图序列中目标对象的口型与所述目标语音的发音口型相适配,得到目标脸部图像序列;对所述目标语音以及所述目标脸部图像序列进行视频合成,得到目标视频。2.如权利要求1所述的方法,其特征在于,所述对每张所述脸部图像分别进行表情归一化,得到每张所述脸部图像的脸部参考特征图,包括:对每张所述脸部图像进行脸部表情参数提取,得到每张所述脸部图像的初始表情参数;获取所述目标表情对应的模板表情参数,并结合每张所述脸部图像的初始表情参数、及所述目标表情对应的模板表情参数,对每张所述脸部图像分别进行表情归一化,得到每张所述脸部图像的脸部参考特征图。3.如权利要求2所述的方法,其特征在于,所述结合每张所述脸部图像的初始表情参数、及所述目标表情对应的模板表情参数,对每张所述脸部图像分别进行表情归一化,得到每张所述脸部图像的脸部参考特征图,包括:将每张所述脸部图像的初始表情参数替换为所述模板表情参数,得到驱动参数;基于所述驱动参数,对每张所述脸部图像中目标对象的表情进行调整,得到每张所述脸部图像的初始脸部参考特征图;将各所述初始脸部参考特征图与相应所述脸部图像进行眼部关键点对齐及嘴部关键点对齐,得到各所述脸部图像对应的脸部参考特征图。4.如权利要求3所述的方法,其特征在于,所述基于所述驱动参数,对每张所述脸部图像中目标对象的表情进行调整,得到每张所述脸部图像的初始脸部参考特征图,包括:基于所述驱动参数,生成每张所述脸部图像的光流信息,所述光流信息,用于表征所述脸部图像中每个像素点的位移数据;基于所述光流信息,对各所述脸部图像的表情分别进行调整,得到每张所述脸部图像的初始脸部参考特征图。5.如权利要求1所述的方法,其特征在于,所述对每张所述脸部图像的所述脸部参考特征图以及相应的所述口部遮盖特征图进行合成,得到对应所述脸部图像序列的脸部标准特征图序列,包括:对每张所述脸部参考特征图及相应的所述口部遮盖特征图分别进行下采样,得到各所述脸部参考图像的中间参考特征图及相应的所述口部遮盖图像的中间遮盖特征图;针对各所述中间参考特征图,基于各所述中间遮盖特征图,对所述中间参考特征图进行交叉注意力处理,得到每张脸部图像的所述脸部标准特征图;
基于各所述脸部图像的所述脸部标准特征图,构建对应所述脸部图像序列的脸部标准特征图序列。6.如权利要求5所述的方法,其特征在于,所述针对各所述中间参考特征图,基于各所述中间遮盖特征图,对所述中间参考特征图进行交叉注意力处理,得到每张脸部图像的所述脸部标准特征图,包括:获取各所述中间遮盖特征图的关键特征图,并分别对每张所述中间遮盖特征图和相应的所述关键特征图进行融合,得到每张所述脸部图像的融合特征图;其中,所述关键特征图,是对所述中间遮盖特征图进行特征空间变换得到的;对每张所述脸部图像的融合特征图进行归一化,得到每张所述脸部图像的归一化特征图;对每张所述归一化特征图和相应的所述中间参考特征图进行融合,得到每张所述脸部图像的脸部标准特征图。7.如权利要求1所述的方法,其特征在于,所述方法还包括:对所述目标语音进行特征提取,得到目标音频特征;所述基于目标语音,调整所述脸部标准特征图序列中目标对象的口型与所述目标语音的发音口型相适配,得到目标脸部图像序列,包括:对每张所述脸部标准特征图进行上采样,得到相应的脸部解码特征图;基于所述目标音频特征,对每张所述脸部解码特征图的口型分别进行调整,以使所述口型与所述目标语音的发音口型相适配,得到脸部调整特征图;将所述口部遮盖特征图与所述脸部调整特征图进行融合,得到目标脸部图像。8.如权利要求7所述的方法,其特征在于,所述基于所述目标音频特征,对每张所述脸部解码特征图的口型分别进行调整,以使所述口型与所述目标语音的发音口型相适配,得到脸部调整特征图,包括:提取所述脸部标准特征图对应的全局特征和局部特征,并对所述全局特征以及所述局部特征进行特征融合,得到脸部融合特征图;获取所述目标音频特征的发音风格,并将所述发音风格迁移至所述脸部融合特征图中,得到脸部风格特征图;对所述脸部风格特征图与所述口部遮盖特征图进行合成,得到脸部调整特征图。9.如权利要求8所述的方法,其特征在于,所述将所述发音风格迁移至所述脸部融合特征图中,得到脸部风格特征图,包括:获取得到的所述目标音频特征的仿射参数,所述仿射参数,为所述目标音频特征对应通道维度的均值和标准差;获取所述脸部融合特征图对应通道维度的第一均值和第一标准差;基于所述仿射参数的均值对所述第一均值进行对齐操作,得到脸部均值特征图,并基于所述仿射参数的标准差对所述第一标准差进行对齐操作,得到具有所...

【专利技术属性】
技术研发人员:程坤寸晓东张勇王楠楠
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1