视频的生成方法、装置、设备、存储介质及产品制造方法及图纸

技术编号：39304090 阅读：7 留言：0更新日期：2023-11-12 15:53

本申请提供了一种视频的生成方法、装置，包括：获取针对目标对象的包括至少两张脸部图像的脸部图像序列；对每张脸部图像的口部区域进行遮盖，得到口部遮盖特征图；对每张脸部图像进行表情归一化，得到具有目标表情的脸部参考特征图；对脸部参考特征图以及口部遮盖特征图进行合成，得到脸部标准特征图序列；基于目标语音，调整脸部标准特征图序列中目标对象的口型与目标语音的发音口型相适配，得到目标脸部图像序列；对目标语音以及目标脸部图像序列进行视频合成，得到目标视频。通过本申请，能够提高目标视频中对象口型的准确性和真实性。提高目标视频中对象口型的准确性和真实性。提高目标视频中对象口型的准确性和真实性。

全部详细技术资料下载

【技术实现步骤摘要】
视频的生成方法、装置、设备、存储介质及产品

[0001]本申请涉及人工智能技术，尤其涉及一种视频的生成方法、装置、电子设备、计算机可读存储介质以及计算机程序产品。

技术介绍

[0002]人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习或深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
[0003]语音驱动口部和脸部生成技术可以让开发者快速构建一些基于数字人的应用，如虚拟主持人、虚拟客服和虚拟教师等。除了能提供更友好的人机交互方式之外，该技术在感知研究、声音辅助学习等方面具有重要应用价值，同时，能够在游戏和电影特效等娱乐化方面降低作品制作成本。
[0004]然而，相关技术中，基于机器学习模型的语音驱动说话人脸口型合成的方法，通常是在分辨率较低的大规模说话人脸音视频数据集上训练得到的，合成的视频分辨率低，即使是基于高清的人脸视频数据集进行训练，往往由于高清数据集的规模又太小，导致合成的视频的准确度低。

技术实现思路

[0005]本申请实施例提供一种视频的生成方法、装置、电子设备、计算机可读存储介质以及计算机程序产品，能够保证目标视频中对象的口型与目标语音的一致性，提高目标视频中对象口型的准确性和真实性。
[0006]本申请实施例的技术方案是这样...

【技术保护点】

【技术特征摘要】
1.一种视频的生成方法，其特征在于，所述方法包括：获取针对目标对象的包括至少两张脸部图像的脸部图像序列；对每张所述脸部图像的口部区域分别进行遮盖，得到每张所述脸部图像的口部遮盖特征图；对每张所述脸部图像分别进行表情归一化，得到每张所述脸部图像的脸部参考特征图，所述脸部参考特征图具有目标表情；对每张所述脸部图像的所述脸部参考特征图以及相应的所述口部遮盖特征图进行合成，得到对应所述脸部图像序列的脸部标准特征图序列；基于目标语音，调整所述脸部标准特征图序列中目标对象的口型与所述目标语音的发音口型相适配，得到目标脸部图像序列；对所述目标语音以及所述目标脸部图像序列进行视频合成，得到目标视频。2.如权利要求1所述的方法，其特征在于，所述对每张所述脸部图像分别进行表情归一化，得到每张所述脸部图像的脸部参考特征图，包括：对每张所述脸部图像进行脸部表情参数提取，得到每张所述脸部图像的初始表情参数；获取所述目标表情对应的模板表情参数，并结合每张所述脸部图像的初始表情参数、及所述目标表情对应的模板表情参数，对每张所述脸部图像分别进行表情归一化，得到每张所述脸部图像的脸部参考特征图。3.如权利要求2所述的方法，其特征在于，所述结合每张所述脸部图像的初始表情参数、及所述目标表情对应的模板表情参数，对每张所述脸部图像分别进行表情归一化，得到每张所述脸部图像的脸部参考特征图，包括：将每张所述脸部图像的初始表情参数替换为所述模板表情参数，得到驱动参数；基于所述驱动参数，对每张所述脸部图像中目标对象的表情进行调整，得到每张所述脸部图像的初始脸部参考特征图；将各所述初始脸部参考特征图与相应所述脸部图像进行眼部关键点对齐及嘴部关键点对齐，得到各所述脸部图像对应的脸部参考特征图。4.如权利要求3所述的方法，其特征在于，所述基于所述驱动参数，对每张所述脸部图像中目标对象的表情进行调整，得到每张所述脸部图像的初始脸部参考特征图，包括：基于所述驱动参数，生成每张所述脸部图像的光流信息，所述光流信息，用于表征所述脸部图像中每个像素点的位移数据；基于所述光流信息，对各所述脸部图像的表情分别进行调整，得到每张所述脸部图像的初始脸部参考特征图。5.如权利要求1所述的方法，其特征在于，所述对每张所述脸部图像的所述脸部参考特征图以及相应的所述口部遮盖特征图进行合成，得到对应所述脸部图像序列的脸部标准特征图序列，包括：对每张所述脸部参考特征图及相应的所述口部遮盖特征图分别进行下采样，得到各所述脸部参考图像的中间参考特征图及相应的所述口部遮盖图像的中间遮盖特征图；针对各所述中间参考特征图，基于各所述中间遮盖特征图，对所述中间参考特征图进行交叉注意力处理，得到每张脸部图像的所述脸部标准特征图；
基于各所述脸部图像的所述脸部标准特征图，构建对应所述脸部图像序列的脸部标准特征图序列。6.如权利要求5所述的方法，其特征在于，所述针对各所述中间参考特征图，基于各所述中间遮盖特征图，对所述中间参考特征图进行交叉注意力处理，得到每张脸部图像的所述脸部标准特征图，包括：获取各所述中间遮盖特征图的关键特征图，并分别对每张所述中间遮盖特征图和相应的所述关键特征图进行融合，得到每张所述脸部图像的融合特征图；其中，所述关键特征图，是对所述中间遮盖特征图进行特征空间变换得到的；对每张所述脸部图像的融合特征图进行归一化，得到每张所述脸部图像的归一化特征图；对每张所述归一化特征图和相应的所述中间参考特征图进行融合，得到每张所述脸部图像的脸部标准特征图。7.如权利要求1所述的方法，其特征在于，所述方法还包括：对所述目标语音进行特征提取，得到目标音频特征；所述基于目标语音，调整所述脸部标准特征图序列中目标对象的口型与所述目标语音的发音口型相适配，得到目标脸部图像序列，包括：对每张所述脸部标准特征图进行上采样，得到相应的脸部解码特征图；基于所述目标音频特征，对每张所述脸部解码特征图的口型分别进行调整，以使所述口型与所述目标语音的发音口型相适配，得到脸部调整特征图；将所述口部遮盖特征图与所述脸部调整特征图进行融合，得到目标脸部图像。8.如权利要求7所述的方法，其特征在于，所述基于所述目标音频特征，对每张所述脸部解码特征图的口型分别进行调整，以使所述口型与所述目标语音的发音口型相适配，得到脸部调整特征图，包括：提取所述脸部标准特征图对应的全局特征和局部特征，并对所述全局特征以及所述局部特征进行特征融合，得到脸部融合特征图；获取所述目标音频特征的发音风格，并将所述发音风格迁移至所述脸部融合特征图中，得到脸部风格特征图；对所述脸部风格特征图与所述口部遮盖特征图进行合成，得到脸部调整特征图。9.如权利要求8所述的方法，其特征在于，所述将所述发音风格迁移至所述脸部融合特征图中，得到脸部风格特征图，包括：获取得到的所述目标音频特征的仿射参数，所述仿射参数，为所述目标音频特征对应通道维度的均值和标准差；获取所述脸部融合特征图对应通道维度的第一均值和第一标准差；基于所述仿射参数的均值对所述第一均值进行对齐操作，得到脸部均值特征图，并基于所述仿射参数的标准差对所述第一标准差进行对齐操作，得到具有所...

【专利技术属性】
技术研发人员：程坤，寸晓东，张勇，王楠楠，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人