视频生成方法、装置、计算机设备、存储介质和产品制造方法及图纸

技术编号：39304410 阅读：9 留言：0更新日期：2023-11-12 15:53

本申请实施例公开了一种视频生成方法、装置、计算机设备、存储介质和产品，通过获取训练样本对；对视频样本的每帧视频帧中的发言对象进行头部姿态检测，得到每帧视频帧中发言对象的头部姿态；通过图像生成模型计算发言对象的参考头部姿态和头部姿态之间的像素映射关系；基于音频样本通过图像生成模型预测在参考头部姿态下唇部区域的参考像素值；根据像素映射关系和参考像素值，得到在该头部姿态下的预测唇部图像；根据预测唇部图像与视频样本对图像生成模型进行训练，得到训练后图像生成模型，可以提高训练后图像生成模型的预测准确性。可以提高训练后图像生成模型的预测准确性。可以提高训练后图像生成模型的预测准确性。

全部详细技术资料下载

【技术实现步骤摘要】
视频生成方法、装置、计算机设备、存储介质和产品

[0001]本申请涉及通信
，具体涉及一种视频生成方法、装置、计算机设备、存储介质和产品，其中，存储介质为计算机可读存储介质，产品为计算机程序产品。

技术介绍

[0002]随着神经网络技术的发展，可以基于语音合成说话人对应的视频，即语音驱动说话人视频生成方法，具体可以是利用3D人脸模型参数，根据输入语音重建人脸画面，由于，视频样本中运动是十分复杂，与音频相关(例如，嘴唇运动)的运动，和与音频无关(例如，头部运动)的运动紧密耦合在一起，如果通过模型根据语音预测人脸，模型的学习难度大，难以学习到语音与复杂的运动之间的关系，因此，模型需要较大的样本数量，且学习到的模型生成出的嘴形和输入的音频通常不太匹配，导致预测不准确。

技术实现思路

[0003]本申请实施例提供一种视频生成方法、装置、计算机设备、存储介质和产品，可以提高训练后图像生成模型的预测准确性。
[0004]本申请实施例提供的一种视频生成方法，包括：
[0005]获取训练样本对，所述训练样本对包括音频样本和视频样本，所述视频样本包含所述音频样本对应的发言对象；
[0006]对所述视频样本的每帧视频帧中的发言对象进行头部姿态检测，得到每帧视频帧中所述发言对象的头部姿态；
[0007]通过图像生成模型计算所述发言对象的参考头部姿态和所述头部姿态之间的像素映射关系；
[0008]基于所述音频样本，通过图像生成模型预测在所述参考头部姿态下所述发言对象的唇部区域的参...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法，其特征在于，包括：获取训练样本对，所述训练样本对包括音频样本和视频样本，所述视频样本包含所述音频样本对应的发言对象；对所述视频样本的每帧视频帧中的发言对象进行头部姿态检测，得到每帧视频帧中所述发言对象的头部姿态；通过图像生成模型计算所述发言对象的参考头部姿态和所述头部姿态之间的像素映射关系；基于所述音频样本，通过图像生成模型预测所述发言对象在所述参考头部姿态下唇部区域的参考像素值；基于所述像素映射关系和所述参考像素值，得到所述发言对象在所述头部姿态下的预测唇部图像，所述预测唇部图像与所述音频样本匹配；根据所述预测唇部图像与所述视频样本对所述图像生成模型进行训练，得到训练后图像生成模型，以通过所述训练后图像生成模型生成合成视频。2.根据权利要求1所述的方法，其特征在于，所述通过图像生成模型计算所述发言对象的参考头部姿态和所述头部姿态之间的像素映射关系，包括：从所述视频样本包含的多帧视频帧中选取参考视频帧；分别根据所述参考视频帧和所述视频样本的每帧视频帧中的发言对象进行三维脸部重建，以得到所述参考头部姿态和所述每帧视频帧对应的头部姿态之间的姿态转换关系，以及所述发言对象的脸部深度图像；根据所述姿态转换关系以及所述脸部深度图像，确定所述参考视频帧和所述视频样本每帧视频帧之间的像素匹配关系；根据所述姿态转换关系和所述像素匹配关系计算得到所述参考头部姿态和所述头部姿态之间的像素映射关系。3.根据权利要求2所述的方法，其特征在于，所述视频样本包含多帧视频帧，每帧视频帧对应一张预测唇部图像，所述根据所述预测唇部图像与所述视频样本对所述图像生成模型进行训练，得到训练后图像生成模型，包括：将所述视频样本中的视频帧与对应的预测唇部图像进行图像融合，得到预测脸部图像；基于所述预测脸部图像和所述视频帧对所述图像生成模型进行训练，得到训练后图像生成模型。4.根据权利要求3所述的方法，其特征在于，所述将所述视频样本中的视频帧与对应的预测唇部图像进行图像融合，得到预测脸部图像，包括：将所述预测唇部图像与所述视频帧进行叠加处理，得到叠加后脸部图像；从所述视频帧中获取唇部图像，并对所述唇部图像进行掩码处理，得到初始掩码后唇部图像；基于所述像素映射关系将所述初始掩码后唇部图像映射至所述头部姿态下，得到掩码后唇部图像；基于所述掩码后唇部图像和所述叠加后脸部图像，通过所述图像生成模型预测所述叠加后脸部图像与所述预测唇部图像对应的视频帧的残差图像；
将所述残差图像和所述叠加后脸部图像进行融合，得到所述预测脸部图像。5.根据权利要求1所述的方法，其特征在于，所述基于所述音频样本，通过图像生成模型预测在所述参考头部姿态下，所述发言对象的唇部区域的参考像素值，包括：对所述音频样本进行音频特征提取，得到所述音频样本的音频特征信息；根据所述音频特征信息，通过所述图像生成模型预测在所述参考头部姿态下，所述发言对象的唇部区域的参考像素值。6.根据权利要求1所述的方法，其特征在于，所述根据所述预测唇部图像与所述视频样本对所述图像生成模型进行训练，得到训练后图像生成模型之后，所述方法还包括：获取待合成嘴型匹配的视频对应的音频；对所述音频进行音频特征提取，得到所述音频的音频特征信息；根据所述音频特征信息预测所述发言对象，在所述参考头部姿态下的唇部区域中每个像素的预测像素值；从所述视频样本中选择目标视频帧，所述目标视频帧中所述发言对象处于目标头部姿态；根据所述参考头部姿态与目标头部姿态之间的像素映射关系，将所述像素值映射至所述目标头部姿态下，得到所述目标头部姿态下所述发言对象对应的目标唇部图像。7.根据权利要求1
‑
6任一项所述的方法，其特征在于，所述唇部区域由多个像素点组成，每个像素点在空间中对应一...

【专利技术属性】
技术研发人员：齐晓娟，吴秀哲，单瀛，伍洋，胡鹏飞，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人