视频生成方法、装置、计算机设备、存储介质和产品制造方法及图纸

技术编号:39304410 阅读:9 留言:0更新日期:2023-11-12 15:53
本申请实施例公开了一种视频生成方法、装置、计算机设备、存储介质和产品,通过获取训练样本对;对视频样本的每帧视频帧中的发言对象进行头部姿态检测,得到每帧视频帧中发言对象的头部姿态;通过图像生成模型计算发言对象的参考头部姿态和头部姿态之间的像素映射关系;基于音频样本通过图像生成模型预测在参考头部姿态下唇部区域的参考像素值;根据像素映射关系和参考像素值,得到在该头部姿态下的预测唇部图像;根据预测唇部图像与视频样本对图像生成模型进行训练,得到训练后图像生成模型,可以提高训练后图像生成模型的预测准确性。可以提高训练后图像生成模型的预测准确性。可以提高训练后图像生成模型的预测准确性。

【技术实现步骤摘要】
视频生成方法、装置、计算机设备、存储介质和产品


[0001]本申请涉及通信
,具体涉及一种视频生成方法、装置、计算机设备、存储介质和产品,其中,存储介质为计算机可读存储介质,产品为计算机程序产品。

技术介绍

[0002]随着神经网络技术的发展,可以基于语音合成说话人对应的视频,即语音驱动说话人视频生成方法,具体可以是利用3D人脸模型参数,根据输入语音重建人脸画面,由于,视频样本中运动是十分复杂,与音频相关(例如,嘴唇运动)的运动,和与音频无关(例如,头部运动)的运动紧密耦合在一起,如果通过模型根据语音预测人脸,模型的学习难度大,难以学习到语音与复杂的运动之间的关系,因此,模型需要较大的样本数量,且学习到的模型生成出的嘴形和输入的音频通常不太匹配,导致预测不准确。

技术实现思路

[0003]本申请实施例提供一种视频生成方法、装置、计算机设备、存储介质和产品,可以提高训练后图像生成模型的预测准确性。
[0004]本申请实施例提供的一种视频生成方法,包括:
[0005]获取训练样本对,所述训练样本对包括音频样本和视频样本,所述视频样本包含所述音频样本对应的发言对象;
[0006]对所述视频样本的每帧视频帧中的发言对象进行头部姿态检测,得到每帧视频帧中所述发言对象的头部姿态;
[0007]通过图像生成模型计算所述发言对象的参考头部姿态和所述头部姿态之间的像素映射关系;
[0008]基于所述音频样本,通过图像生成模型预测在所述参考头部姿态下所述发言对象的唇部区域的参考像素值;
[0009]根据所述像素映射关系和所述参考像素值,得到在所述头部姿态下的预测唇部图像,所述预测唇部图像与所述音频样本匹配;
[0010]根据所述预测唇部图像与所述视频样本对所述图像生成模型进行训练,得到训练后图像生成模型,以通过所述训练后图像生成模型生成合成视频。
[0011]相应的,本申请实施例还提供的一种视频生成装置,包括:
[0012]获取单元,用于获取训练样本对,所述训练样本对包括音频样本和视频样本,所述视频样本包含所述音频样本对应的发言对象;
[0013]检测单元,用于对所述视频样本的每帧视频帧中的发言对象进行头部姿态检测,得到每帧视频帧中所述发言对象的头部姿态;
[0014]计算单元,用于通过图像生成模型计算所述发言对象的参考头部姿态和所述头部姿态之间的像素映射关系;
[0015]预测单元,用于基于所述音频样本,通过图像生成模型预测在所述参考头部姿态
下所述发言对象的唇部区域的参考像素值;
[0016]映射单元,用于根据所述像素映射关系和所述参考像素值进行映射,得到在所述头部姿态下的预测唇部图像,所述预测唇部图像与所述音频样本匹配;
[0017]训练单元,用于根据所述预测唇部图像与所述视频样本对所述图像生成模型进行训练,得到训练后图像生成模型,以通过所述训练后图像生成模型生成合成视频。
[0018]在一实施例中,所述计算单元,包括:
[0019]选取子单元,用于从所述视频样本包含的多帧视频帧中选取参考视频帧;
[0020]信息获取子单元,用于分别根据所述参考视频帧和所述视频样本的每帧视频中的发言对象进行三维脸部重建,以得到所述参考头部姿态和所述每帧视频帧对应的头部姿态之间的姿态转换关系,以及所述发言对象的脸部深度图像;;
[0021]姿态确定子单元,用于根据所述姿态转换关系以及所述脸部深度图像,确定所述参考视频帧和所述视频样本中每帧视频之间的像素匹配关系;
[0022]关系计算子单元,用于根据所述姿态转换关系和所述像素匹配关系计算得到所述参考头部姿态和所述头部姿态之间的像素映射关系。
[0023]在一实施例中,所述视频样本包含多帧视频帧,每帧视频帧对应一张预测唇部图像,所述训练单元,包括:
[0024]融合子单元,用于将所述视频样本中的视频帧与对应的预测唇部图像进行图像融合,得到预测脸部图像;
[0025]模型训练子单元,用于基于所述预测脸部图像和所述视频帧对所述图像生成模型进行训练,得到训练后图像生成模型。
[0026]在一实施例中,所述融合子单元,包括:
[0027]叠加模块,用于将所述预测唇部图像与所述视频帧进行叠加处理,得到叠加后脸部图像;
[0028]掩码模块,用于从所述视频帧中获取唇部图像,并对所述唇部图像进行掩码处理,得到初始掩码后唇部图像;
[0029]映射模块,用于基于所述像素映射关系将所述初始掩码后唇部图像映射至所述头部姿态下,得到掩码后唇部图像;
[0030]图像预测模块,用于基于所述掩码后唇部图像和所述叠加后脸部图像,通过所述图像生成模型预测所述叠加后脸部图像与所述预测唇部图像对应的视频帧的残差图像;
[0031]图像融合模块,用于将所述残差图像和所述叠加后脸部图像进行融合,得到所述预测脸部图像。
[0032]在一实施例中,所述预测单元,包括:
[0033]提取子单元,用于对所述音频样本进行音频特征提取,得到所述音频样本的音频特征信息;
[0034]像素值预测子单元,用于根据所述音频特征信息,通过所述图像生成模型预测在所述参考头部姿态下,所述发言对象的唇部区域的参考像素值。
[0035]在一实施例中,所述视频生成装置还包括:
[0036]音频获取单元,用于获取待合成嘴型匹配的视频对应的音频;
[0037]特征提取单元,用于对所述音频进行音频特征提取,得到所述音频的音频特征信
息;
[0038]信号预测单元,用于根据所述音频特征信息预测所述发言对象,在所述参考头部姿态下的唇部区域中每个像素的预测像素值;
[0039]选择单元,用于从所述视频样本中选择目标视频帧,所述目标视频帧中所述发言对象处于目标头部姿态;
[0040]像素值映射单元,用于根据所述参考头部姿态与目标头部姿态之间的像素映射关系,将所述像素值映射至所述目标头部姿态下,得到所述目标头部姿态下所述发言对象对应的目标唇部图像。
[0041]在一实施例中,所述唇部区域像素点对应一个坐标位置,每个坐标位置对应有像素值,所述映射单元,包括:
[0042]坐标映射子单元,用于根据所述像素映射关系对所述参考头部姿态下,所述发言对象的唇部区域中的参考坐标位置进行映射,得到所述发言对象在所述头部姿态下的唇部区域,所述唇部区域包括与所述参考坐标位置对应的当前坐标位置;
[0043]像素值映射子单元,用于将所述参考坐标位置对应的参考像素值作为与所述当前坐标位置对应的像素值;
[0044]图像生成子单元,用于根据每个当前坐标位置对应的像素值生成与所述音频样本匹配的预测唇部图像。
[0045]相应的,本申请实施例还提供的一种计算机设备,包括存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行本申请实施例提供的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频生成方法,其特征在于,包括:获取训练样本对,所述训练样本对包括音频样本和视频样本,所述视频样本包含所述音频样本对应的发言对象;对所述视频样本的每帧视频帧中的发言对象进行头部姿态检测,得到每帧视频帧中所述发言对象的头部姿态;通过图像生成模型计算所述发言对象的参考头部姿态和所述头部姿态之间的像素映射关系;基于所述音频样本,通过图像生成模型预测所述发言对象在所述参考头部姿态下唇部区域的参考像素值;基于所述像素映射关系和所述参考像素值,得到所述发言对象在所述头部姿态下的预测唇部图像,所述预测唇部图像与所述音频样本匹配;根据所述预测唇部图像与所述视频样本对所述图像生成模型进行训练,得到训练后图像生成模型,以通过所述训练后图像生成模型生成合成视频。2.根据权利要求1所述的方法,其特征在于,所述通过图像生成模型计算所述发言对象的参考头部姿态和所述头部姿态之间的像素映射关系,包括:从所述视频样本包含的多帧视频帧中选取参考视频帧;分别根据所述参考视频帧和所述视频样本的每帧视频帧中的发言对象进行三维脸部重建,以得到所述参考头部姿态和所述每帧视频帧对应的头部姿态之间的姿态转换关系,以及所述发言对象的脸部深度图像;根据所述姿态转换关系以及所述脸部深度图像,确定所述参考视频帧和所述视频样本每帧视频帧之间的像素匹配关系;根据所述姿态转换关系和所述像素匹配关系计算得到所述参考头部姿态和所述头部姿态之间的像素映射关系。3.根据权利要求2所述的方法,其特征在于,所述视频样本包含多帧视频帧,每帧视频帧对应一张预测唇部图像,所述根据所述预测唇部图像与所述视频样本对所述图像生成模型进行训练,得到训练后图像生成模型,包括:将所述视频样本中的视频帧与对应的预测唇部图像进行图像融合,得到预测脸部图像;基于所述预测脸部图像和所述视频帧对所述图像生成模型进行训练,得到训练后图像生成模型。4.根据权利要求3所述的方法,其特征在于,所述将所述视频样本中的视频帧与对应的预测唇部图像进行图像融合,得到预测脸部图像,包括:将所述预测唇部图像与所述视频帧进行叠加处理,得到叠加后脸部图像;从所述视频帧中获取唇部图像,并对所述唇部图像进行掩码处理,得到初始掩码后唇部图像;基于所述像素映射关系将所述初始掩码后唇部图像映射至所述头部姿态下,得到掩码后唇部图像;基于所述掩码后唇部图像和所述叠加后脸部图像,通过所述图像生成模型预测所述叠加后脸部图像与所述预测唇部图像对应的视频帧的残差图像;
将所述残差图像和所述叠加后脸部图像进行融合,得到所述预测脸部图像。5.根据权利要求1所述的方法,其特征在于,所述基于所述音频样本,通过图像生成模型预测在所述参考头部姿态下,所述发言对象的唇部区域的参考像素值,包括:对所述音频样本进行音频特征提取,得到所述音频样本的音频特征信息;根据所述音频特征信息,通过所述图像生成模型预测在所述参考头部姿态下,所述发言对象的唇部区域的参考像素值。6.根据权利要求1所述的方法,其特征在于,所述根据所述预测唇部图像与所述视频样本对所述图像生成模型进行训练,得到训练后图像生成模型之后,所述方法还包括:获取待合成嘴型匹配的视频对应的音频;对所述音频进行音频特征提取,得到所述音频的音频特征信息;根据所述音频特征信息预测所述发言对象,在所述参考头部姿态下的唇部区域中每个像素的预测像素值;从所述视频样本中选择目标视频帧,所述目标视频帧中所述发言对象处于目标头部姿态;根据所述参考头部姿态与目标头部姿态之间的像素映射关系,将所述像素值映射至所述目标头部姿态下,得到所述目标头部姿态下所述发言对象对应的目标唇部图像。7.根据权利要求1

6任一项所述的方法,其特征在于,所述唇部区域由多个像素点组成,每个像素点在空间中对应一...

【专利技术属性】
技术研发人员:齐晓娟吴秀哲单瀛伍洋胡鹏飞
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1