视频生成方法、装置、电子设备和计算机存储介质制造方法及图纸

技术编号:23088422 阅读:18 留言:0更新日期:2020-01-11 02:19
本实施例公开了一种视频生成方法、装置、电子设备、计算机存储介质,该方法包括:从每帧人脸图像提取出人脸形状信息和头部姿势信息;根据每帧人脸图像对应的音频片段,得出人脸表情信息;根据人脸表情信息、人脸形状信息和头部姿势信息,得到每帧人脸图像的人脸关键点信息;根据人脸关键点信息,对预先获取的人脸图像进行补全处理,得到每帧生成图像;根据各帧生成图像,生成目标视频;在本公开实施例中,由于人脸关键点信息是考虑头部姿势信息的基础上得出的,因而,目标视频可以体现出头部姿势信息;而头部姿势信息是根据每帧人脸图像得出的,因此,本公开实施例可以使得目标视频符合关于头部姿势的实际需求。

【技术实现步骤摘要】
视频生成方法、装置、电子设备和计算机存储介质
本公开涉及图像处理技术,尤其涉及一种视频生成方法、装置、电子设备和计算机存储介质。
技术介绍
在相关技术中,说话人脸的生成是语音驱动人物以及视频生成任务中重要的研究方向;然而,相关的说话人脸生成方案并不能满足与头部姿势相关的实际需求。
技术实现思路
本公开实施例期望提供视频生成的技术方案。本公开实施例提供了一种视频生成方法,所述方法包括:获取多帧人脸图像和所述多帧人脸图像中每帧人脸图像对应的音频片段;从所述每帧人脸图像提取出人脸形状信息和头部姿势信息;根据所述每帧人脸图像对应的音频片段,得出人脸表情信息;根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息,得到每帧人脸图像的人脸关键点信息;根据所述每帧人脸图像的人脸关键点信息,对所述预先获取的人脸图像进行补全处理,得到每帧生成图像;根据各帧生成图像,生成目标视频。可选地,所述根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息,得到每帧人脸图像的人脸关键点信息,包括:根据所述人脸表情信息和所述人脸形状信息,得出人脸点云数据;根据所述头部姿势信息,将所述人脸点云数据投影到二维图像,得到所述每帧人脸图像的人脸关键点信息。可选地,所述根据所述每帧人脸图像对应的音频片段,得出人脸表情信息,包括:提取所述音频片段的音频特征,消除所述音频特征的音色信息;根据消除所述音色信息后的音频特征,得出所述人脸表情信息。可选地,所述消除所述音频特征的音色信息,包括:通过对所述音频特征进行归一化处理,消除所述音频特征的音色信息。可选地,所述根据各帧生成图像,生成目标视频,包括:针对每帧生成图像,根据所述预先获取的人脸图像调整除人脸关键点外的其它区域图像,得到调整后的每帧生成图像;利用调整后的各帧生成图像组成目标视频。可选地,所述方法还包括:对所述目标视频中的图像的说话相关部位的人脸关键点进行运动平滑处理,和/或,对所述目标视频中的图像进行消抖处理;其中,所述说话相关部位至少包括嘴部和下巴。可选地,所述对所述目标视频中的图像的说话相关部位的人脸关键点进行运动平滑处理,包括:在t大于或等于2,且在所述目标视频的第t帧图像的说话相关部位中心位置与所述目标视频的第t-1帧图像的说话相关部位中心位置的距离小于或等于设定距离阈值的情况下,根据所述目标视频的第t帧图像的说话相关部位的人脸关键点信息和所述目标视频的第t-1帧图像的说话相关部位的人脸关键点信息,得到所述目标视频的第t帧图像的说话相关部位的经运动平滑处理后的人脸关键点信息。可选地,所述对所述目标视频中的图像进行消抖处理,包括:在t大于或等于2的情况下,根据所述目标视频的第t-1帧图像至第t帧图像的光流、所述目标视频的经消抖处理后的第t-1帧图像、以及所述目标视频的第t帧图像和第t-1帧图像的说话相关部位中心位置的距离,对所述目标视频的第t帧图像进行消抖处理。可选地,所述获取多帧人脸图像和所述多帧人脸图像中每帧人脸图像对应的音频片段,包括:获取源视频数据,从所述源视频数据中分离出所述多帧人脸图像和包含语音的音频数据;确定每帧人脸图像对应的音频片段,所述每帧人脸图像对应的音频片段为所述音频数据的一部分。可选地,所述从所述每帧人脸图像提取出人脸形状信息和头部姿势信息;根据所述每帧人脸图像对应的音频片段,得出人脸表情信息;根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息,得到每帧人脸图像的人脸关键点信息,包括:将所述多帧人脸图像和所述每帧人脸图像对应的音频片段输入至预先训练的第一神经网络中;基于所述第一神经网络执行以下步骤:从所述每帧人脸图像提取出人脸形状信息和头部姿势信息;根据所述每帧人脸图像对应的音频片段,得出人脸表情信息;根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息,得到每帧人脸图像的人脸关键点信息。可选地,所述第一神经网络采用以下步骤训练完成:获取多帧人脸样本图像和每帧人脸样本图像对应的音频样本片段;将所述每帧人脸样本图像和所述每帧人脸样本图像对应的音频样本片段输入至未经训练的第一神经网络中,得到每帧人脸样本图像的预测人脸表情信息和预测人脸关键点信息;根据所述第一神经网络的损失,调整所述第一神经网络的网络参数;所述第一神经网络的损失包括表情损失和/或人脸关键点损失,所述表情损失用于表示所述预测人脸表情信息和人脸表情标记结果的差异,所述人脸关键点损失用于表示所述预测人脸关键点信息和人脸关键点标记结果的差异;重复执行上述步骤,直至第一神经网络的损失满足第一预定条件,得到训练完成的第一神经网络。可选地,所述根据所述每帧人脸图像的人脸关键点信息,对所述预先获取的人脸图像进行补全处理,得到每帧生成图像,包括:将所述每帧人脸图像的人脸关键点信息和预先获取的人脸图像输入至预先训练的第二神经网络中;基于所述第二神经网络执行以下步骤:根据所述每帧人脸图像的人脸关键点信息,对所述预先获取的人脸图像进行补全处理,得到每帧生成图像。可选地,所述第二神经网络采用以下步骤训练完成:向预先获取不带遮挡部分的样本人脸图像添加掩膜,获取到带遮挡部分的人脸图像;将预先获取的样本人脸关键点信息和所述带遮挡部分的人脸图像输入至未经训练的第二神经网络中;基于所述第二神经网络执行以下步骤:根据所述样本人脸关键点信息,对所述预先获取的带遮挡部分的人脸图像进行遮挡部分的补全处理,得到生成图像;对所述样本人脸图像进行鉴别,得到第一鉴别结果;对所述生成图像进行鉴别,得到第二鉴别结果;根据所述第二神经网络的损失,调整所述第二神经网络的网络参数,所述第二神经网络的损失包括对抗损失,所述对抗损失是根据所述第一鉴别结果和所述第二鉴别结果得出的;重复执行上述步骤,直至第二神经网络的损失满足第二预定条件,得到训练完成的第二神经网络。可选地,所述第二神经网络的损失还包括以下至少一种损失:像素重建损失、感知损失、伪影损失、梯度惩罚损失;所述像素重建损失用于表征样本人脸图像和生成图像的差异,所述感知损失用于表征样本人脸图像和生成图像在不同尺度的差异之和;所述伪影损失用于表征生成图像的尖峰伪影,所述梯度惩罚损失用于限制第二神经网络的更新梯度。本公开实施例还提供了一种视频生成装置,所述装置包括第一处理模块、第二处理模块、第三处理模块和生成模块;其中,第一处理模块,用于获取多帧人脸图像和所述多帧人脸图像中每帧人脸图像对应的音频片段;第二处理模块,用于从所述每帧人脸图像提取出人脸形状信息和头部姿势信息;根据所述每帧人脸图像对应的音频片段,得出人脸表情信息;根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息,得到每帧人脸图像的人脸关键点信息;根据所述每帧人脸图像的人脸关键点信息,对所述预先获取的人脸图像进行补全处理,得到每帧生成图像;生成模块,用于根本文档来自技高网...

【技术保护点】
1.一种视频生成方法,其特征在于,所述方法包括:/n获取多帧人脸图像和所述多帧人脸图像中每帧人脸图像对应的音频片段;/n从所述每帧人脸图像提取出人脸形状信息和头部姿势信息;根据所述每帧人脸图像对应的音频片段,得出人脸表情信息;根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息,得到每帧人脸图像的人脸关键点信息;/n根据所述每帧人脸图像的人脸关键点信息,对所述预先获取的人脸图像进行补全处理,得到每帧生成图像;/n根据各帧生成图像,生成目标视频。/n

【技术特征摘要】
1.一种视频生成方法,其特征在于,所述方法包括:
获取多帧人脸图像和所述多帧人脸图像中每帧人脸图像对应的音频片段;
从所述每帧人脸图像提取出人脸形状信息和头部姿势信息;根据所述每帧人脸图像对应的音频片段,得出人脸表情信息;根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息,得到每帧人脸图像的人脸关键点信息;
根据所述每帧人脸图像的人脸关键点信息,对所述预先获取的人脸图像进行补全处理,得到每帧生成图像;
根据各帧生成图像,生成目标视频。


2.根据权利要求1所述的视频生成方法,其特征在于,所述根据所述人脸表情信息、所述人脸形状信息和所述头部姿势信息,得到每帧人脸图像的人脸关键点信息,包括:
根据所述人脸表情信息和所述人脸形状信息,得出人脸点云数据;根据所述头部姿势信息,将所述人脸点云数据投影到二维图像,得到所述每帧人脸图像的人脸关键点信息。


3.根据权利要求1或2所述的视频生成方法,其特征在于,所述根据所述每帧人脸图像对应的音频片段,得出人脸表情信息,包括:
提取所述音频片段的音频特征,消除所述音频特征的音色信息;根据消除所述音色信息后的音频特征,得出所述人脸表情信息。


4.根据权利要求3所述的视频生成方法,其特征在于,所述消除所述音频特征的音色信息,包括:
通过对所述音频特征进行归一化处理,消除所述音频特征的音色信息。


5.根据权利要求1或2所述的视频生成方法,其特征在于,所述根据各帧生成图像,生成目标视频,包括:
针对每帧生成图像,根据所述预先获取的人脸图像调整除人脸关键点外的其它区域图像,得到调整后的每帧生成图像;利用调整后的各帧生成图像组成目标视频。


6.根据权利要求1或2所述的视频生成方法,其特征在于,所述方法还包括:对...

【专利技术属性】
技术研发人员:宋林森吴文岩钱晨赫然
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1