用于生成视频的方法、装置、设备和介质制造方法及图纸

技术编号:24946672 阅读:22 留言:0更新日期:2020-07-17 23:04
本公开的实施例公开了用于生成视频的方法、装置、设备和介质。该方法的一具体实施方式包括:获取目标语音音频和目标人员图像;针对目标语音音频包括的音频帧,基于该音频帧和目标人员图像,生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列;基于目标语音音频和所生成的各个图像序列,生成表征目标人员执行与目标语音音频相对应的动作的视频。该实施方式可以根据获取的语音音频和人员图像,生成表征该人员执行与该语音音频相对应的动作的视频,从而丰富了视频的生成方式,提高了视频生成的灵活性。

【技术实现步骤摘要】
用于生成视频的方法、装置、设备和介质
本公开的实施例涉及计算机
,具体涉及用于生成视频的方法、装置、设备和介质。
技术介绍
视频的流行是现在社会的一个趋势。这一现象的产生除了一些科技方面的音素(例如,智能手机的出现、4G网络的普及)之外,和人们自身也有关系。从用户的角度来说,人们的行为习惯正在改变,越来越多的用户通过视频来获取信息、记录自己的生活。现阶段,用户对视频的制作需求呈日益多样化的发展趋势。例如,用户通常将自己拍摄或制作的视频分享给好友,发布在视频平台。多数情况下,用户希望视频中呈现的图像、声音、动作等更具美感,并且,拍摄和制作的流程简单、操作方便。
技术实现思路
本公开提出了用于生成视频的方法、装置、设备和介质。第一方面,本公开的实施例提供了一种用于生成视频的方法,该方法包括:获取目标语音音频和目标人员图像;针对目标语音音频包括的音频帧,基于该音频帧和目标人员图像,生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列;基于目标语音音频和所生成的各个图像序列,生成表征目标人员执行与目标语音音频相对应的动作的视频。在一些实施例中,基于该音频帧和目标人员图像,生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列,包括:基于该音频帧指示的音素信息,生成与该音频帧相对应的融合变形信息;基于与该音频帧相对应的融合变形信息和目标人员图像,生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列。在一些实施例中,基于该音频帧和目标人员图像,生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列,包括:将该音频帧和目标人员图像输入至预先训练的图像生成模型,生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列,其中,图像生成模型用于生成表征所输入的人员图像指示的人员执行与所输入的音频帧相对应的动作的图像序列。在一些实施例中,将该音频帧和目标人员图像输入至预先训练的图像生成模型,生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列,包括:将该音频帧输入至预先训练的图像生成模型中的第一网络模型,得到该音频帧指示的音素信息,其中,第一网络模型用于确定所输入的音频帧指示的音素信息;将该音频帧指示的音素信息和目标人员图像输入至图像生成模型中的第二网络模型,生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列,其中,第二网络模型用于表征音素信息、人员图像与图像序列之间的对应关系。在一些实施例中,第一网络模型通过如下步骤训练得到:获取训练样本集合,其中,训练样本集合中的训练样本包括音频帧和音频帧指示的音素信息;采用机器学习算法,将训练样本集合中的音频帧作为输入数据,将音频帧指示的音素信息作为期望输出数据,训练得到第一网络模型。在一些实施例中,图像生成模型通过如下步骤训练得到:获取预设数量个目标视频,其中,目标视频是对人员进行语音音频和影像录制而获得的视频;从预设数量个目标视频中提取语音音频和与所提取的语音音频相匹配的图像序列;获取用于训练得到图像生成模型的初始模型;采用训练得到的第一网络模型的模型参数,初始化初始模型中,与所训练得到的第一网络模型的模型参数相对应的模型参数,得到中间模型;采用机器学习算法,将所提取的语音音频中的音频帧作为中间模型的输入数据,将与该音频帧相匹配的图像序列作为中间模型的期望输出数据,训练得到图像生成模型。在一些实施例中,将所提取的语音音频中的音频帧作为中间模型的输入数据,将与该音频帧相匹配的图像序列作为中间模型的期望输出数据,训练得到图像生成模型,包括:响应于不满足预设训练结束条件,将所提取的语音音频中的音频帧输入至中间模型,得到中间模型的实际输出数据,以及基于实际输出数据和期望输出数据,调整中间模型的模型参数,其中,实际输出数据表征中间模型实际得到的图像序列,期望输出数据表征所提取的、与该音频帧相匹配的图像序列;响应于满足预设训练结束条件,将满足预设训练结束条件的中间模型作为图像生成模型。在一些实施例中,预设训练结束条件包括以下至少一项:实际输出数据表征的图像序列与该音频帧相匹配;实际输出数据表征的图像序列中的两相邻的图像的相关度大于或等于预设相关度阈值,其中,相关度用于表征两目标人员图像在视频中相邻的概率。在一些实施例中,获取目标语音音频和目标人员图像,包括:获取目标语音音频和目标人员的多张目标人员图像;以及,针对目标语音音频包括的音频帧,基于该音频帧和目标人员图像,生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列,包括:对多张目标人员图像进行特征提取,得到图像特征信息;针对目标语音音频包括的音频帧,基于该音频帧和图像特征信息,生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列。在一些实施例中,目标人员图像包括目标人员的面部图像;与该音频帧相对应的动作表征:目标人员发出该音频帧指示的语音;与目标语音音频相对应的动作表征:目标人员发出目标语音音频指示的语音。第二方面,本公开的实施例提供了一种用于生成视频的装置,该装置包括:获取单元,被配置成获取目标语音音频和目标人员图像;第一生成单元,被配置成针对目标语音音频包括的音频帧,基于该音频帧和目标人员图像,生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列;第二生成单元,被配置成基于目标语音音频和所生成的各个图像序列,生成表征目标人员执行与目标语音音频相对应的动作的视频。第三方面,本公开的实施例提供了一种用于生成视频的电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得该一个或多个处理器实现如上述用于生成视频的方法中任一实施例的方法。第四方面,本公开的实施例提供了一种用于生成视频的计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述用于生成视频的方法中任一实施例的方法。本公开的实施例提供的用于生成视频的方法、装置、设备和介质,通过获取目标语音音频和目标人员图像,然后,针对目标语音音频包括的音频帧,基于该音频帧和目标人员图像,生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列,最后,基于目标语音音频和所生成的各个图像序列,生成表征目标人员执行与目标语音音频相对应的动作的视频,可以根据获取的语音音频和人员图像,生成表征该人员执行与该语音音频相对应的动作的视频,从而丰富了视频的生成方式,提高了视频生成的灵活性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:图1是本公开的一个实施例可以应用于其中的示例性系统架构图;图2是根据本公开的用于生成视频的方法的一个实施例的流程图;图3是根据本公开的用于生成视频的方法的一个应用场景的示意图;图4是根据本公开的用于生成视频的方本文档来自技高网...

【技术保护点】
1.一种用于生成视频的方法,包括:/n获取目标语音音频和目标人员图像;/n针对所述目标语音音频包括的音频帧,基于该音频帧和所述目标人员图像,生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列;/n基于所述目标语音音频和所生成的各个图像序列,生成表征所述目标人员执行与所述目标语音音频相对应的动作的视频。/n

【技术特征摘要】
1.一种用于生成视频的方法,包括:
获取目标语音音频和目标人员图像;
针对所述目标语音音频包括的音频帧,基于该音频帧和所述目标人员图像,生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列;
基于所述目标语音音频和所生成的各个图像序列,生成表征所述目标人员执行与所述目标语音音频相对应的动作的视频。


2.根据权利要求1所述的方法,其中,所述基于该音频帧和所述目标人员图像,生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列,包括:
基于该音频帧指示的音素信息,生成与该音频帧相对应的融合变形信息;
基于与该音频帧相对应的融合变形信息和所述目标人员图像,生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列。


3.根据权利要求1所述的方法,其中,所述基于该音频帧和所述目标人员图像,生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列,包括:
将该音频帧和所述目标人员图像输入至预先训练的图像生成模型,生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列,其中,所述图像生成模型用于生成表征所输入的人员图像指示的人员执行与所输入的音频帧相对应的动作的图像序列。


4.根据权利要求3所述的方法,其中,所述将该音频帧和所述目标人员图像输入至预先训练的图像生成模型,生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列,包括:
将该音频帧输入至预先训练的图像生成模型中的第一网络模型,得到该音频帧指示的音素信息,其中,所述第一网络模型用于确定所输入的音频帧指示的音素信息;
将该音频帧指示的音素信息和所述目标人员图像输入至所述图像生成模型中的第二网络模型,生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列,其中,所述第二网络模型用于表征音素信息、人员图像与图像序列之间的对应关系。


5.根据权利要求4所述的方法,其中,所述第一网络模型通过如下步骤训练得到:
获取训练样本集合,其中,所述训练样本集合中的训练样本包括音频帧和音频帧指示的音素信息;
采用机器学习算法,将所述训练样本集合中的音频帧作为输入数据,将音频帧指示的音素信息作为期望输出数据,训练得到第一网络模型。


6.根据权利要求5所述的方法,其中,所述图像生成模型通过如下步骤训练得到:
获取预设数量个目标视频,其中,目标视频是对人员进行语音音频和影像录制而获得的视频;
从所述预设数量个目标视频中提取语音音频和与所提取的语音音频相匹配的图像序列;
获取用于训练得到图像生成模型的初始模型;
采用训练得到的第一网络模型的模型参数,初始化所述初始模型中,与所训练得到的第一网络模型的模型参数相对应的模型参数,得到中间模型;
采用机器学习算法,将所提取的语音...

【专利技术属性】
技术研发人员:殷翔
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1