用于生成视频的方法、装置、设备和介质制造方法及图纸

技术编号：24946672 阅读：22 留言：0更新日期：2020-07-17 23:04

本公开的实施例公开了用于生成视频的方法、装置、设备和介质。该方法的一具体实施方式包括：获取目标语音音频和目标人员图像；针对目标语音音频包括的音频帧，基于该音频帧和目标人员图像，生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列；基于目标语音音频和所生成的各个图像序列，生成表征目标人员执行与目标语音音频相对应的动作的视频。该实施方式可以根据获取的语音音频和人员图像，生成表征该人员执行与该语音音频相对应的动作的视频，从而丰富了视频的生成方式，提高了视频生成的灵活性。

全部详细技术资料下载

【技术实现步骤摘要】
用于生成视频的方法、装置、设备和介质
本公开的实施例涉及计算机
，具体涉及用于生成视频的方法、装置、设备和介质。
技术介绍
视频的流行是现在社会的一个趋势。这一现象的产生除了一些科技方面的音素(例如，智能手机的出现、4G网络的普及)之外，和人们自身也有关系。从用户的角度来说，人们的行为习惯正在改变，越来越多的用户通过视频来获取信息、记录自己的生活。现阶段，用户对视频的制作需求呈日益多样化的发展趋势。例如，用户通常将自己拍摄或制作的视频分享给好友，发布在视频平台。多数情况下，用户希望视频中呈现的图像、声音、动作等更具美感，并且，拍摄和制作的流程简单、操作方便。
技术实现思路
本公开提出了用于生成视频的方法、装置、设备和介质。第一方面，本公开的实施例提供了一种用于生成视频的方法，该方法包括：获取目标语音音频和目标人员图像；针对目标语音音频包括的音频帧，基于该音频帧和目标人员图像，生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列；基于目标语音音频和所生成的各个图像序列，生成表征目标人员执行与目标语音音频相对应的动作的视频。在一些实施例中，基于该音频帧和目标人员图像，生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列，包括：基于该音频帧指示的音素信息，生成与该音频帧相对应的融合变形信息；基于与该音频帧相对应的融合变形信息和目标人员图像，生成表征目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列。在一些实施例中，基于...

【技术保护点】
1.一种用于生成视频的方法，包括：/n获取目标语音音频和目标人员图像；/n针对所述目标语音音频包括的音频帧，基于该音频帧和所述目标人员图像，生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列；/n基于所述目标语音音频和所生成的各个图像序列，生成表征所述目标人员执行与所述目标语音音频相对应的动作的视频。/n

【技术特征摘要】
1.一种用于生成视频的方法，包括：
获取目标语音音频和目标人员图像；
针对所述目标语音音频包括的音频帧，基于该音频帧和所述目标人员图像，生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列；
基于所述目标语音音频和所生成的各个图像序列，生成表征所述目标人员执行与所述目标语音音频相对应的动作的视频。

2.根据权利要求1所述的方法，其中，所述基于该音频帧和所述目标人员图像，生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列，包括：
基于该音频帧指示的音素信息，生成与该音频帧相对应的融合变形信息；
基于与该音频帧相对应的融合变形信息和所述目标人员图像，生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列。

3.根据权利要求1所述的方法，其中，所述基于该音频帧和所述目标人员图像，生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列，包括：
将该音频帧和所述目标人员图像输入至预先训练的图像生成模型，生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列，其中，所述图像生成模型用于生成表征所输入的人员图像指示的人员执行与所输入的音频帧相对应的动作的图像序列。

4.根据权利要求3所述的方法，其中，所述将该音频帧和所述目标人员图像输入至预先训练的图像生成模型，生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列，包括：
将该音频帧输入至预先训练的图像生成模型中的第一网络模型，得到该音频帧指示的音素信息，其中，所述第一网络模型用于确定所输入的音频帧指示的音素信息；
将该音频帧指示的音素信息和所述目标人员图像输入至所述图像生成模型中的第二网络模型，生成表征所述目标人员图像指示的目标人员执行与该音频帧相对应的动作的图像序列，其中，所述第二网络模型用于表征音素信息、人员图像与图像序列之间的对应关系。

5.根据权利要求4所述的方法，其中，所述第一网络模型通过如下步骤训练得到：
获取训练样本集合，其中，所述训练样本集合中的训练样本包括音频帧和音频帧指示的音素信息；
采用机器学习算法，将所述训练样本集合中的音频帧作为输入数据，将音频帧指示的音素信息作为期望输出数据，训练得到第一网络模型。

6.根据权利要求5所述的方法，其中，所述图像生成模型通过如下步骤训练得到：
获取预设数量个目标视频，其中，目标视频是对人员进行语音音频和影像录制而获得的视频；
从所述预设数量个目标视频中提取语音音频和与所提取的语音音频相匹配的图像序列；
获取用于训练得到图像生成模型的初始模型；
采用训练得到的第一网络模型的模型参数，初始化所述初始模型中，与所训练得到的第一网络模型的模型参数相对应的模型参数，得到中间模型；
采用机器学习算法，将所提取的语音...

【专利技术属性】
技术研发人员：殷翔，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人