视频生成方法、生成模型训练方法、装置、介质及设备制造方法及图纸

技术编号:26344785 阅读:23 留言:0更新日期:2020-11-13 21:02
本公开涉及一种视频生成方法、生成模型训练方法、装置、介质及设备。方法包括:获取待合成的目标音频数据;提取目标音频数据的声学特征作为目标声学特征;根据目标声学特征,确定目标音频数据对应的音素后验概率,并根据音素后验概率,生成目标音频数据对应的图像序列;将目标音频数据和目标音频数据对应的图像序列进行视频合成,得到目标视频数据。由于音素后验概率为与实际说话人无关的信息,由此可以避免不同说话人发音习惯(口音)、噪声等因素对后续生成的图像序列的影响,从而可以提升生成的图像序列中头部动作和身体姿态的准确度。并且,针对任意说话人的语音数据,均可生成相应的图像序列,进而得到视频数据。

【技术实现步骤摘要】
视频生成方法、生成模型训练方法、装置、介质及设备
本公开涉及数据处理领域,具体地,涉及一种视频生成方法、生成模型训练方法、装置、介质及设备。
技术介绍
目前,语音到视频生成这一技术正在成为研究热点,例如针对一段任意说话人的语音,可以驱动一个虚拟形象做出该段语音对应的头部动作和身体姿态,以带给用户沉浸式的体验。一种实现方式是提取语音中的声学特征(例如,梅尔频率倒谱系数(MelFrequencyCepstralCoefficient,MFCC)),然后根据该声学特征,通过图像模型直接生成图像序列,最后将该图像序列和语音合成为视频。然而,由于提取的声学特征中含有与说话人相关的信息,导致以此建立的图像模型只能根据特定说话人的语音,生成图像序列。
技术实现思路
提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。第一方面,本公开提供一种视频生成方法,包括:获取待合本文档来自技高网...

【技术保护点】
1.一种视频生成方法,其特征在于,包括:/n获取待合成的目标音频数据;/n提取所述目标音频数据的声学特征作为目标声学特征;/n根据所述目标声学特征,确定所述目标音频数据对应的音素后验概率,并根据所述音素后验概率,生成所述目标音频数据对应的图像序列,其中,所述音素后验概率用于表征音频数据中的每一语音帧所属音素的分布概率;/n将所述目标音频数据和所述目标音频数据对应的图像序列进行视频合成,得到目标视频数据。/n

【技术特征摘要】
1.一种视频生成方法,其特征在于,包括:
获取待合成的目标音频数据;
提取所述目标音频数据的声学特征作为目标声学特征;
根据所述目标声学特征,确定所述目标音频数据对应的音素后验概率,并根据所述音素后验概率,生成所述目标音频数据对应的图像序列,其中,所述音素后验概率用于表征音频数据中的每一语音帧所属音素的分布概率;
将所述目标音频数据和所述目标音频数据对应的图像序列进行视频合成,得到目标视频数据。


2.根据权利要求1所述的方法,其特征在于,所述根据所述目标声学特征,确定所述目标音频数据对应的音素后验概率,并根据所述音素后验概率,生成所述目标音频数据对应的图像序列,包括:
将所述目标声学特征输入至图像生成模型中,以通过所述图像生成模型根据所述目标声学特征,确定所述目标音频数据对应的音素后验概率,并根据所述目标音频数据对应的音素后验概率,生成所述目标音频数据对应的图像序列。


3.根据权利要求2所述的方法,其特征在于,所述图像生成模型包括:依次连接的语音识别子模型、门控递归单元、以及变分自编码器的解码网络;
其中,所述语音识别子模型用于根据输入的音频数据的声学特征,确定所述音频数据的音素后验概率;
所述门控递归单元用于根据所输入的音素后验概率,确定特征向量;
所述解码网络用于根据所述特征向量,生成与所述音频数据对应的图像序列。


4.根据权利要求3所述的方法,其特征在于,所述图像生成模型还包括所述变分自编码器的编码网络;
所述图像生成模型是通过如下方式训练得到:
获取参考视频数据,其中,所述参考视频数据包括参考音频数据、参考图像序列和所述参考音频数据对应的文本数据;
通过将所述参考音频数据的声学特征作为所述语音识别子模型的输入,将所述文本数据作为所述语音识别子模型的目标输出,将所述参考图像序列作为所述编码网络的输入,将所述参考图像序列作为所述解码网络的目标输出,将所述语音识别子模型根据所述参考音频数据的声学特征确定出的、所述参考音频数据对应的音素后验概率作为所述门控递归单元的输入,将所述编码网络的输出作为所述门控递归单元的目标输出的方式进行模型训练,以得到所述图像生成模型。


5.根据权利要求4所述的方法,其特征在于,所述图像生成模型还包括判别器,其中,所述图像生成模型为包括生成器和所述判别器的生成式对抗网络,所述生成器包括所述语音识别子模型、所述门控递归单元、所述解码网络以及所述编码网络;
所述判别器用于在模型训练阶段,对所述解码网络输出的图像序列进行真假判定,其中,所得的真假判定结果用于对所述生成器的模型参数和所述判别器的模型参数进行更新。


6.一种图像生成模型的训练方法,其特征在于,所述图像生成模型包括语音识别子模型、门控递归单元以及变分自编码器,其中,所述变分自编码器包括编码网络和解码网络;
所述方法包括:
获取参考视频数据,其中,所述参考视频数据包括参考音频数据、参考图像序列和所述参考音频数据对应的文本数据;
通过将所述参考音频数据的声学特征作为所述语音识别子模型的输入,将所述文本数...

【专利技术属性】
技术研发人员:殷翔
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1