用于合成语音的照片级真实感视频的系统和方法技术方案

技术编号：37853934 阅读：28 留言：0更新日期：2023-06-14 22:46

一种用于根据文本获得照片级真实感视频的系统和方法。所述方法包括：提供文本和说话者的图像；根据文本合成语音音频；由声学特征提取器从语音音频中提取声学特征；以及通过视频生成神经网络根据声学特征和图像生成照片级真实感视频。通过以下步骤对视频生成神经网络进行预训练：提供训练视频和训练图像；由声学特征提取器从训练视频的训练音频中提取训练声学特征；通过视频生成神经网络根据训练图像和训练声学特征生成视频帧；以及使用生成对抗网络(GAN)将生成的视频帧与地面真值视频帧进行比较，地面真值视频帧对应于训练视频帧。地面真值视频帧对应于训练视频帧。地面真值视频帧对应于训练视频帧。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于合成语音的照片级真实感视频的系统和方法
[0001]交叉引用
[0002]在本公开的描述中引用和讨论了一些参考文献，其可能包括专利、专利申请和各种出版物。提供此类参考文献的引用和/或讨论仅用于阐明本公开的描述，并不承认任何此类参考文献相对于本公开是已有的。在本说明书中引用的或讨论的所有参考文献通过引用整体并入本文，并且与每篇参考文献通过引用单独并入的程度相同。

[0003]本公开总体上涉及数字人类领域，更具体地，涉及用于根据文本生成人的语音的照片级真实感视频的系统和方法。

技术介绍

[0004]本文提供的背景描述是为了概括地呈现本公开的上下文。在本背景部分描述的范围内，目前专利技术人的工作、以及在提交申请时可能不符合已有技术的描述方面，既不明确也不隐含地承认为相对于本公开是已有的。
[0005]已有的面部动画方法已经成功地应用于电影工业和计算机生成图像(Computer
‑
Generated Imagery，CGI)的视觉效果(Visual Effect，VFX)。在这种情况下，...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于根据文本获得说话者的照片级真实感视频的方法，所述方法包括：通过计算设备提供用于生成所述照片级真实感视频的所述文本、以及所述说话者的图像；根据所述文本合成语音音频；通过声学特征提取器从所述语音音频中提取声学特征，其中，所述声学特征与所述语音音频的讲话者无关；以及通过视频生成神经网络根据所述声学特征和所述说话者的图像来生成所述照片级真实感视频，其中，通过以下步骤对所述视频生成神经网络进行预训练：提供训练说话者的训练视频和所述训练说话者的训练图像，其中，所述训练视频包括多个训练视频帧和对应的训练音频；通过所述声学特征提取器从所述训练音频中提取训练声学特征；通过所述视频生成神经网络根据所述训练图像和所述训练声学特征来生成多个视频帧；以及使用生成对抗网络GAN将生成的视频帧与地面真值视频帧进行比较，其中，所述地面真值视频帧对应于所述训练视频帧。2.根据权利要求1所述的方法，其中，通过以下步骤提供每一个地面真值视频帧：将对应的一个训练视频帧中的所述训练说话者的轮廓分离为头部和上躯干部；旋转所述头部以与从所述训练视频帧中选择的参考帧中的头部姿态一致；移动所述头部和所述上躯干部以与所述参考帧中的头部的位置和上躯干部的位置一致；以及沿着所述地面真值视频帧中的头部和上躯干部之间的界面混合像素。3.根据权利要求1所述的方法，其中，使用GAN将生成的视频帧与所述地面真值视频帧进行比较的步骤包括：将每一个生成的视频帧与对应的一个地面真值视频帧进行比较，以确定该生成的视频帧的质量；以及将所述生成的视频帧与所述地面真值视频帧进行比较，以确定所述生成的视频帧的顺序变化的质量。4.根据权利要求1所述的方法，其中，所述视频生成神经网络包括批标准化层、leaky relu层和去卷积层。5.根据权利要求1所述的方法，其中，在对所述视频生成神经网络进行预训练之前，通过以下步骤对所述声学特征提取器进行预训练：提供训练音频波、对应于所述训练音频波的训练转录本、以及所述训练音频波中的训练音素时间戳；将所述训练音频波变换为Mel频率倒谱系数MFCC；对所述MFCC执行卷积神经网络CNN和长短期记忆LSTM以获得训练音频波向量；对所述训练音频波向量执行softmax分析以获得预测的音素时间戳；对所述训练音频波向量执行连接时序分类CTC解码以获得预测的转录本；以及将所述预测的音素时间戳和所述预测的转录本分别与所述训练音素时间戳和所述训
练转录本进行比较。6.根据权利要求5所述的方法，其中，通过对所述训练转录本和所述训练音频波执行基于隐马尔可夫模型HMM的强制对齐来获得所述训练音素时间戳。7.根据权利要求6所述的方法，其中，训练脚本包括汉字脚本和与所述汉字脚本的发音对应的拼音脚本。8.根据权利要求1所述的方法，其中，由多讲话者语音合成器执行根据所述文本来合成所述语音音频的步骤。9.根据权利要求1所述的方法，还包括：在通过所述视频生成神经网络生成所述照片级真实感视频之后，提供头部运动模式；将所述照片级真实感视频的每一帧中的说话者的轮廓分离为头部和上躯干部；旋转每一帧中的所述头部以与所述头部运动模式一致；移动每一帧中的所述头部和所述上躯干部，以与所述头部运动模式中的头部的位置和上躯干部的位置一致；以及沿着每一帧中的所述头部和所述上躯干部之间的界面混合像素。10.根据权利要求1所述的方法，还包括：在通过所述视频生成神经网络生成所述照片级真实感视频之后，提供具有闭眼的闭眼帧；对所述照片级真实感视频的目标帧中的面部标志进行检测，其中，所述目标帧与在所述目标帧之前的和之后的多个帧具有睁眼；将所述闭眼帧旋转、缩放以及平移到所述目标帧上；调整所述闭眼帧和所述目标帧之间的颜色平衡；混合眼睛区域特征以在所述目标帧的顶部形成所述闭眼帧；估计所述目标帧和相邻帧之间的光流，其中，所述相邻帧在所述目标帧之后且在所述照片级真实感视频的预定数量个帧中；以及基于所述光流在所述目标帧和所述相邻帧之间插值帧。11.一种用于根据文本生成说话者的照片级真实感视频的系统，其中，所述系统包括计算设备，所述计算设备包括处理器和存储有计算机可执行代码的存储设备，所述计算机可执行代码包括声学特征提取器和视频生成神经网络，所述计算机可执行代码，在所述处理器处执行时，被配置为：提供用于生成所述照片级真实感视频的所述文本、以及所述说话者的图像；根据所述文本合成语音音频；通过所述声学特征提取器从所述语音音频中提取声学特征，其中，所述声学特性与所述语音音频的讲话者无关；以及通过所述视频生成神经网络根据所述声学特征和所述说话者的图像生成所述照片级真实感视频，其中，通过以下步骤对所述视频生成神经网络进行预训练：提供训练说话者的训练视频和所述训练说话者的训练图像，其中，所述训练视频包括多个训练视频帧和对应的训练音频；
通过所述声学特征提取器从所述训练音频中提取训练声学特征；通过所述视频生成神经网络根据所述训练图像和所述训练声学特征生成多个视频帧；以及使用生成对抗网络GAN将生成的视频帧与地面真值视频帧进...

【专利技术属性】
技术研发人员：潘超，刘文博，易磊，
申请(专利权)人：京东金融美国公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人