利用对抗网络的高保真度语音合成制造技术

技术编号：33520949 阅读：14 留言：0更新日期：2022-05-19 01:29

方法、系统和装置，包括在计算机存储介质上编码的计算机程序，用于使用生成神经网络来生成输出音频示例。这些方法中的一种方法包括：获得训练调节文本输入；使用前馈生成神经网络来处理包括所述训练调节文本输入的训练生成输入，以生成训练音频输出；使用多个判别器中的每个判别器来处理所述训练音频输出，其中，所述多个判别器包括一个或多个有条件判别器和一个或多个无条件判别器；通过组合所述多个判别器的相应预测来确定第一组合预测；以及确定对于所述前馈生成神经网络的多个生成参数的当前值的更新，以增加所述第一组合预测中的第一误差。的第一误差。的第一误差。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】利用对抗网络的高保真度语音合成

[0001]本说明书涉及使用对抗神经网络来生成音频数据。

技术介绍

[0002]神经网络是利用非线性单元的一个或多个层来预测对于接收到的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作到网络中的一个或多个其它层(即，一个或多个其它隐藏层、该输出层、或者二者)的输入。网络的每个层根据相应参数集的当前值从接收到的输入生成输出。

技术实现思路

[0003]本说明书描述了一种被实现为在一个或多个位置的一个或多个计算机上的计算机程序的系统，该系统使用生成神经网络来生成输出音频示例。生成神经网络已经通过训练被配置成接收网络输入，该网络输入包括表征输入文本的调节输入。生成神经网络处理调节输入以生成对应于输入文本的音频数据，例如表征说出输入文本的说话者的音频数据。
[0004]本说明书还描述了用于训练生成神经网络的训练系统。一般来说，训练系统使用一组一个或多个判别神经网络以对抗方式训练生成神经网络。即，每个判别器神经网络处理由生成神经网络生成的音频示例，并且预测音频示例是音频数据的真实(例如，人类说话者的录音)示例还是音频数据的合成示例，即，音频示例是否由生成神经网络生成。在本说明书中，判别器神经网络也被简称为“判别器”。
[0005]在一些实现方式中，判别器组包括有条件判别器和无条件判别器两者。有条件判别器处理音频示例和调节文本输入两者以生成预测，而无条件判别器仅处理音频示例而不处理调节文本输入以生成预测。在一些实现方...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种训练前馈生成神经网络的方法，所述前馈生成神经网络具有多个生成参数并且被配置成使用调节文本输入来生成输出音频示例，其中，每个调节文本输入包括在多个输入时间步中的每个输入时间步处的相应语言学特征表示，其中，所述前馈生成神经网络被配置成接收包括调节文本输入的生成输入并且处理所述生成输入以生成音频输出，所述音频输出包括在多个输出时间步中的每个输出时间步处的相应音频样本，以及其中，所述训练包括：获得训练调节文本输入；根据所述生成参数的当前值使用所述前馈生成神经网络来处理包括所述训练调节文本输入的训练生成输入，以生成训练音频输出；使用多个判别器中的每个判别器来处理所述训练音频输出，其中：所述多个判别器包括一个或多个有条件判别器，其中，每个有条件判别器处理所述训练音频输出的相应子集和所述训练调节文本输入，以生成对于所述训练音频输出是真实音频示例还是合成音频示例的预测，并且所述多个判别器包括一个或多个无条件判别器，其中每个无条件判别器处理所述训练音频输出的相应子集而不处理所述训练调节文本输入，以生成对于所述训练音频输出是真实音频示例还是合成音频示例的预测；通过组合所述多个判别器的相应预测来确定第一组合预测；以及确定对所述生成参数的当前值的更新，以增加所述第一组合预测中的第一误差。2.根据权利要求1所述的方法，其中：每个判别器具有多个相应的判别参数，每个有条件判别器根据所述相应的判别参数的当前值来处理所述训练音频输出和所述训练调节文本输入，每个无条件判别器根据所述相应的判别参数的当前值来处理所述训练音频输出而不处理所述训练调节文本输入，以及所述方法还包括确定对所述判别参数的当前值的更新以减少所述第一组合预测中的所述第一误差。3.根据权利要求1或2中的任一项所述的方法，其中，所述训练还包括：获得真实音频示例和包括所述真实音频示例的转录的真实调节文本输入；使用每个所述有条件判别器来处理i)所述真实音频示例和所述真实调节文本输入，以及使用每个所述无条件判别器来处理ii)所述真实音频示例而不处理所述真实调节文本输入，其中，每个判别器生成对于所述真实音频示例是真实音频示例还是合成音频示例的预测；通过组合所述多个判别器的相应预测来确定第二组合预测；以及确定对所述判别参数的当前值的更新以减少所述第二组合预测中的第二误差。4.根据权利要求1
‑
3中的任一项所述的方法，其中，所述前馈生成神经网络包括卷积神经网络层的组的序列，其中，每个组包括一个或多个膨胀卷积层。5.根据权利要求1至4中的任一项所述的方法，其中，每个判别器包括判别器神经网络，
所述判别器神经网络包括卷积神经网络层的组的序列，其中，每个组包括一个或多个膨胀卷积层。6.根据权利要求1
‑
5中的任一项所述的方法，其中，所述前馈生成神经网络包括卷积神经网络层的组的序列，其中，一个或多个组包括一个或多个相应上采样层，以担负所述调节文本输入的输入时间步与所述音频输出的输出时间步之间的第一比率。7.根据权利要求1
‑
6中的任一项所述的方法，其中，每个判别器包括判别器神经网络，所述判别器神经网络包括卷积神经网络层的组的序列，其中，一个或多个组包括一个或多个相应的下采样层，以担负所述音频输出的输出时间步与所述调节文本输入的输入时间步之间的第二比率。8.根据权利要求1至7中的任一项所述的方法，其中：所述前馈生成神经网络包括卷积神经网络层的组的序列，所述方法还包括零填充每个训练调节文本输入，以使每个训练调节文本输入具有共同维度，以及所述方法还包括使用零一掩蔽来处理到每个卷积神经网络层的相应输入。9.根据权利要求1
‑
8中的任一项所述的方法，其中：所述训练音频输出的每个相应子集是所述训练音频输出的真子集，以及至少两个所述判别器处理所述训练音频输出的不同真子集。10.根据权利要求9所述的方法，其中，处理所述训练音频输出的相应真子集包括，针对每个判别器：取得所述训练音频输出的随机样本，其中所述随机样本包括多个连续音频样本，其中对于给定判别器的所述随机样本的大小被预先确定；以及处理所述训练音频输出的随机样本。11.根据权利要求10所述的方法，其中，针对每个有条件判别器：取得所述训练音频输出的随机样本包括取得与连续输入时间步序列相对应的随机样本，以及处理所述训练调节文本输入包括以所述连续输入时间步序列处理所述训练调节文本输入。12.根据权利要求10或11中的任一项所述的方法，其中，处理所述训练音频输出的随机样本包括，针对每个判别器，对所述训练音频输出的随机样本进行下采样以生成下采样表示，其中，每个判别器通过预先确定的下采样因子对所述随机样本进行下采样。13.根据权利要求12所述的方法，其中：用于每个判别器的所述相应预先确定的下采样因子对应于用于所述判别器的随机样本的大小；以及每个下采样表示具有用于所有判别器的共同维度。14.根据权利要求12或13中的任一项所述的方法，其中，对所述训练音频输出的随机样本进行下采样包括使用步幅卷积神经网络层来处理所述训练音频输出的随机样本。15.根据权利要求1
‑
14中的任一项所述的方法，其中，在每个所述输入时间步处的所述调节文本输入的相应语言学特征表示包括以下中的一个或多个：音素、持续时间或对数基频。
16.根据权利要求1
‑
15中的任一项所述的方法，其中，所述生成输入还包括噪声输入。17.根据权利要求16所述的方法，其中，所述前馈生成神经网络包括根据所述噪声输入的线性嵌入而调节的一个或多个有条件批量归一化神经网络层。18.根据权利要求1
‑
17中的任一项所述的方法，其中，所述生成输入还包括所述音频输出应当属于的类别的标识。19.一种用于使用前馈生成神经网络来生成输出音频示例的方法，所述前馈生成神经网络已经使用根据权利要求1
‑
18中的任一项所述的方法被训练。20.一种用于生成输出音频示例的方法，所述方法包括：接收生成输入，所述生成输入包括i)在多个输入时间步中的每个输入时间步处包括相应语言学特征表示的调节文本输入以及ii)噪声输入；以及通过使用前馈生成神经网络来处理所述生成输入，从而生成所述输出音频示例，其中，所述前馈生成神经网络被配置成接收所述生成输入并且处理所述生成输入以生成音频输出，所述音频输出包括在多个输出时间步中的每个输出时间步处的相应音频样本，其中：所述前馈生成神经网络包括卷积神经网络层的组的序列；一个或...

【专利技术属性】
技术研发人员：米科拉伊，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人