利用对抗网络的高保真度语音合成制造技术

技术编号:33520949 阅读:14 留言:0更新日期:2022-05-19 01:29
方法、系统和装置,包括在计算机存储介质上编码的计算机程序,用于使用生成神经网络来生成输出音频示例。这些方法中的一种方法包括:获得训练调节文本输入;使用前馈生成神经网络来处理包括所述训练调节文本输入的训练生成输入,以生成训练音频输出;使用多个判别器中的每个判别器来处理所述训练音频输出,其中,所述多个判别器包括一个或多个有条件判别器和一个或多个无条件判别器;通过组合所述多个判别器的相应预测来确定第一组合预测;以及确定对于所述前馈生成神经网络的多个生成参数的当前值的更新,以增加所述第一组合预测中的第一误差。的第一误差。的第一误差。

【技术实现步骤摘要】
【国外来华专利技术】利用对抗网络的高保真度语音合成


[0001]本说明书涉及使用对抗神经网络来生成音频数据。

技术介绍

[0002]神经网络是利用非线性单元的一个或多个层来预测对于接收到的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作到网络中的一个或多个其它层(即,一个或多个其它隐藏层、该输出层、或者二者)的输入。网络的每个层根据相应参数集的当前值从接收到的输入生成输出。

技术实现思路

[0003]本说明书描述了一种被实现为在一个或多个位置的一个或多个计算机上的计算机程序的系统,该系统使用生成神经网络来生成输出音频示例。生成神经网络已经通过训练被配置成接收网络输入,该网络输入包括表征输入文本的调节输入。生成神经网络处理调节输入以生成对应于输入文本的音频数据,例如表征说出输入文本的说话者的音频数据。
[0004]本说明书还描述了用于训练生成神经网络的训练系统。一般来说,训练系统使用一组一个或多个判别神经网络以对抗方式训练生成神经网络。即,每个判别器神经网络处理由生成神经网络生成的音频示例,并且预测音频示例是音频数据的真实(例如,人类说话者的录音)示例还是音频数据的合成示例,即,音频示例是否由生成神经网络生成。在本说明书中,判别器神经网络也被简称为“判别器”。
[0005]在一些实现方式中,判别器组包括有条件判别器和无条件判别器两者。有条件判别器处理音频示例和调节文本输入两者以生成预测,而无条件判别器仅处理音频示例而不处理调节文本输入以生成预测。在一些实现方式中,每个判别器随机地对音频示例的不同部分进行采样并且处理随机样本以生成预测。
[0006]训练系统可以组合判别器组的相应预测以生成组合预测,并且基于组合预测的误差来更新前馈生成神经网络和每个判别器两者的参数。
[0007]本说明书中描述的主题可以在特定实施例中实现,以便实现以下优点中的一个或多个。
[0008]在本说明书中描述的一些实现方式中,生成神经网络可以是前馈生成神经网络。即,生成神经网络可以处理网络输入以在单个前向遍(forward pass)中生成输出音频示例。如本说明书中所述的前馈生成神经网络可以比依赖于自回归生成神经网络的现有技术更快地生成输出示例。自回归神经网络通过在每个时间步处执行前向遍来生成跨多个时间步的输出示例。在给定时间步处,自回归神经网络生成将被包括在输出音频示例中的新输出样本,该新输出样本根据已经生成的输出样本被调节。该过程可能消耗大量的计算资源并且花费大量的时间。另一方面,前馈生成神经网络可以在单个前向遍中生成输出示例,同时保持所生成的输出示例的高质量。这大大减少了生成输出音频示例所需的时间和计算资
源量。
[0009]其它现有技术依赖于通过使用概率密度提取自回归模型而训练的可逆前馈神经网络。以此方式的训练允许可逆前馈神经网络生成听起来逼真并且对应于输入文本的语音信号,而无需对数据中出现的每个可能变化进行建模。如本说明书中所述的前馈生成神经网络也可以生成忠实地遵循输入文本的逼真音频样本,而不必对音频数据的数据分布进行明确建模,但是可以在没有可逆前馈神经网络的提取和可逆性要求的情况下这样做。
[0010]使用有条件判别器和无条件判别器两者向如本说明书中所述的前馈生成神经网络提供各种优点。有条件判别器可以分析所生成的音频在多大程度上对应于由调节文本输入所表征的输入文本,从而允许前馈生成神经网络学习生成遵循输入文本的音频示例。然而,如以下更详细描述的,由有条件判别器取得的随机样本的端点需要与调节文本输入的输入时间步对准,以便使有条件判别器评估调节文本输入(以调节文本输入的输入时间步的频率)和所生成的音频(以音频示例的输出时间步的频率)。作为特定示例,如果每个输入时间步对应于120个输出时间步,则有条件判别器可以执行的采样被限制为120倍的较低频率。另一方面,无条件判别器不限于这种采样频率约束,因此暴露于更多样的音频样本。
[0011]使用仅处理音频数据的样本的判别器可以允许系统在较低维度分布之间进行判别。为每个判别器指配特定窗口大小可以允许判别器对音频样本的不同频率进行操作,从而增加由前馈生成神经网络生成的音频样本的真实性。使用仅处理音频数据的样本的判别器还可以减少判别器的计算复杂度,这可以允许系统更快地训练前馈生成神经网络。
[0012]使用膨胀卷积神经网络层还可以拓宽前馈生成神经网络和判别器的感受域,从而允许相应网络学习音频示例中在各种频率(例如,长期频率和短期频率)处的依赖性。
[0013]本说明书的主题的一个或多个实施例的细节在附图和下面的描述中阐述。主题的其它特征、方面和优点将从以下描述、附图和权利要求书中变得显而易见。
附图说明
[0014]图1是用于训练生成神经网络的示例训练系统的图。
[0015]图2是示例生成器块的图。
[0016]图3是示例判别器神经网络系统的图。
[0017]图4是示例无条件判别器块和示例有条件判别器块的图。
[0018]图5是用于训练生成神经网络的示例过程的流程图。
[0019]各附图中同样的参考数字和标记指示同样的元素。
具体实施方式
[0020]本说明书描述了一种训练生成神经网络使用调节文本输入来生成输出音频示例的系统。该系统可以使用包括一个或多个判别器的判别器神经网络系统以对抗方式训练生成神经网络。
[0021]图1是用于训练生成神经网络110的示例训练系统100的图。训练系统100是在一个或多个位置的一个或多个计算机上被实现为计算机程序的系统的示例,在训练系统100中可以实现下面描述的系统、组件和技术。
[0022]训练系统100包括生成神经网络110、判别器神经网络系统120和参数更新系统
130。训练系统100被配置成训练生成神经网络110以接收调节文本输入102并且处理调节文本输入102以生成音频输出112。在一些实现方式中,生成神经网络110是前馈神经网络,即,生成神经网络110在单个前向遍中生成音频输出112。
[0023]调节文本输入102表征输入文本,并且音频输出112描绘对应于输入文本的语音。在一些实现方式中,调节文本输入102包括输入文本本身,例如输入文本的字符级嵌入或单词级嵌入。替代地或附加地,调节文本输入可以包括表征文本输入的语言学特征。例如,调节文本输入可以包括用于输入时间步序列中的每个输入时间步的语言学特征的相应向量。作为特定示例,每个输入时间步的语言学特征可以包括i)音素和ii)该输入时间步处的文本的持续时间。语言学特征还可以包括音高信息;例如,音高可以由输入时间步的对数基频logF0表示。
[0024]生成神经网络110可以具有任何适当的神经网络架构。作为特定示例,生成神经网络110可以包括被称为”生成器块“的卷积神经网络层的组的序列。生成器块序列中的第一生成器块可以接收调节文本输入(或调节文本输入的嵌入)作为输入,并且生成块输出。生成器块序列中的每个后本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种训练前馈生成神经网络的方法,所述前馈生成神经网络具有多个生成参数并且被配置成使用调节文本输入来生成输出音频示例,其中,每个调节文本输入包括在多个输入时间步中的每个输入时间步处的相应语言学特征表示,其中,所述前馈生成神经网络被配置成接收包括调节文本输入的生成输入并且处理所述生成输入以生成音频输出,所述音频输出包括在多个输出时间步中的每个输出时间步处的相应音频样本,以及其中,所述训练包括:获得训练调节文本输入;根据所述生成参数的当前值使用所述前馈生成神经网络来处理包括所述训练调节文本输入的训练生成输入,以生成训练音频输出;使用多个判别器中的每个判别器来处理所述训练音频输出,其中:所述多个判别器包括一个或多个有条件判别器,其中,每个有条件判别器处理所述训练音频输出的相应子集和所述训练调节文本输入,以生成对于所述训练音频输出是真实音频示例还是合成音频示例的预测,并且所述多个判别器包括一个或多个无条件判别器,其中每个无条件判别器处理所述训练音频输出的相应子集而不处理所述训练调节文本输入,以生成对于所述训练音频输出是真实音频示例还是合成音频示例的预测;通过组合所述多个判别器的相应预测来确定第一组合预测;以及确定对所述生成参数的当前值的更新,以增加所述第一组合预测中的第一误差。2.根据权利要求1所述的方法,其中:每个判别器具有多个相应的判别参数,每个有条件判别器根据所述相应的判别参数的当前值来处理所述训练音频输出和所述训练调节文本输入,每个无条件判别器根据所述相应的判别参数的当前值来处理所述训练音频输出而不处理所述训练调节文本输入,以及所述方法还包括确定对所述判别参数的当前值的更新以减少所述第一组合预测中的所述第一误差。3.根据权利要求1或2中的任一项所述的方法,其中,所述训练还包括:获得真实音频示例和包括所述真实音频示例的转录的真实调节文本输入;使用每个所述有条件判别器来处理i)所述真实音频示例和所述真实调节文本输入,以及使用每个所述无条件判别器来处理ii)所述真实音频示例而不处理所述真实调节文本输入,其中,每个判别器生成对于所述真实音频示例是真实音频示例还是合成音频示例的预测;通过组合所述多个判别器的相应预测来确定第二组合预测;以及确定对所述判别参数的当前值的更新以减少所述第二组合预测中的第二误差。4.根据权利要求1

3中的任一项所述的方法,其中,所述前馈生成神经网络包括卷积神经网络层的组的序列,其中,每个组包括一个或多个膨胀卷积层。5.根据权利要求1至4中的任一项所述的方法,其中,每个判别器包括判别器神经网络,
所述判别器神经网络包括卷积神经网络层的组的序列,其中,每个组包括一个或多个膨胀卷积层。6.根据权利要求1

5中的任一项所述的方法,其中,所述前馈生成神经网络包括卷积神经网络层的组的序列,其中,一个或多个组包括一个或多个相应上采样层,以担负所述调节文本输入的输入时间步与所述音频输出的输出时间步之间的第一比率。7.根据权利要求1

6中的任一项所述的方法,其中,每个判别器包括判别器神经网络,所述判别器神经网络包括卷积神经网络层的组的序列,其中,一个或多个组包括一个或多个相应的下采样层,以担负所述音频输出的输出时间步与所述调节文本输入的输入时间步之间的第二比率。8.根据权利要求1至7中的任一项所述的方法,其中:所述前馈生成神经网络包括卷积神经网络层的组的序列,所述方法还包括零填充每个训练调节文本输入,以使每个训练调节文本输入具有共同维度,以及所述方法还包括使用零一掩蔽来处理到每个卷积神经网络层的相应输入。9.根据权利要求1

8中的任一项所述的方法,其中:所述训练音频输出的每个相应子集是所述训练音频输出的真子集,以及至少两个所述判别器处理所述训练音频输出的不同真子集。10.根据权利要求9所述的方法,其中,处理所述训练音频输出的相应真子集包括,针对每个判别器:取得所述训练音频输出的随机样本,其中所述随机样本包括多个连续音频样本,其中对于给定判别器的所述随机样本的大小被预先确定;以及处理所述训练音频输出的随机样本。11.根据权利要求10所述的方法,其中,针对每个有条件判别器:取得所述训练音频输出的随机样本包括取得与连续输入时间步序列相对应的随机样本,以及处理所述训练调节文本输入包括以所述连续输入时间步序列处理所述训练调节文本输入。12.根据权利要求10或11中的任一项所述的方法,其中,处理所述训练音频输出的随机样本包括,针对每个判别器,对所述训练音频输出的随机样本进行下采样以生成下采样表示,其中,每个判别器通过预先确定的下采样因子对所述随机样本进行下采样。13.根据权利要求12所述的方法,其中:用于每个判别器的所述相应预先确定的下采样因子对应于用于所述判别器的随机样本的大小;以及每个下采样表示具有用于所有判别器的共同维度。14.根据权利要求12或13中的任一项所述的方法,其中,对所述训练音频输出的随机样本进行下采样包括使用步幅卷积神经网络层来处理所述训练音频输出的随机样本。15.根据权利要求1

14中的任一项所述的方法,其中,在每个所述输入时间步处的所述调节文本输入的相应语言学特征表示包括以下中的一个或多个:音素、持续时间或对数基频。
16.根据权利要求1

15中的任一项所述的方法,其中,所述生成输入还包括噪声输入。17.根据权利要求16所述的方法,其中,所述前馈生成神经网络包括根据所述噪声输入的线性嵌入而调节的一个或多个有条件批量归一化神经网络层。18.根据权利要求1

17中的任一项所述的方法,其中,所述生成输入还包括所述音频输出应当属于的类别的标识。19.一种用于使用前馈生成神经网络来生成输出音频示例的方法,所述前馈生成神经网络已经使用根据权利要求1

18中的任一项所述的方法被训练。20.一种用于生成输出音频示例的方法,所述方法包括:接收生成输入,所述生成输入包括i)在多个输入时间步中的每个输入时间步处包括相应语言学特征表示的调节文本输入以及ii)噪声输入;以及通过使用前馈生成神经网络来处理所述生成输入,从而生成所述输出音频示例,其中,所述前馈生成神经网络被配置成接收所述生成输入并且处理所述生成输入以生成音频输出,所述音频输出包括在多个输出时间步中的每个输出时间步处的相应音频样本,其中:所述前馈生成神经网络包括卷积神经网络层的组的序列;一个或...

【专利技术属性】
技术研发人员:米科拉伊
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1