【技术实现步骤摘要】
用于使用少量样本进行神经话音克隆的系统和方法
本公开大体上涉及可以提供改善的计算机性能、特征和用途的用于计算机学习的系统和方法。更具体地,本公开涉及用于通过深度神经网络的文本转语音的系统和方法。
技术介绍
通常被称为文本转语音(TTS)系统的人工语音合成系统将书面语言转换为人类语音。TTS系统用于各种应用中,诸如人机界面、视力损伤的可访问性、媒体和娱乐。根本上地,它允许无需视觉界面的人机交互。传统的TTS系统基于复杂的多级人工工程管线。通常,这些系统首先将文本转换为紧凑的音频表示,然后使用称为声码器的音频波形合成方法将这种表示转换为音频。TTS系统的一个目标是能够使文本输入生成听起来像具有特定音频/说话者特性的说话者的对应音频。例如,从对应于特定个体的少量数据制作听起来像那个个体的个性化语音接口(有时称为“话音克隆”)是高度所需能力。一些系统确实具有这种能力;但是,在尝试执行话音克隆的系统当中,它们通常需要大量样本来创建具有所需语音特性的自然发声语音。因此,需要可以使用非常有限数目的样本提供话音克隆的用于创建、开发且/或部署说话者文本转语音系统的系统和方法。
技术实现思路
根据本申请的一方面,提供了一种用于从输入文本合成音频的计算机实施的方法,包括:给定不是用于训练多说话者生成模型的训练数据的一部分的新说话者的一组有限的一个或多个音频,使用包括第一组受训练模型参数的说话者编码器模型来在给定所述一组有限的一个或多个音频作为所述说话者编码器模型的输入的情况下针对所述新说话者获得说话者嵌入,所述说话者嵌入是说话者的语音特性的表示;以及使用包括第二组受训练模型参数的多 ...
【技术保护点】
1.一种用于从输入文本合成音频的计算机实施的方法,包括:给定不是用于训练多说话者生成模型的训练数据的一部分的新说话者的一组有限的一个或多个音频,使用包括第一组受训练模型参数的说话者编码器模型来在给定所述一组有限的一个或多个音频作为所述说话者编码器模型的输入的情况下针对所述新说话者获得说话者嵌入,所述说话者嵌入是说话者的语音特性的表示;以及使用包括第二组受训练模型参数的多说话者生成模型、所述输入文本和由包括所述第一组受训练模型参数的所述说话者编码器模型生成的用于所述新说话者的所述说话者嵌入来生成用于所述输入文本的合成音频表示,其中所述合成音频包括所述新说话者的语音特性,其中包括所述第二组受训练模型参数的所述多说话者生成模型是使用以下各项作为输入来针对说话者进行训练的:(1)文本‑音频对训练集,其中文本‑音频对包括文本和所述说话者对该文本的对应音频,以及(2)与用于该说话者的说话者标识符对应的说话者嵌入。
【技术特征摘要】
2018.02.09 US 62/628,736;2018.09.26 US 16/143,3301.一种用于从输入文本合成音频的计算机实施的方法,包括:给定不是用于训练多说话者生成模型的训练数据的一部分的新说话者的一组有限的一个或多个音频,使用包括第一组受训练模型参数的说话者编码器模型来在给定所述一组有限的一个或多个音频作为所述说话者编码器模型的输入的情况下针对所述新说话者获得说话者嵌入,所述说话者嵌入是说话者的语音特性的表示;以及使用包括第二组受训练模型参数的多说话者生成模型、所述输入文本和由包括所述第一组受训练模型参数的所述说话者编码器模型生成的用于所述新说话者的所述说话者嵌入来生成用于所述输入文本的合成音频表示,其中所述合成音频包括所述新说话者的语音特性,其中包括所述第二组受训练模型参数的所述多说话者生成模型是使用以下各项作为输入来针对说话者进行训练的:(1)文本-音频对训练集,其中文本-音频对包括文本和所述说话者对该文本的对应音频,以及(2)与用于该说话者的说话者标识符对应的说话者嵌入。2.根据权利要求1所述的计算机实施的方法,其中通过执行包括以下各项的步骤来获得用于所述说话者编码器模型的所述第一组受训练模型参数和用于所述多说话者生成模型的所述第二组受训练模型参数:针对说话者使用所述文本-音频对训练集和与用于该说话者的说话者标识符对应的说话者嵌入作为输入来训练所述多说话者生成模型,以获得用于所述多说话者生成模型的所述第二组受训练模型参数并且获得对应于所述说话者标识符的一组说话者嵌入;以及使用从所述文本-音频对训练集中选择的一组音频和来自所述一组说话者嵌入的用于所述一组音频的说话者的对应说话者嵌入来训练所述说话者编码器模型,以获得用于所述说话者编码器模型的所述第一组受训练模型参数。3.根据权利要求1所述的计算机实施的方法,其中通过执行包括以下各项的步骤来获得用于所述说话者编码器模型的所述第一组受训练模型参数和用于所述多说话者生成模型的所述第二组受训练模型参数:针对说话者使用所述文本-音频对训练集和与用于该说话者的说话者标识符对应的说话者嵌入作为输入来训练所述多说话者生成模型,以获得用于所述多说话者生成模型的第三组受训练模型参数并且获得对应于所述说话者标识符的一组说话者嵌入;使用从所述文本-音频对训练集中选择的一组音频和来自所述第一组说话者嵌入的用于所述一组音频的说话者的对应说话者嵌入来训练所述说话者编码器模型,以获得用于所述说话者编码器模型的第四组受训练模型参数;以及通过将由所述多说话者生成模型使用来自所述说话者编码器模型的说话者嵌入生成的合成音频与对应于所述合成音频的groundtruth音频进行比较,来对包括所述第三组受训练模型参数的所述多说话者生成模型和包括所述第四组受训练模型参数的所述说话者编码器模型执行联合训练,以调整所述第三组受训练模型参数和所述第四组受训练模型参数中的至少一些,以便获得用于所述说话者编码器模型的所述第一组受训练模型参数和用于所述多说话者生成模型的所述第二组受训练模型参数。4.根据权利要求3所述的计算机实施的方法,还包括:作为所述联合训练的一部分,调整所述一组说话者嵌入的至少一些参数。5.根据权利要求1所述的计算机实施的方法,其中通过执行包括以下各项的步骤来获得用于所述说话者编码器模型的所述第一组受训练模型参数和用于所述多说话者生成模型的所述第二组受训练模型参数:通过将由所述多说话者生成模型使用来自所述说话者编码器模型的说话者嵌入生成的合成音频与对应于所述合成音频的groundtruth音频进行比较,来对所述多说话者生成模型和所述说话者编码器模型执行联合训练,以获得用于所述说话者编码器模型的所述第一组受训练模型参数和用于所述多说话者生成模型的所述第二组受训练模型参数。6.根据权利要求1所述的计算机实施的方法,其中所述说话者编码器模型包括神经网络架构,所述神经网络架构包括:频谱处理网络部件,其计算用于输入音频的频谱音频表示并且将所述频谱音频表示传递到包括具有用于特征变换的一个或多个非线性单元的一个或多个全连接层的前网络部件;时间处理网络部件,在所述时间处理网络部件中使用具有门控线性单元和残差连接的多个卷积层并入时间上下文;以及克隆样本注意力网络部件,包括确定不同音频的权重并且获得聚合说话者嵌入的多头自注意力机制。7.一种生成文本转语音系统,包括:一个或多个处理器;以及非暂时性计算机可读介质或媒介,包括一个或多个指令序列,所述一个或多个指令序列在由所述一个或多个处理器中的至少一个执行时,致使执行步骤,所述步骤包括:给定不是用于训练多说话者生成模型的训练数据的一部分的新说话者的一组有限的一个或多个音频,使用包括第一组受训练模型参数的说话者编码器模型来在给定所述一组有限的一个或多个音频作为所述说话者编码器模型的输入的情况下针对所述新说话者获得说话者嵌入,所述说话者嵌入是说话者的语音特性的表示;以及使用包括第二组受训练模型参数的多说话者生成模型、输入文本和由包括所述第一组受训练模型参数的所述说话者编码器模型生成的用于所述新说话者的所述说话者嵌入来生成用于所述输入文本的合成音频表示,其中所述合成音频包括所述新说话者的语音特性,其中包括所述第二组受训练模型参数的所述多说话者生成模型是使用以下各项作为输入来针对说话者进行训练的:(1)文本-音频对训练集,其中文本-音频对包括文本和所述说话者对该文本的对应音频,以及(2)与用于该说话者的说话者标识符对应的说话者嵌入。8.根据权利要求7所述的生成文本转语音系统,其中通过执行包括以下各项的步骤来获得用于所述说话者编码器模型的所述第一组受训练模型参数和用于所述多说话者生成模型的所述第二组受训练模型参数:针对说话者使用所述文本-音频对训练集和与用于该说话者的说话者标识符对应的说话者嵌入作为输入来训练所述多说话者生成模型,以获得用于所述多说话者生成模型的所述第二组受训练模型参数并且获得对应于所述说话者标识符的一组说话者嵌入;以及使用从所述文本-音频对训练集中选择的一组音频和来自所述一组说话者嵌入的用于所述一组音频的说话者的对应说话者嵌入来训练所述说话者编码器模型,以获得用于所述说话者编码器模型的所述第一组受训练模型参数。9.根据权利要求7所述的生成文本转语音系统,其中通过执行包括以下各项的步骤来获得用于所述说话者编码器模型的所述第一组受训练模型参数和用于所述多说话者生成模型的所述第二组受训练模型参数:针对说话者使用所述文本-音频对...
【专利技术属性】
技术研发人员:塞尔坎·O·安瑞克,陈吉彤,彭开南,平伟,周彥祺,
申请(专利权)人:百度美国有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。