用于使用少量样本进行神经话音克隆的系统和方法技术方案

技术编号:21895644 阅读:12 留言:0更新日期:2019-08-17 15:59
话音克隆是个性化语音接口的高度所需能力。基于神经网络的语音合成已经被证明能够针对大量说话者生成高质量语音。本文呈现采用少量音频样本作为输入的神经话音克隆系统。公开了两种方法,即说话者自适应和说话者编码。说话者自适应实施方式是基于使用少量克隆样本对多说话者生成模型进行微调。说话者编码实施方式是基于训练单独模型以从克隆音频直接推断新说话者嵌入,其在多说话者生成模型中使用或与多说话者生成模型一起使用。这两种方法在语音的自然性和其与原始说话者的相似性方面均实现良好性能‑即使只有非常少的克隆音频。

Systems and methods for neurovoice cloning using a small number of samples

【技术实现步骤摘要】
用于使用少量样本进行神经话音克隆的系统和方法
本公开大体上涉及可以提供改善的计算机性能、特征和用途的用于计算机学习的系统和方法。更具体地,本公开涉及用于通过深度神经网络的文本转语音的系统和方法。
技术介绍
通常被称为文本转语音(TTS)系统的人工语音合成系统将书面语言转换为人类语音。TTS系统用于各种应用中,诸如人机界面、视力损伤的可访问性、媒体和娱乐。根本上地,它允许无需视觉界面的人机交互。传统的TTS系统基于复杂的多级人工工程管线。通常,这些系统首先将文本转换为紧凑的音频表示,然后使用称为声码器的音频波形合成方法将这种表示转换为音频。TTS系统的一个目标是能够使文本输入生成听起来像具有特定音频/说话者特性的说话者的对应音频。例如,从对应于特定个体的少量数据制作听起来像那个个体的个性化语音接口(有时称为“话音克隆”)是高度所需能力。一些系统确实具有这种能力;但是,在尝试执行话音克隆的系统当中,它们通常需要大量样本来创建具有所需语音特性的自然发声语音。因此,需要可以使用非常有限数目的样本提供话音克隆的用于创建、开发且/或部署说话者文本转语音系统的系统和方法。
技术实现思路
根据本申请的一方面,提供了一种用于从输入文本合成音频的计算机实施的方法,包括:给定不是用于训练多说话者生成模型的训练数据的一部分的新说话者的一组有限的一个或多个音频,使用包括第一组受训练模型参数的说话者编码器模型来在给定所述一组有限的一个或多个音频作为所述说话者编码器模型的输入的情况下针对所述新说话者获得说话者嵌入,所述说话者嵌入是说话者的语音特性的表示;以及使用包括第二组受训练模型参数的多说话者生成模型、所述输入文本和由包括所述第一组受训练模型参数的所述说话者编码器模型生成的用于所述新说话者的所述说话者嵌入来生成用于所述输入文本的合成音频表示,其中所述合成音频包括所述新说话者的语音特性,其中包括所述第二组受训练模型参数的所述多说话者生成模型是使用以下各项作为输入来针对说话者进行训练的:(1)文本-音频对训练集,其中文本-音频对包括文本和所述说话者对该文本的对应音频,以及(2)与用于该说话者的说话者标识符对应的说话者嵌入。根据本申请的另一方面,提供了一种用于从输入文本合成音频的计算机实施的方法,包括:接收不是作为用于训练多说话者生成模型的训练数据的一部分的一组有限的一个或多个文本和新说话者的对应groundtruth音频,所述训练得到用于一组说话者嵌入的说话者嵌入参数,其中说话者嵌入是说话者的说话者特性的低维表示;将所述一组有限的一个或多个文本和用于所述新说话者的对应groundtruth音频、以及包括说话者嵌入参数的所述说话者嵌入中的至少一者或多者,输入到包括受预训练模型参数或受训练模型参数的所述多说话者生成模型中;使用由所述多说话者生成模型生成的合成音频与其对应groundtruth音频的比较来调整所述说话者嵌入参数中的至少一些,以获得表示所述新说话者的说话者特性的说话者嵌入;以及使用包括受训练模型参数的所述多说话者生成模型、所述输入文本和用于所述新说话者的所述说话者嵌入来生成用于所述输入文本的合成音频表示,其中所述合成音频包括所述新说话者的说话者特性。附图说明将参考本公开的实施方式,其示例可以在附图中示出。这些图式希望为说明性的而非限制性的。虽然大体上在这些实施方式的上下文中描述本公开,但是应当理解,本公开的范围并不旨在限于这些特定实施方式。图式中的项目可能未按比例绘制。图1描绘根据本公开的实施方式的用于从一组有限的音频生成具有说话者特性的音频的示例性方法。图2描绘根据本公开的实施方式的用于从一组有限的音频样本生成具有说话者特性的音频的说话者自适应方法。图3以图形方式描绘根据本公开的实施方式的用于训练、克隆和音频生成的说话者自适应编码方法。图4描绘根据本公开的实施方式的用于从一组有限的音频样本生成具有说话者特性的音频的说话者嵌入方法的说话者自适应。图5以图形方式描绘根据本公开的实施方式的用于训练、克隆和音频生成的整模型方法的说话者自适应。图6描绘根据本公开的实施方式的用于联合训练多说话者生成模型和说话者编码模型并且接着从一组有限的音频样本针对说话者生成具有说话者特性的音频的说话者嵌入方法。图7以图形方式描绘根据本公开的实施方式的用于联合训练、克隆和音频生成的说话者嵌入方法。图8描绘根据本公开的实施方式的用于单独训练多说话者生成模型和说话者编码器模型并且接着使用受训练模型从一组有限的音频样本针对说话者生成具有说话者特性的音频的说话者嵌入方法。图9以图形方式描绘根据本公开的实施方式的用于训练、克隆和音频生成的对应说话者嵌入方法。图10描绘根据本公开的实施方式的用于单独训练多说话者生成模型和说话者编码器模型但是对所述模型进行联合微调并且接着使用受训练模型从一组有限的一个或多个音频样本针对说话者生成具有说话者特性的音频的说话者嵌入方法。图11A和图11B以图形方式描绘根据本公开的实施方式的用于训练、克隆和音频生成的说话者嵌入方法。图12以图形方式示出根据本公开的实施方式的说话者编码器架构。图13以图形方式示出根据本公开的实施方式的具有中间态维度的说话者编码器架构的更详细实施方式。图14以图形方式描绘根据本公开的实施方式的说话者验证模型架构。图15描绘根据本公开的实施方式的说话者验证等错误率(EER)(使用1个登记音频)对克隆音频样本数目。使用LibriSpeech数据集训练多说话者生成模型和说话者验证模型。使用VCTK数据集执行话音克隆。图16A描绘根据本公开的实施方式的使用1个登记音频的说话者验证等错误率(EER)对克隆音频样本数目。图16B描绘根据本公开的实施方式的使用5个登记音频的说话者验证等错误率(EER)对克隆音频样本数目。图17描绘根据本公开的实施方式的用于25个说话者的确认集的嵌入估计的平均绝对误差对克隆音频数目,其以具有注意力机制以及没有注意力机制(通过简单地求平均)示出。图18描绘根据本专利技术的实施方式的具有Nsamples=5的说话者编码器模型的推断注意力系数对克隆音频样本的长度。图19示出根据本公开的实施方式的用于说话者自适应方法的说话者分类准确性对迭代次数。图20描绘根据本公开的实施方式的在具有不同数目的克隆样本的说话者分类准确性方面的说话者自适应方法与说话者编码方法的比较。图21描绘根据本公开的实施方式的针对不同数目的克隆样本的说话者验证(SV)等错误率(EER)(使用5个登记音频)。图22描绘根据本公开的实施方式的用于1和10样本计数的相似性得分的分布。图23描绘根据本公开的实施方式的由说话者编码器做出的估计说话者嵌入的视觉化。图24描绘根据本公开的实施方式的推断嵌入的前两个主分量,其具有用于VCTK说话者的性别和口音地区的groundtruth(标注的真实数据)标签。图25描绘根据本文献的实施方式的计算装置/信息处置系统的简化框图。图26以图形方式描绘根据本公开的实施方式的示例性DeepVoice3架构2600。图27描绘根据本公开的实施方式的用于使用文本转语音架构(诸如图26或图31中所描绘)的总体概述方法。图28以图形方式描绘根据本公开的实施方式的卷积块,其包括具有门控线性单元的一维(1D)卷本文档来自技高网...

【技术保护点】
1.一种用于从输入文本合成音频的计算机实施的方法,包括:给定不是用于训练多说话者生成模型的训练数据的一部分的新说话者的一组有限的一个或多个音频,使用包括第一组受训练模型参数的说话者编码器模型来在给定所述一组有限的一个或多个音频作为所述说话者编码器模型的输入的情况下针对所述新说话者获得说话者嵌入,所述说话者嵌入是说话者的语音特性的表示;以及使用包括第二组受训练模型参数的多说话者生成模型、所述输入文本和由包括所述第一组受训练模型参数的所述说话者编码器模型生成的用于所述新说话者的所述说话者嵌入来生成用于所述输入文本的合成音频表示,其中所述合成音频包括所述新说话者的语音特性,其中包括所述第二组受训练模型参数的所述多说话者生成模型是使用以下各项作为输入来针对说话者进行训练的:(1)文本‑音频对训练集,其中文本‑音频对包括文本和所述说话者对该文本的对应音频,以及(2)与用于该说话者的说话者标识符对应的说话者嵌入。

【技术特征摘要】
2018.02.09 US 62/628,736;2018.09.26 US 16/143,3301.一种用于从输入文本合成音频的计算机实施的方法,包括:给定不是用于训练多说话者生成模型的训练数据的一部分的新说话者的一组有限的一个或多个音频,使用包括第一组受训练模型参数的说话者编码器模型来在给定所述一组有限的一个或多个音频作为所述说话者编码器模型的输入的情况下针对所述新说话者获得说话者嵌入,所述说话者嵌入是说话者的语音特性的表示;以及使用包括第二组受训练模型参数的多说话者生成模型、所述输入文本和由包括所述第一组受训练模型参数的所述说话者编码器模型生成的用于所述新说话者的所述说话者嵌入来生成用于所述输入文本的合成音频表示,其中所述合成音频包括所述新说话者的语音特性,其中包括所述第二组受训练模型参数的所述多说话者生成模型是使用以下各项作为输入来针对说话者进行训练的:(1)文本-音频对训练集,其中文本-音频对包括文本和所述说话者对该文本的对应音频,以及(2)与用于该说话者的说话者标识符对应的说话者嵌入。2.根据权利要求1所述的计算机实施的方法,其中通过执行包括以下各项的步骤来获得用于所述说话者编码器模型的所述第一组受训练模型参数和用于所述多说话者生成模型的所述第二组受训练模型参数:针对说话者使用所述文本-音频对训练集和与用于该说话者的说话者标识符对应的说话者嵌入作为输入来训练所述多说话者生成模型,以获得用于所述多说话者生成模型的所述第二组受训练模型参数并且获得对应于所述说话者标识符的一组说话者嵌入;以及使用从所述文本-音频对训练集中选择的一组音频和来自所述一组说话者嵌入的用于所述一组音频的说话者的对应说话者嵌入来训练所述说话者编码器模型,以获得用于所述说话者编码器模型的所述第一组受训练模型参数。3.根据权利要求1所述的计算机实施的方法,其中通过执行包括以下各项的步骤来获得用于所述说话者编码器模型的所述第一组受训练模型参数和用于所述多说话者生成模型的所述第二组受训练模型参数:针对说话者使用所述文本-音频对训练集和与用于该说话者的说话者标识符对应的说话者嵌入作为输入来训练所述多说话者生成模型,以获得用于所述多说话者生成模型的第三组受训练模型参数并且获得对应于所述说话者标识符的一组说话者嵌入;使用从所述文本-音频对训练集中选择的一组音频和来自所述第一组说话者嵌入的用于所述一组音频的说话者的对应说话者嵌入来训练所述说话者编码器模型,以获得用于所述说话者编码器模型的第四组受训练模型参数;以及通过将由所述多说话者生成模型使用来自所述说话者编码器模型的说话者嵌入生成的合成音频与对应于所述合成音频的groundtruth音频进行比较,来对包括所述第三组受训练模型参数的所述多说话者生成模型和包括所述第四组受训练模型参数的所述说话者编码器模型执行联合训练,以调整所述第三组受训练模型参数和所述第四组受训练模型参数中的至少一些,以便获得用于所述说话者编码器模型的所述第一组受训练模型参数和用于所述多说话者生成模型的所述第二组受训练模型参数。4.根据权利要求3所述的计算机实施的方法,还包括:作为所述联合训练的一部分,调整所述一组说话者嵌入的至少一些参数。5.根据权利要求1所述的计算机实施的方法,其中通过执行包括以下各项的步骤来获得用于所述说话者编码器模型的所述第一组受训练模型参数和用于所述多说话者生成模型的所述第二组受训练模型参数:通过将由所述多说话者生成模型使用来自所述说话者编码器模型的说话者嵌入生成的合成音频与对应于所述合成音频的groundtruth音频进行比较,来对所述多说话者生成模型和所述说话者编码器模型执行联合训练,以获得用于所述说话者编码器模型的所述第一组受训练模型参数和用于所述多说话者生成模型的所述第二组受训练模型参数。6.根据权利要求1所述的计算机实施的方法,其中所述说话者编码器模型包括神经网络架构,所述神经网络架构包括:频谱处理网络部件,其计算用于输入音频的频谱音频表示并且将所述频谱音频表示传递到包括具有用于特征变换的一个或多个非线性单元的一个或多个全连接层的前网络部件;时间处理网络部件,在所述时间处理网络部件中使用具有门控线性单元和残差连接的多个卷积层并入时间上下文;以及克隆样本注意力网络部件,包括确定不同音频的权重并且获得聚合说话者嵌入的多头自注意力机制。7.一种生成文本转语音系统,包括:一个或多个处理器;以及非暂时性计算机可读介质或媒介,包括一个或多个指令序列,所述一个或多个指令序列在由所述一个或多个处理器中的至少一个执行时,致使执行步骤,所述步骤包括:给定不是用于训练多说话者生成模型的训练数据的一部分的新说话者的一组有限的一个或多个音频,使用包括第一组受训练模型参数的说话者编码器模型来在给定所述一组有限的一个或多个音频作为所述说话者编码器模型的输入的情况下针对所述新说话者获得说话者嵌入,所述说话者嵌入是说话者的语音特性的表示;以及使用包括第二组受训练模型参数的多说话者生成模型、输入文本和由包括所述第一组受训练模型参数的所述说话者编码器模型生成的用于所述新说话者的所述说话者嵌入来生成用于所述输入文本的合成音频表示,其中所述合成音频包括所述新说话者的语音特性,其中包括所述第二组受训练模型参数的所述多说话者生成模型是使用以下各项作为输入来针对说话者进行训练的:(1)文本-音频对训练集,其中文本-音频对包括文本和所述说话者对该文本的对应音频,以及(2)与用于该说话者的说话者标识符对应的说话者嵌入。8.根据权利要求7所述的生成文本转语音系统,其中通过执行包括以下各项的步骤来获得用于所述说话者编码器模型的所述第一组受训练模型参数和用于所述多说话者生成模型的所述第二组受训练模型参数:针对说话者使用所述文本-音频对训练集和与用于该说话者的说话者标识符对应的说话者嵌入作为输入来训练所述多说话者生成模型,以获得用于所述多说话者生成模型的所述第二组受训练模型参数并且获得对应于所述说话者标识符的一组说话者嵌入;以及使用从所述文本-音频对训练集中选择的一组音频和来自所述一组说话者嵌入的用于所述一组音频的说话者的对应说话者嵌入来训练所述说话者编码器模型,以获得用于所述说话者编码器模型的所述第一组受训练模型参数。9.根据权利要求7所述的生成文本转语音系统,其中通过执行包括以下各项的步骤来获得用于所述说话者编码器模型的所述第一组受训练模型参数和用于所述多说话者生成模型的所述第二组受训练模型参数:针对说话者使用所述文本-音频对...

【专利技术属性】
技术研发人员:塞尔坎·O·安瑞克陈吉彤彭开南平伟周彥祺
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1