使用卷积序列学习的神经文本转语音的系统和方法技术方案

技术编号:21005436 阅读:22 留言:0更新日期:2019-04-30 21:51
本文中描述的是基于全卷积注意力的神经文本转语音(TTS)系统的实施方式,其中各种实施方式通常可被称为Deep Voice 3。Deep Voice 3的实施方式在自然度方面匹配最先进的神经语音合成系统,同时训练速度快十倍。Deep Voice 3的实施方式被扩展到TTS前所未有的数据集大小,在来自两千多位说话者的超过八百小时的音频上进行训练。此外,识别并减轻了基于注意力的语音合成网络的常见误差模式,并比较了几种不同的波形合成方法。还呈现了描述如何在单个GPU服务器上将推理扩展到每天一千万次查询的实施方式。

System and Method of Convolutional Sequence Learning for Neural Text to Speech

【技术实现步骤摘要】
使用卷积序列学习的神经文本转语音的系统和方法
本公开总体涉及用于计算机学习的系统和方法,该系统和方法可提供改进的计算机性能、特征和使用。更具体地,本公开涉及用于通过深度中性网络的文本转语音的系统和方法。
技术介绍
通常被称为文本转语音(TTS)系统的人工语音合成系统将书面语言转换为人类语音。TTS系统用于各种应用中,诸如人机界面、视力损伤的可访问性、媒体和娱乐。根本上地,它允许无需视觉界面的人机交互。传统的TTS系统基于复杂的多级人工工程管线。通常,这些系统首先将文本转换为紧凑的音频表示,然后使用称为声码器的音频波形合成方法将这种表示转换为音频。由于TTS系统的复杂性,开发它可能是非常劳动密集的和困难的。最近在神经TTS方面的工作已演示了令人印象深刻的结果,产生了具有更简单的特性、更少的组件和更高质量的合成语音的管线。但是对用于TTS的最优神经网络架构还没有达成共识。因此,需要的是用于创建、开发和/或部署改进的说话者文本转语音系统的系统和方法。
技术实现思路
根据本申请的一方面,提供了文本转语音系统,包括:一个或多个处理器;以及非暂时性计算机可读介质或媒介,包括一个或多个指令序列,所述一个或多个指令序列在由所述一个或多个处理器中的至少一个执行时,致使执行步骤,所述步骤包括:使用编码器将输入文本的文本特征转换为注意力关键表示和注意力值表示,所述编码器包括:嵌入模型,将输入文本转换为文本嵌入表示;一个或多个卷积块的系列,接收所述文本嵌入表示的投影,以及通过所述一个或多个卷积块的系列处理所述文本嵌入表示的投影,以从所述输入文本提取依赖时间的文本信息;投影层,生成所提取的依赖时间的文本信息的投影,所述依赖时间的文本信息的投影用于形成注意力关键表示;以及值表示计算器,从所述注意力关键表示和所述文本嵌入表示计算注意力值表示;以及使用基于注意力的解码器自回归地生成所述输入文本的低维音频表示,所述基于注意力的解码器包括:前网络块,接收表示音频帧的输入数据,以及包括一个或多个全连接层以对所述输入数据进行预处理;一个或多个解码器块的系列,每个解码器块均包括卷积块和注意力块,其中,卷积块生成查询,以及所述注意力块计算环境表示,作为使用所述注意力关键表示的至少一部分和来自所述卷积块的所述查询计算的注意力权重和所述注意力值表示的至少一部分的加权平均值;以及后网络块,包括全连接层,所述全连接层接收来自所述一个或多个解码器块的系列的输出,并且输出下一组低维音频表示。根据本申请的另一方面,提供了用于训练卷积序列学习文本转语音(TTS)系统以从输入文本合成语音的计算机实施的方法,包括:使用嵌入模型将所述输入文本转换为一组可训练的嵌入表示;经由包括一个或多个卷积块的编码器,生成一组注意力关键表示,所述一组注意力关键表示与由所述编码器从所述一组可训练的嵌入表示中获得的数据中提取的依赖时间的文本信息相对应;使用所述一组可训练的嵌入表示和所述一组注意力关键表示,生成与所述一组注意力关键表示相对应的一组注意力值表示;以及从由基于注意力的解码器生成的环境表示生成一组声码器特征,所述一组声码器特征能够与声码器一起使用以产生表示合成语音的信号,所述基于注意力的解码器包括至少一个解码器块,所述至少一个解码器块包括因果性卷积块和注意力块,并且所述基于注意力的解码器使用所述一组注意力关键表示、所述一组注意力值表示和来自与所述输入文本相对应的groundtruth音频的特征,从而针对每个时间帧:使用所述因果性卷积块和从现有音频帧的表示的至少一部分中获得的数据生成查询;以及经由所述注意力块,计算所述环境表示,作为使用所述一组注意力关键表示的至少一部分和来自所述因果性卷积块的所述查询计算的注意力权重和所述一组注意力值表示的至少一部分的加权平均值。根据本申请的又一方面,提供了用于从输入文本合成语音的计算机实施的方法,所述方法包括:使用包括一个或多个卷积层的已训练的编码器,将所述输入文本编码为一组关键表示和一组值表示;使用已训练的基于注意力的解码器将所述一组关键表示和所述一组值表示解码为一组低维音频表示帧,所述已训练的基于注意力的解码器包括至少一个解码器块,所述至少一个解码器块包括因果性卷积块和注意力块,其中,针对每个时间帧:所述因果性卷积块使用现有低维音频表示帧的至少一部分生成查询;以及所述注意力块计算环境表示,作为使用所述一组关键表示的至少一部分和来自所述因果性卷积块的所述查询计算的注意力权重和所述一组值表示的至少一部分的加权平均值;以及使用所述环境表示生成最终一组低维音频表示帧,所述最终一组低维音频表示帧由声码器使用以输出表示所述输入文本的合成语音的信号。附图说明将参考本专利技术的实施方式,它们的示例可示于附图中。这些附图旨在是说明性的而非限制性的。虽然本专利技术大体上在这些实施方式的上下文中描述,但应理解,本专利技术的范围并不旨在限于这些特定实施方式。附图中的项目未按比例绘制。图1示意性描绘了根据本公开的实施方式的示例性文本转语音架构。图2描绘了根据本公开的实施方式的使用诸如图1中描绘的文本转语音架构的通常总体方法。图3示意性描绘了根据本公开的实施方式的卷积块,该卷积块包括具有门控线性单元的一维(1D)卷积和剩余连接。图4示意性描绘了根据本公开的实施方式的注意力块的实施方式。图5A至图5C描绘了根据本公开的实施方式的注意力分布:(5A)训练前,(5B)训练后,但是没有推理约束,以及(5C)将推理约束应用于第一层和第三层。图6示意性描绘了根据本公开的实施方式的生成WORLD特征的四个全连接层。图7示意性描绘了根据本公开的实施方式的详细的示例性DeepVoice3模型架构。图8A示出了根据本公开的实施方式的VCTK数据集学习嵌入的前两个主成分所跨越的空间中的说话者的性别。图8B示出了根据本公开的实施方式的LibriSpeech数据集学习嵌入的前两个主成分所跨越的空间中的说话者的性别。图9描绘了根据本文件的实施方式的计算装置/信息处理系统的简化框图。具体实施方式在以下描述中,出于解释目的,阐明具体细节以便提供对本专利技术的理解。然而,将对本领域的技术人员显而易见的是,可在没有这些细节的情况下实践本专利技术。此外,本领域的技术人员将认识到,下文描述的本专利技术的实施方式可以以各种方式(例如过程、装置、系统、设备或方法)在有形的计算机可读介质上实施。附图中示出的组件或模块是本专利技术实施方式的示例性说明,并且意图避免使本专利技术不清楚。还应理解,在本论述的全文中,组件可描述为单独的功能单元(可包括子单元),但是本领域的技术人员将认识到,各种组件或其部分可划分成单独组件,或者可整合在一起(包括整合在单个的系统或组件内)。应注意,本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。此外,附图内的组件或系统之间的连接并不旨在限于直接连接。相反,在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外,可使用另外或更少的连接。还应注意,术语“联接”、“连接”、或“通信地联接”应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。在本说明书中对“一个实施方式”、“优选实施方式”、“实施方式”或“多个实施方式”的提及表示结合实施方式所描述的具体特本文档来自技高网...

【技术保护点】
1.文本转语音系统,包括:一个或多个处理器;以及非暂时性计算机可读介质或媒介,包括一个或多个指令序列,所述一个或多个指令序列在由所述一个或多个处理器中的至少一个执行时,致使执行步骤,所述步骤包括:使用编码器将输入文本的文本特征转换为注意力关键表示和注意力值表示,所述编码器包括:嵌入模型,将输入文本转换为文本嵌入表示;一个或多个卷积块的系列,接收所述文本嵌入表示的投影,以及通过所述一个或多个卷积块的系列处理所述文本嵌入表示的投影,以从所述输入文本提取依赖时间的文本信息;投影层,生成所提取的依赖时间的文本信息的投影,所述依赖时间的文本信息的投影用于形成注意力关键表示;以及值表示计算器,从所述注意力关键表示和所述文本嵌入表示计算注意力值表示;以及使用基于注意力的解码器自回归地生成所述输入文本的低维音频表示,所述基于注意力的解码器包括:前网络块,接收表示音频帧的输入数据,以及包括一个或多个全连接层以对所述输入数据进行预处理;一个或多个解码器块的系列,每个解码器块均包括卷积块和注意力块,其中,卷积块生成查询,以及所述注意力块计算环境表示,作为使用所述注意力关键表示的至少一部分和来自所述卷积块的所述查询计算的注意力权重和所述注意力值表示的至少一部分的加权平均值;以及后网络块,包括全连接层,所述全连接层接收来自所述一个或多个解码器块的系列的输出,并且输出下一组低维音频表示。...

【技术特征摘要】
2017.10.19 US 62/574,382;2018.08.08 US 16/058,2651.文本转语音系统,包括:一个或多个处理器;以及非暂时性计算机可读介质或媒介,包括一个或多个指令序列,所述一个或多个指令序列在由所述一个或多个处理器中的至少一个执行时,致使执行步骤,所述步骤包括:使用编码器将输入文本的文本特征转换为注意力关键表示和注意力值表示,所述编码器包括:嵌入模型,将输入文本转换为文本嵌入表示;一个或多个卷积块的系列,接收所述文本嵌入表示的投影,以及通过所述一个或多个卷积块的系列处理所述文本嵌入表示的投影,以从所述输入文本提取依赖时间的文本信息;投影层,生成所提取的依赖时间的文本信息的投影,所述依赖时间的文本信息的投影用于形成注意力关键表示;以及值表示计算器,从所述注意力关键表示和所述文本嵌入表示计算注意力值表示;以及使用基于注意力的解码器自回归地生成所述输入文本的低维音频表示,所述基于注意力的解码器包括:前网络块,接收表示音频帧的输入数据,以及包括一个或多个全连接层以对所述输入数据进行预处理;一个或多个解码器块的系列,每个解码器块均包括卷积块和注意力块,其中,卷积块生成查询,以及所述注意力块计算环境表示,作为使用所述注意力关键表示的至少一部分和来自所述卷积块的所述查询计算的注意力权重和所述注意力值表示的至少一部分的加权平均值;以及后网络块,包括全连接层,所述全连接层接收来自所述一个或多个解码器块的系列的输出,并且输出下一组低维音频表示。2.根据权利要求1所述的文本转语音系统,其中,所述基于注意力的解码器还包括:最终帧预测块,也接收来自所述一个或多个解码器块的系列的输出,并且输出是否已合成最后的音频帧的指示符。3.根据权利要求1所述的文本转语音系统,其中,所述基于注意力的解码器还包括:通过在固定的时间窗口上计算softmax来强迫所述注意力权重的单调性,所述固定的时间窗口从最后注意的时间帧开始并包括从所述最后注意的时间帧开始向前的一个或多个时间帧。4.根据权利要求1所述的文本转语音系统,还包括:转换器,将最终一组低维音频表示帧转换为表示所述输入文本的合成语音的信号。5.根据权利要求1所述的文本转语音系统,还包括:将表示一个或多个说话者音频特征的说话者指示符输入到所述编码器和所述基于注意力的解码器两者中,以促使合成语音具有所述说话者音频特征。6.根据权利要求1所述的文本转语音系统,其中,所述注意力块还包括将第一定位编码添加至所述注意力关键表示以及将第二定位编码添加至所述查询。7.根据权利要求1所述的文本转语音系统,其中,所述卷积块包括一维卷积滤波器、门控线性单元、比例因子和到所述卷积块的输入的剩余连接。8.用于训练卷积序列学习文本转语音(TTS)系统以从输入文本合成语音的计算机实施的方法,包括:使用嵌入模型将所述输入文本转换为一组可训练的嵌入表示;经由包括一个或多个卷积块的编码器,生成一组注意力关键表示,所述一组注意力关键表示与由所述编码器从所述一组可训练的嵌入表示中获得的数据中提取的依赖时间的文本信息相对应;使用所述一组可训练的嵌入表示和所述一组注意力关键表示,生成与所述一组注意力关键表示相对应的一组注意力值表示;以及从由基于注意力的解码器生成的环境表示生成一组声码器特征,所述一组声码器特征能够与声码器一起使用以产生表示合成语音的信号,所述基于注意力的解码器包括至少一个解码器块,所述至少一个解码器块包括因果性卷积块和注意力块,并且所述基于注意力的解码器使用所述一组注意力...

【专利技术属性】
技术研发人员:塞尔坎·安瑞克平伟彭开南沙兰·纳朗阿贾伊·卡恩纳恩安德鲁·吉比安斯凯乔纳森·赖曼约翰·米勒
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1