使用卷积序列学习的神经文本转语音的系统和方法技术方案

技术编号：21005436 阅读：22 留言：0更新日期：2019-04-30 21:51

本文中描述的是基于全卷积注意力的神经文本转语音(TTS)系统的实施方式，其中各种实施方式通常可被称为Deep Voice 3。Deep Voice 3的实施方式在自然度方面匹配最先进的神经语音合成系统，同时训练速度快十倍。Deep Voice 3的实施方式被扩展到TTS前所未有的数据集大小，在来自两千多位说话者的超过八百小时的音频上进行训练。此外，识别并减轻了基于注意力的语音合成网络的常见误差模式，并比较了几种不同的波形合成方法。还呈现了描述如何在单个GPU服务器上将推理扩展到每天一千万次查询的实施方式。

System and Method of Convolutional Sequence Learning for Neural Text to Speech

全部详细技术资料下载

【技术实现步骤摘要】
使用卷积序列学习的神经文本转语音的系统和方法
本公开总体涉及用于计算机学习的系统和方法，该系统和方法可提供改进的计算机性能、特征和使用。更具体地，本公开涉及用于通过深度中性网络的文本转语音的系统和方法。
技术介绍
通常被称为文本转语音(TTS)系统的人工语音合成系统将书面语言转换为人类语音。TTS系统用于各种应用中，诸如人机界面、视力损伤的可访问性、媒体和娱乐。根本上地，它允许无需视觉界面的人机交互。传统的TTS系统基于复杂的多级人工工程管线。通常，这些系统首先将文本转换为紧凑的音频表示，然后使用称为声码器的音频波形合成方法将这种表示转换为音频。由于TTS系统的复杂性，开发它可能是非常劳动密集的和困难的。最近在神经TTS方面的工作已演示了令人印象深刻的结果，产生了具有更简单的特性、更少的组件和更高质量的合成语音的管线。但是对用于TTS的最优神经网络架构还没有达成共识。因此，需要的是用于创建、开发和/或部署改进的说话者文本转语音系统的系统和方法。
技术实现思路
根据本申请的一方面，提供了文本转语音系统，包括：一个或多个处理器；以及非暂时性计算机可读介质或媒介，包括一个或多个指令序列，所述一个或多个指令序列在由所述一个或多个处理器中的至少一个执行时，致使执行步骤，所述步骤包括：使用编码器将输入文本的文本特征转换为注意力关键表示和注意力值表示，所述编码器包括：嵌入模型，将输入文本转换为文本嵌入表示；一个或多个卷积块的系列，接收所述文本嵌入表示的投影，以及通过所述一个或多个卷积块的系列处理所述文本嵌入表示的投影，以从所述输入文本提取依赖时间的文本信息；投影层，生成所提...

【技术保护点】
1.文本转语音系统，包括：一个或多个处理器；以及非暂时性计算机可读介质或媒介，包括一个或多个指令序列，所述一个或多个指令序列在由所述一个或多个处理器中的至少一个执行时，致使执行步骤，所述步骤包括：使用编码器将输入文本的文本特征转换为注意力关键表示和注意力值表示，所述编码器包括：嵌入模型，将输入文本转换为文本嵌入表示；一个或多个卷积块的系列，接收所述文本嵌入表示的投影，以及通过所述一个或多个卷积块的系列处理所述文本嵌入表示的投影，以从所述输入文本提取依赖时间的文本信息；投影层，生成所提取的依赖时间的文本信息的投影，所述依赖时间的文本信息的投影用于形成注意力关键表示；以及值表示计算器，从所述注意力关键表示和所述文本嵌入表示计算注意力值表示；以及使用基于注意力的解码器自回归地生成所述输入文本的低维音频表示，所述基于注意力的解码器包括：前网络块，接收表示音频帧的输入数据，以及包括一个或多个全连接层以对所述输入数据进行预处理；一个或多个解码器块的系列，每个解码器块均包括卷积块和注意力块，其中，卷积块生成查询，以及所述注意力块计算环境表示，作为使用所述注意力关键表示的至少一部分和来自所述卷积块的所...

【技术特征摘要】
2017.10.19 US 62/574,382;2018.08.08 US 16/058,2651.文本转语音系统，包括：一个或多个处理器；以及非暂时性计算机可读介质或媒介，包括一个或多个指令序列，所述一个或多个指令序列在由所述一个或多个处理器中的至少一个执行时，致使执行步骤，所述步骤包括：使用编码器将输入文本的文本特征转换为注意力关键表示和注意力值表示，所述编码器包括：嵌入模型，将输入文本转换为文本嵌入表示；一个或多个卷积块的系列，接收所述文本嵌入表示的投影，以及通过所述一个或多个卷积块的系列处理所述文本嵌入表示的投影，以从所述输入文本提取依赖时间的文本信息；投影层，生成所提取的依赖时间的文本信息的投影，所述依赖时间的文本信息的投影用于形成注意力关键表示；以及值表示计算器，从所述注意力关键表示和所述文本嵌入表示计算注意力值表示；以及使用基于注意力的解码器自回归地生成所述输入文本的低维音频表示，所述基于注意力的解码器包括：前网络块，接收表示音频帧的输入数据，以及包括一个或多个全连接层以对所述输入数据进行预处理；一个或多个解码器块的系列，每个解码器块均包括卷积块和注意力块，其中，卷积块生成查询，以及所述注意力块计算环境表示，作为使用所述注意力关键表示的至少一部分和来自所述卷积块的所述查询计算的注意力权重和所述注意力值表示的至少一部分的加权平均值；以及后网络块，包括全连接层，所述全连接层接收来自所述一个或多个解码器块的系列的输出，并且输出下一组低维音频表示。2.根据权利要求1所述的文本转语音系统，其中，所述基于注意力的解码器还包括：最终帧预测块，也接收来自所述一个或多个解码器块的系列的输出，并且输出是否已合成最后的音频帧的指示符。3.根据权利要求1所述的文本转语音系统，其中，所述基于注意力的解码器还包括：通过在固定的时间窗口上计算softmax来强迫所述注意力权重的单调性，所述固定的时间窗口从最后注意的时间帧开始并包括从所述最后注意的时间帧开始向前的一个或多个时间帧。4.根据权利要求1所述的文本转语音系统，还包括：转换器，将最终一组低维音频表示帧转换为表示所述输入文本的合成语音的信号。5.根据权利要求1所述的文本转语音系统，还包括：将表示一个或多个说话者音频特征的说话者指示符输入到所述编码器和所述基于注意力的解码器两者中，以促使合成语音具有所述说话者音频特征。6.根据权利要求1所述的文本转语音系统，其中，所述注意力块还包括将第一定位编码添加至所述注意力关键表示以及将第二定位编码添加至所述查询。7.根据权利要求1所述的文本转语音系统，其中，所述卷积块包括一维卷积滤波器、门控线性单元、比例因子和到所述卷积块的输入的剩余连接。8.用于训练卷积序列学习文本转语音(TTS)系统以从输入文本合成语音的计算机实施的方法，包括：使用嵌入模型将所述输入文本转换为一组可训练的嵌入表示；经由包括一个或多个卷积块的编码器，生成一组注意力关键表示，所述一组注意力关键表示与由所述编码器从所述一组可训练的嵌入表示中获得的数据中提取的依赖时间的文本信息相对应；使用所述一组可训练的嵌入表示和所述一组注意力关键表示，生成与所述一组注意力关键表示相对应的一组注意力值表示；以及从由基于注意力的解码器生成的环境表示生成一组声码器特征，所述一组声码器特征能够与声码器一起使用以产生表示合成语音的信号，所述基于注意力的解码器包括至少一个解码器块，所述至少一个解码器块包括因果性卷积块和注意力块，并且所述基于注意力的解码器使用所述一组注意力...

【专利技术属性】
技术研发人员：塞尔坎·安瑞克，平伟，彭开南，沙兰·纳朗，阿贾伊·卡恩纳恩，安德鲁·吉比安斯凯，乔纳森·赖曼，约翰·米勒，
申请(专利权)人：百度美国有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人