将文本转换为语音的系统及其存储介质技术方案

技术编号:28379737 阅读:11 留言:0更新日期:2021-05-08 00:07
本公开涉及将文本转换为语音的系统及其存储介质。用于从文本生成语音的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。系统之一包括一个或多个计算机和存储指令的一个或多个存储设备,当指令被一个或多个计算机执行时,使得一个或多个计算机实施:序列到序列递归神经网络,其被配置为:接收以特定自然语言的字符序列,并处理该字符序列以生成以特定自然语言的字符序列的言语表达的谱图;以及子系统,其被配置为:接收以特定自然语言的字符序列,并将该字符序列作为输入提供给序列到序列递归神经网络,以获得以特定自然语言的字符序列的言语表达的谱图作为输出。

【技术实现步骤摘要】
将文本转换为语音的系统及其存储介质分案说明本申请属于申请日为2018年3月29日的中国专利技术专利申请201880021978.2的分案申请。相关申请的交叉引用本申请是于2017年3月29日提交的希腊专利申请第20170100126号的非临时申请,并要求其优先权,该申请的全部内容通过引用结合于此。
本说明书涉及使用神经网络将文本转换为语音。
技术介绍
神经网络是机器学习模型,它采用非线性单元的一层或多层来预测接收输入的输出。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一层(即下一隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从接收输入生成输出。一些神经网络是递归神经网络。递归神经网络是接收输入序列并从输入序列生成输出序列的神经网络。具体地,递归神经网络可以在计算在当前时间步(timestep)中的输出时使用来自前一时间步的网络的一些或全部内部状态。递归神经网络的一个示例是包括一个或多个长短期(longshortterm,LSTM)存储器块的LSTM神经网络。每个LSTM存储器块可以包括一个或多个单元,每个单元包括输入门、遗忘门和输出门,其允许单元存储单元的先前状态,例如,用于在生成电流激活时使用或被提供给LSTM神经网络的其他组件。
技术实现思路
本说明书描述了在一个或多个位置的一个或多个计算机上实施为将文本转换为语音的计算机程序的系统。一般而言,一个创新方面可以体现在一种系统,该系统包括一个或多个计算机和存储指令的一个或多个存储设备,当由一个或多个计算机执行该指令时,使得一个或多个计算机实施:序列到序列递归神经网络,其被配置为:接收以特定自然语言的字符序列,并处理字符序列以生成以特定自然语言的字符序列的言语表达的谱图;以及子系统,被配置为:接收以特定自然语言的字符序列,并将该字符序列作为输入提供给序列到序列递归神经网络,以获得以特定自然语言的字符序列的言语表达的谱图作为输出。子系统还可以被配置为使用以特定自然语言的输入的字符序列的言语表达的谱图来生成语音;并且提供生成的语音用于回放。本说明书中描述的主题可以在特定实施例中实施,以便实现一个或多个以下优点。通过在帧级(framelevel)生成语音,本说明书中描述的系统可以比其他系统更快地从文本生成语音,同时生成具有相当的质量或甚至更好质量的语音。另外,如下文将更详细解释的,本文描述的系统可以减小模型大小、训练时间和推理时间,并且还可以显著提高收敛速度。本说明书中描述的系统可以生成高质量的语音,而不需要手动设计的语言特征或复杂组件,例如,不需要隐马尔可夫模型(HiddenMarkovModel,HMM)对准器,从而降低复杂性并使用更少的计算资源,同时仍然生成高质量的语音。本说明书主题的一个或多个实施例的细节在附图和以下描述中阐述。从说明书、附图和权利要求书中,主题的其他特征、方面和优点将变得显而易见。附图说明图1示出了示例文本到语音转换系统。图2示出了示例CBHG神经网络。图3是用于将字符序列转换为语音的示例过程的流程图。图4是用于从字符序列的言语表达的压缩谱图生成语音的示例过程的流程图。不同附图中相同的附图标号和名称表示相同的元素。具体实施方式图1示出了示例文本到语音转换系统100。文本到语音转换系统100是实施为在一个或多个位置的一个或多个计算机上的计算机程序的系统的示例,在其中可以实施下面描述的系统、组件和技术。系统100包括子系统102,其被配置为接收输入文本104作为输入,并处理输入文本104以生成语音120作为输出。输入文本104包括以特定自然语言的字符序列。字符序列可以包括字母、数字、标点符号和/或其他特殊字符。输入文本104可以是不同长度的字符序列。为了处理输入文本104,子系统102被配置为与端到端文本到语音模型150交互,该模型150包括序列到序列递归神经网络106(以下称为“seq2seq网络106”)、后处理神经网络108和波形合成器110。在子系统102接收到包括以特定自然语言的字符序列的输入文本104之后,子系统102将该字符序列作为输入提供给seq2seq网络106。seq2seq网络106被配置为从子系统102接收字符序列,并处理该字符序列以生成以特定自然语言的字符序列的言语表达的谱图。特别地,seq2seq网络106使用(i)编码器神经网络112,以及(ii)基于注意力的解码器递归神经网络118来处理字符序列,该编码器神经网络112包括编码器预网(pre-net)神经网络114和编码器CBHG神经网络116。字符序列中的每个字符都可以表示为独热向量(one-hotvector),并嵌入到连续向量中。也就是说,子系统102可以将序列中的每个字符表示为独热向量,然后在将序列作为输入提供给seq2seq网络106之前,生成字符的嵌入,即向量或数值的其他有序集合。编码器预网神经网络114被配置为接收序列中的每个字符的相应嵌入,并处理每个字符的相应嵌入以生成字符的变换的嵌入。例如,编码器预网神经网络114可以对每个嵌入应用一组非线性变换,以生成变换的嵌入。在一些情况下,编码器预网神经网络114包括利用丢失以在训练期间提高收敛速度并改善系统的泛化能力的瓶颈神经网络层。编码器CBHG神经网络116被配置为从编码器预网神经网络206接收变换的嵌入,并处理变换的嵌入以生成字符序列的编码表示。编码器CBHG神经网络116包括CBHG神经网络,这将在下面参考图2更详细地描述。本文描述的编码器CBHG神经网络112的使用可以减少过拟合。另外,在与例如多层RNN编码器相比时,它可以得到更少的发音错误。基于注意力的解码器递归神经网络118(本文称为“解码器神经网络118”)被配置为接收解码器输入序列。对于序列中的每个解码器输入,解码器神经网络118被配置为处理解码器输入和由编码器CBHG神经网络116生成的编码表示,以生成字符序列的谱图的多个帧。也就是说,不是在每个解码器步(decoderstep)中生成(预测)一个帧,而是解码器神经网络118生成谱图的r个帧,其中r是大于1的整数。在许多情况下,r个帧的集合之间没有重叠。特别地,在解码器步t中,将在解码器步t-1中生成的r个帧的至少最后一帧作为输入被馈送到在解码器步t+1中的解码器神经网络118。在一些实施方式中,在解码器步t-1中生成的所有r个帧可以作为输入被馈送到在解码器步t+1中的解码器神经网络118。用于第一解码器步的解码器输入可以是全零帧(即<GO>帧)。对编码表示的注意力被应用于所有解码器步,例如,使用传统的注意力机制。解码器神经网络118可以使用具有线性激活的完全连接的神经网络层来同时预测给定解码器步中的r个帧。例如,为了预测5个帧,每个帧是80-D(80-维)向量,解码器神经网络118使用具有线性激活的完全连接的神经网络层来预测400-D向量并对4本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,所述方法用于使用包括序列到序列递归神经网络的文本到语音转换系统从特定自然语言的字符序列生成所述特定自然语言的所述字符序列的言语表达的谱图,其中,所述序列到序列递归神经网络包括编码器神经网络和基于注意力的解码器递归神经网络,所述方法包括:/n在所述编码器神经网络处接收所述特定自然语言的所述字符序列;/n使用所述编码器神经网络处理所述字符序列以生成序列中的每个字符的相应编码表示;/n接收解码器输入序列;/n对于所述解码器输入序列中的每个解码器输入,使用所述基于注意力的解码器神经网络处理该解码器输入和所述编码表示以生成所述谱图的多个帧;以及/n从所述特定自然语言的所述字符序列的言语表达的所述谱图生成波形。/n

【技术特征摘要】
20170329 GR 201701001261.一种计算机实现的方法,所述方法用于使用包括序列到序列递归神经网络的文本到语音转换系统从特定自然语言的字符序列生成所述特定自然语言的所述字符序列的言语表达的谱图,其中,所述序列到序列递归神经网络包括编码器神经网络和基于注意力的解码器递归神经网络,所述方法包括:
在所述编码器神经网络处接收所述特定自然语言的所述字符序列;
使用所述编码器神经网络处理所述字符序列以生成序列中的每个字符的相应编码表示;
接收解码器输入序列;
对于所述解码器输入序列中的每个解码器输入,使用所述基于注意力的解码器神经网络处理该解码器输入和所述编码表示以生成所述谱图的多个帧;以及
从所述特定自然语言的所述字符序列的言语表达的所述谱图生成波形。


2.根据权利要求1所述的方法,其中,所述编码器神经网络包括编码器预网神经网络以及编码器CBHG神经网络,并且
其中,使用所述文本到语音转换系统的所述编码器神经网络处理所述字符序列以生成序列中的每个字符的相应编码表示包括:
使用所述编码器预网神经网络接收序列中的每个字符的相应嵌入,
使用所述编码器预网神经网络处理所述序列中的每个字符的所述相应嵌入以生成该字符的相应变换的嵌入,以及
使用所述编码器CBHG神经网络处理所述序列中的每个字符的相应变换的嵌入以生成该字符的相应编码表示。


3.根据权利要求2所述的方法,其中,所述编码器CBHG神经网络包括1-D卷积滤波器组,随后是高速通道网络,并且随后是双向递归神经网络。


4.根据权利要求3所述的方...

【专利技术属性】
技术研发人员:S本吉奥Y王Z杨Z陈Y吴I阿吉奥米詹纳基斯RJ韦斯N杰特里RM里夫金RAJ克拉克QV勒RJ瑞安Y肖
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1