使用自动编码器的文本到语音合成制造技术

技术编号:19024864 阅读:38 留言:0更新日期:2018-09-26 19:26
本申请涉及使用自动编码器的文本到语音合成。用于使用自动编码器的文本到语音合成的方法、系统和计算机可读介质。在一些实施方式中,获得指示用于文本到语音合成的文本的数据。提供指示文本的语言单元的数据作为对编码器的输入。编码器被配置成基于语言信息,输出指示声学特性的语音单元表示。接收编码器输出的语音单元表示。语音单元被选择以表示语言单元,语音单元基于由编码器所输出的语音单元表示从语音单元合集当中来选择。提供用于包括所选择的语音单元的文本的经合成的话语的音频数据。

【技术实现步骤摘要】
使用自动编码器的文本到语音合成
本申请涉及使用自动编码器的文本到语音合成。相关申请的交叉引用本申请要求于2017年3月14日在希腊提交的希腊专利申请号20170100100在35U.S.C.§119下的优先权,其整体内容通过引用并入本文。
技术介绍
本说明书大体涉及文本到语音合成并且更特别地涉及使用神经网络的文本到语音合成。神经网络能够被用于执行文本到语音合成。典型地,文本到语音合成试图生成近似人类语音的声音的合成话语。
技术实现思路
在一些实施方式中,文本到语音系统包括被训练为自动编码器网络的一部分的编码器。编码器被配置成接收用于语音单元的语言信息(诸如用于单音或双音的标识符),并且作为响应生成指示语音单元的声学特性的输出。编码器的输出能够以单个大小的输出向量编码具有不同大小的语音单元的特性。为了选择在单元选择语音合成中使用的语音单元,语言单元的标识符能够作为对编码器的输入而被提供。编码器的结果的输出能够被用于从语音单元的语料库检索候选语音单元。例如,包括至少编码器的输出的向量能够与包括用于语料库中的语音单元的编码器输出相比较。在一些实施方式中,自动编码器网络包括语言编码器、声学编码器本文档来自技高网...

【技术保护点】
1.一种由文本到语音系统的一个或多个计算机所执行的方法,所述方法包括:由所述一个或多个计算机获得指示用于文本到语音合成的文本的数据;由所述一个或多个计算机提供指示所述文本的语言单元的数据作为对编码器的输入,所述编码器被配置成输出指示基于语言信息的声学特性的语音单元表示,其中,所述编码器被配置成提供通过机器学习训练所学习的语音单元表示;由所述一个或多个计算机接收所述编码器响应于接收作为对所述编码器的输入的指示所述语言单元的所述数据而输出的语音单元表示;由所述一个或多个计算机选择语音单元以表示所述语言单元,所述语音单元是基于由所述编码器所输出的所述语音单元表示而从语音单元合集当中被选择的;以及由所...

【技术特征摘要】
2017.03.14 GR 20170100100;2017.07.13 US 15/649,3111.一种由文本到语音系统的一个或多个计算机所执行的方法,所述方法包括:由所述一个或多个计算机获得指示用于文本到语音合成的文本的数据;由所述一个或多个计算机提供指示所述文本的语言单元的数据作为对编码器的输入,所述编码器被配置成输出指示基于语言信息的声学特性的语音单元表示,其中,所述编码器被配置成提供通过机器学习训练所学习的语音单元表示;由所述一个或多个计算机接收所述编码器响应于接收作为对所述编码器的输入的指示所述语言单元的所述数据而输出的语音单元表示;由所述一个或多个计算机选择语音单元以表示所述语言单元,所述语音单元是基于由所述编码器所输出的所述语音单元表示而从语音单元合集当中被选择的;以及由所述一个或多个计算机针对包括所选择的语音单元的所述文本的合成话语提供音频数据作为所述文本到语音系统的输出。2.根据权利要求1所述的方法,其中,所述编码器被配置成提供相同大小的语音单元表示来表示具有不同持续时间的语音单元。3.根据权利要求1所述的方法,其中,所述编码器被训练以从语言单元标识符推断语音单元表示,其中,由所述编码器输出的语音单元表示是具有相同固定长度的向量。4.根据权利要求1所述的方法,其中,所述编码器包括具有一个或多个长短期记忆层的经训练的神经网络。5.根据权利要求1所述的方法,其中,所述编码器包括被训练为自动编码器网络的一部分的神经网络,所述自动编码器网络包括所述编码器、第二编码器和解码器,其中:所述编码器被布置为响应于接收到指示语言单元的数据而产生语音单元表示;所述第二编码器被布置为响应于接收到指示语音单元的声学特征的数据而产生语音单元表示;以及所述解码器被布置为响应于从所述编码器或所述第二编码器接收到用于所述语音单元的语音单元表示而生成指示语音单元的声学特征的输出。6.根据权利要求5所述的方法,其中,所述编码器、所述第二编码器和所述解码器联合地被训练;以及其中,所述编码器、所述第二编码器和所述解码器每个包括一个或多个长短期记忆层。7.根据权利要求5所述的方法,其中,所述编码器、所述第二编码器和所述解码器使用成本函数联合地被训练,所述成本函数被配置成使以下各项最小化:输入到所述第二编码器的声学特征与由所述解码器所生成的声学特征之间的差;以及所述编码器的所述语音单元表示与所述第二编码器的所述语音单元表示之间的差。8.根据权利要求1所述的方法,还包括:基于(i)包括由所述编码器所输出的所述语音单元表示的第一向量与(ii)与所述语音单元合集中的语音单元相对应的第二向量之间的向量距离,选择用于所述语言单元的候选语音单元集合;以及生成包括与所选择的候选语音单元集合中的所述候选语音单元相对应的节点的点阵。9.根据权利要求8所述的方法,其中,选择所述候选语音单元集合包括:识别作为所述第一向量的最近邻居的预定数量的第二向量;以及选择与作为所述第一向量的最近邻居的所识别的预定数量的第二向量相对应的语音单元集合作为所述候选语音单元集合。10.根据权利要求1所述的方法,其中,用于所述语言单元的所述语音单元表示是用于第一语言单元的第一语音单元表示,其中,选择所述语音单元包括:获得用于紧接地在所述文本的音素表示中的所述第一语言单元之前或之后出现的第二语言单元的第二语音单元表示;通过将所述第一语音单元表示与所述第二语音单元表示连结来生成双音单元表示;以及选择基于所述双音语音单元表示来识别的双音语音单元以表示所述第一语言单元。11.一种系统,包括:一个或多个计算机;以及存储指令的一个或多个数据存储设备,所...

【专利技术属性】
技术研发人员:全炳河哈维尔·贡萨尔沃詹竣安扬尼斯·阿焦米尔詹纳基斯尹炳亮罗伯特·安德鲁·詹姆斯·克拉克雅各布·维特
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1