语音合成单元选择制造技术

技术编号:19024862 阅读:14 留言:0更新日期:2018-09-26 19:26
提供方法、系统和装置,包括计算机程序。方法包括:接收指示用于语音合成的文本的数据;确定每个表示文本的相应部分的文本单元的包括至少第一文本单元、然后第二文本单元的序列;确定每个表示文本单元的序列的语音单元的多个路径,该确定包括:从语音单元语料库中选择包括表示第一文本单元的语音合成数据的第一语音单元;从该语料库中选择包括表示第二文本单元的语音合成数据的多个第二语音单元,基于联系第二语音单元与第一语音单元的联合成本和指示第二语音单元相应于第二文本单元的程度的目标成本来确定每个第二语音单元;以及定义从所选第一语音单元到第二语音单元的路径,以包括在语音单元的多个路径中;以及根据所选路径提供合成语音数据。

【技术实现步骤摘要】
语音合成单元选择
本公开涉及数据处理,且更具体地涉及文本到语音系统、其计算机实现的方法和非暂时计算机存储介质。
技术介绍
文本到语音(text-to-speech)系统可以合成用于可听地呈现给用户的文本数据。例如,文本到语音系统可以接收指示文本到语音系统应当生成文本消息或电子邮件的合成数据的指令。文本到语音系统可以向扬声器提供合成数据,以使来自文本消息或电子邮件的内容的可听地呈现给用户。
技术实现思路
在一些实施方式中,文本到语音系统使用单元选择处理来合成音频数据。文本到语音系统可以确定语音单元的序列,并联系语音单元以形成合成音频数据。作为单元选择处理的一部分,文本到语音系统创建包括要合成的每个言语元素的多个候选语音单元的格子(lattice)。创建格子包括从语音单元的大语料库中选择格子的候选语音单元的处理。为了确定哪个候选语音单元要包括在格子中,文本到语音系统可以使用目标成本和联合成本(joincost)两者。通常,目标成本指示特定语音单元有多准确地表示要合成的言语单元(phoneticunit)。联合成本可以指示特定语音单元的声学特性有多适合在格子中表示的一个或多个其他语音单元。通过使用联合成本来选择格子的候选语音单元,文本到语音系统可以生成包括表示更自然的发音合成语音的路径的格子。文本到语音系统可以使用语音单元之间的距离、在当前选择的路径中的其他语音单元的声学参数、目标成本或它们的两个或更多的组合来选择要包括在格子中的语音单元。例如,文本到语音系统可以确定当前选择的路径中的一个或多个语音单元的声学参数。文本到语音系统可以使用所确定的声学参数和候选语音单元的声学参数、例如使用距离函数来确定联合成本,以将候选语音单元添加到一个或多个语音单元的当前选择的路径。在一些示例中,文本到语音系统可以使用语言参数确定将候选语音单元添加到当前选择的路径的目标成本。文本到语音系统可以确定候选语音单元包括语音合成数据的文本单元的语言参数,并且可以确定候选语音单元的语言参数。文本到语音系统可以使用语言参数来确定文本单元和候选语音单元之间的距离作为目标成本。文本到语音系统可以使用在表示语音单元的声学参数向量或语言参数向量之间的任何适当的距离函数。距离函数的一些示例包括概率、均方误差和Lp范数函数。文本到语音系统可以确定路径(例如当前选择的路径和具有不同语音单元的其他路径)的总成本,作为相应路径中的语音单元的成本的组合。文本到语音系统可以比较多个不同路径的总成本以确定具有最佳成本的路径,例如最低成本或最高成本总路径。在一些示例中,总成本可能是联合成本或联合成本与目标成本的组合。文本到语音系统可以选择具有最佳成本的路径,并使用来自最佳成本路径的单元来生成合成语音。文本到语音系统可以例如通过将合成语音的数据提供给用户设备或者在扬声器上呈现合成语音,提供用于输出的合成语音。文本到语音系统可以具有可以用于语音合成的语音单元的非常大的语料库。语音单元的非常大的语料库可以包括超过三十个小时的语音单元的数据,或者在一些实施方式中可以包括数百小时语音单元的数据。语音单元的一些示例包括双音素、音素、任何类型的语言原子,例如单词、音频块、或这些中的两个或更多的组合。语言原子、音频块或两者都可以是固定的或可变的大小。固定大小的音频块的一个例子是五毫秒音频帧。通常,本说明书中描述的主题的一个创新方面可以体现在方法中,该方法包括如下动作:由文本到语音系统的一个或多个计算机接收指示用于语音合成的文本的数据;由所述文本到语音系统的所述一个或多个计算机确定每个表示文本的相应部分的文本单元的序列,所述文本单元的序列包括至少第一文本单元、然后第二文本单元;由文本到语音系统的一个或多个计算机确定每个表示文本单元的序列的语音单元的多个路径,其中确定语音单元的多个路径包括:从语音单元语料库中选择包括表示第一文本单元的语音合成数据的第一语音单元;从所述语音单元语料库中选择包括表示所述第二文本单元的语音合成数据的多个第二语音单元,基于(i)联系(concatenate)所述第二语音单元与第一语音单元的联合成本和(ii)指示第二语音单元相应于第二文本单元的程度的目标成本来确定所述多个第二语音单元中的每一个;以及定义从所选择的第一语音单元到多个第二语音单元中的每一个第二语音单元的路径,以包括在语音单元的多个路径中;以及由文本到语音系统的一个或多个计算机根据从多个路径中选择的路径提供合成语音数据。该方面的其他实施例包括相应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序,每个被配置为执行所述方法的动作。可以将一个或多个计算机的系统配置为通过在操作中使得或导致系统执行动作的、安装在系统上的软件、固件、硬件或其组合来执行特定的操作或动作。一个或多个计算机程序可以被配置为通过包括在由数据处理装置执行时使装置执行动作的指令来执行特定操作或动作。上述和其它实施方案可以每个可选地、独立地或组合地包括一个或多个以下特征。确定每个表示文本的相应部分的文本单元的序列可以包括确定每个表示与由其他文本单元表示的文本的部分分离的、文本的不同部分的文本单元的序列。根据从多个路径中选择的路径提供合成语音数据可以包括提供合成语音数据以使设备生成用于文本的可听数据。在一些实施方式中,该方法可以包括从语音单元语料库中选择两个或更多起始语音单元,每个起始语音单元包括表示文本单元的序列中的具有在文本字符串的起始处的位置的起始文本单元的语音合成数据。选择两个或更多起始语音单元可以包括选择预定量的起始语音单元。确定每个表示文本单元的序列的语音单元的多个路径可以包括确定预定量的路径。该方法可以包括从预定量的路径中选择提供合成语音数据的路径。多个第二语音单元可以包括两个或更多第二语音单元。定义从所选择的第一语音单元到多个第二语音单元中的每一个第二语音单元的路径可以包括为包括表示第一文本单元的语音合成数据的另一第一语音单元确定不向包括另一第一语音单元的路径添加任何附加语音单元。该方法可以包括为第一文本单元选择每个包括表示第一文本单元的语音合成数据的预定量的第一语音单元;以及对于所述第二文本单元,选择每个包括表示所述第二文本单元的语音合成数据的预定量的第二语音单元,基于(i)联系第二语音单元与相应的第一语音单元的联合成本和(ii)指示第二语音单元相应于第二文本单元的程度的目标成本来确定所述预定量的第二语音单元中的每一个。在一些实施方式中,该方法可以包括:对于每个包括表示第二单元的语音合成数据的第二预定量的第二语音单元,确定(i)联系第二语音单元与相应的第一语音单元的联合成本和(ii)指示第二语音单元相应于第二文本单元的程度的目标成本。第二预定量可以大于预定量。选择预定量的第二语音单元可以包括使用确定的联合成本和确定的目标成本从第二预定量的第二语音单元中选择预定量的第二语音单元。第一文本单元可以具有文本单元的序列中的第一位置。第二文本单元可以具有文本单元的序列中的在第一位置之后、没有任何中间位置的第二位置。从语音单元语料库中选择多个第二语音单元可以包括:使用(i)联系第二语音单元与第一语音单元的数据的联合成本和来自两个或更多起始语音单元的相应起始语音单元、和(ii)指示第二语音单元相应于第二文本单元本文档来自技高网...

【技术保护点】
1.一种非暂时计算机存储介质,其编码有指令,所述指令当由文本到语音系统的一个或多个计算机执行时,使得所述一个或多个计算机执行操作,所述操作包括:由文本到语音系统的一个或多个计算机接收指示用于语音合成的文本的数据;由文本到语音系统的一个或多个计算机确定每个表示文本的相应部分的文本单元的序列,所述文本单元的序列包括至少第一文本单元、然后第二文本单元;由文本到语音系统的一个或多个计算机确定每个表示文本单元的序列的语音单元的多个路径,其中确定语音单元的多个路径包括:从语音单元语料库中选择包括表示第一文本单元的语音合成数据的第一语音单元;从所述语音单元语料库中选择包括表示所述第二文本单元的语音合成数据的多个第二语音单元,基于(i)联系所述第二语音单元与第一语音单元的联合成本和(ii)指示第二语音单元相应于第二文本单元的程度的目标成本来确定所述多个第二语音单元中的每一个;以及定义从所选择的第一语音单元到多个第二语音单元中的每一个第二语音单元的路径,以包括在语音单元的多个路径中;以及由文本到语音系统的一个或多个计算机根据从多个路径中选择的路径提供合成语音数据。

【技术特征摘要】
2017.03.14 IB PCT/GR2017/0000121.一种非暂时计算机存储介质,其编码有指令,所述指令当由文本到语音系统的一个或多个计算机执行时,使得所述一个或多个计算机执行操作,所述操作包括:由文本到语音系统的一个或多个计算机接收指示用于语音合成的文本的数据;由文本到语音系统的一个或多个计算机确定每个表示文本的相应部分的文本单元的序列,所述文本单元的序列包括至少第一文本单元、然后第二文本单元;由文本到语音系统的一个或多个计算机确定每个表示文本单元的序列的语音单元的多个路径,其中确定语音单元的多个路径包括:从语音单元语料库中选择包括表示第一文本单元的语音合成数据的第一语音单元;从所述语音单元语料库中选择包括表示所述第二文本单元的语音合成数据的多个第二语音单元,基于(i)联系所述第二语音单元与第一语音单元的联合成本和(ii)指示第二语音单元相应于第二文本单元的程度的目标成本来确定所述多个第二语音单元中的每一个;以及定义从所选择的第一语音单元到多个第二语音单元中的每一个第二语音单元的路径,以包括在语音单元的多个路径中;以及由文本到语音系统的一个或多个计算机根据从多个路径中选择的路径提供合成语音数据。2.根据权利要求1所述的计算机存储介质,其中确定每个表示所述文本的相应部分的文本单元的序列包括确定文本单元的序列,所述文本单元每个表示与由其他文本单元表示的文本的部分分离的、文本的不同部分。3.根据权利要求1所述的计算机存储介质,其中,根据从所述多个路径中选择的路径提供所述合成语音数据包括提供所述合成语音数据以使得设备生成所述文本的可听数据。4.根据权利要求1所述的计算机存储介质,所述操作包括:从语音单元语料库中选择两个或更多起始语音单元,每个起始语音单元包括表示文本单元的序列中的、具有在文本串的起始处的位置的起始文本单元的语音合成数据。5.根据权利要求4所述的计算机存储介质,其中:选择两个或更多起始语音单元包括选择预定量的起始语音单元;以及确定每个表示文本单元的序列的语音单元的多个路径包括确定预定量的路径,所述操作包括:从预定量的路径中选择提供合成语音数据的路径。6.根据权利要求5所述的计算机存储介质,其中:所述多个第二语音单元包括两个或更多第二语音单元;以及定义从所选择的第一语音单元到多个第二语音单元中的每一个第二语音单元的路径包括为包括表示第一文本单元的语音合成数据的另一第一语音单元确定不向包括另一第一语音单元的路径添加任何附加语音单元。7.根据权利要求6所述的计算机存储介质,所述操作包括:为第一文本单元选择每个包括表示第一文本单元的语音合成数据的预定量的第一语音单元;以及为第二文本单元选择每个包括表示第二文本单元的语音合成数据的预定量的第二语音单元,基于(i)联系第二文本单元和相应的第一语音单元的联合成本和(ii)指示第二语音单元相应于第二文本单元的程度的目标成本来确定所述预定量的第二语音单元的每个。8.根据权利要求7所述的计算机存储介质,所述操作包括:对于每个包括表示第二单元的语音合成数据的第二预定量的第二语音单元,确定(i)联系第二文本单元和相应的第一语音单元的联合成本和(ii)指示第二语音单元相应于第二文本单元的程度的目标成本,其中:所述第二预定量大于所述预定量;以及选择所述预定量的第二语音单元包括使用确定的联合成本和确定的目标成本从第二预定量的第二语音单元中选择预定量的第二语音单元。9.如权利要求4所述的计算机存储介质,其中:所述第一文本单元具有在文本单元的序列中的第一位置;所述第二文本单元具有在文本单元的序列中的在所述第一位置之后、没有任何中间位置的第二位置;以及从所述语音单元语料库中选择多个第二语音单元包括:使用(i)联系所述第二语音单元与所述第一语音单元的数据的联合成本和来自所述两个或更多起始语音单元的相应的起始语音单元、以及(ii)指示所述第二语音单元相应于所述第二文本单元的程度的所述目标成本,来从所述语音单元语料库中选择所述多个第二语音单元。10.根据权利要求9所述的计算机存储介质,所述操作包括:确定包括所述文本单元的序列中的每个文本单元的所选择的语音单元直到所述第一位置的路径,其中所选择的语音单元包括所述第一语音单元和所述相应的起始语音单元;为所述路径中的所选择的语音单元中的每一个确定第一声学参数;以及对于所述多个第二语音单元中的每一个,使用所述路径中的所选择的语音单元中的每一个的第一声学参数和所述第二语音单元的第二声学参数来确定所述联合成本。11.根据权利要求10所述的计算机存储介质,其中,对于所述多个第二语音单元中的每一个确定所述联合成本包括:对于两个或更多第二语音单元中的每一个,使用路径中的所选择的语音单元中的每一个的所述第一声学参数和所述第二语音单元的第二声学参数来同时确定所述联合成本。12.一种文本到语音系统,包括一个或多个计算机和一个或多个存储设备,其上存储有指令,所述指令在由所述一个或多个计算机执行时可操作以使所述一个或多个计算机执行操作,所述操作包括:由文本到语音系统的一个或多个计算机接收指示用于语音合成的文本的数据;由所述文本到语音系统的所述一个或多个计算机确定每个表示文本的相应部分的文本单元的序列,所述文本单元的序列包括至少第一文本单元、然后第二文本单元;...

【专利技术属性】
技术研发人员:I阿吉奥米尔詹纳基斯
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1