【技术实现步骤摘要】
语音合成单元选择
本公开涉及数据处理,且更具体地涉及文本到语音系统、其计算机实现的方法和非暂时计算机存储介质。
技术介绍
文本到语音(text-to-speech)系统可以合成用于可听地呈现给用户的文本数据。例如,文本到语音系统可以接收指示文本到语音系统应当生成文本消息或电子邮件的合成数据的指令。文本到语音系统可以向扬声器提供合成数据,以使来自文本消息或电子邮件的内容的可听地呈现给用户。
技术实现思路
在一些实施方式中,文本到语音系统使用单元选择处理来合成音频数据。文本到语音系统可以确定语音单元的序列,并联系语音单元以形成合成音频数据。作为单元选择处理的一部分,文本到语音系统创建包括要合成的每个言语元素的多个候选语音单元的格子(lattice)。创建格子包括从语音单元的大语料库中选择格子的候选语音单元的处理。为了确定哪个候选语音单元要包括在格子中,文本到语音系统可以使用目标成本和联合成本(joincost)两者。通常,目标成本指示特定语音单元有多准确地表示要合成的言语单元(phoneticunit)。联合成本可以指示特定语音单元的声学特性有多适合在格子中表示的一个或多个其他语音单元。通过使用联合成本来选择格子的候选语音单元,文本到语音系统可以生成包括表示更自然的发音合成语音的路径的格子。文本到语音系统可以使用语音单元之间的距离、在当前选择的路径中的其他语音单元的声学参数、目标成本或它们的两个或更多的组合来选择要包括在格子中的语音单元。例如,文本到语音系统可以确定当前选择的路径中的一个或多个语音单元的声学参数。文本到语音系统可以使用所确定的声学参数和候选语音单元 ...
【技术保护点】
1.一种非暂时计算机存储介质,其编码有指令,所述指令当由文本到语音系统的一个或多个计算机执行时,使得所述一个或多个计算机执行操作,所述操作包括:由文本到语音系统的一个或多个计算机接收指示用于语音合成的文本的数据;由文本到语音系统的一个或多个计算机确定每个表示文本的相应部分的文本单元的序列,所述文本单元的序列包括至少第一文本单元、然后第二文本单元;由文本到语音系统的一个或多个计算机确定每个表示文本单元的序列的语音单元的多个路径,其中确定语音单元的多个路径包括:从语音单元语料库中选择包括表示第一文本单元的语音合成数据的第一语音单元;从所述语音单元语料库中选择包括表示所述第二文本单元的语音合成数据的多个第二语音单元,基于(i)联系所述第二语音单元与第一语音单元的联合成本和(ii)指示第二语音单元相应于第二文本单元的程度的目标成本来确定所述多个第二语音单元中的每一个;以及定义从所选择的第一语音单元到多个第二语音单元中的每一个第二语音单元的路径,以包括在语音单元的多个路径中;以及由文本到语音系统的一个或多个计算机根据从多个路径中选择的路径提供合成语音数据。
【技术特征摘要】
2017.03.14 IB PCT/GR2017/0000121.一种非暂时计算机存储介质,其编码有指令,所述指令当由文本到语音系统的一个或多个计算机执行时,使得所述一个或多个计算机执行操作,所述操作包括:由文本到语音系统的一个或多个计算机接收指示用于语音合成的文本的数据;由文本到语音系统的一个或多个计算机确定每个表示文本的相应部分的文本单元的序列,所述文本单元的序列包括至少第一文本单元、然后第二文本单元;由文本到语音系统的一个或多个计算机确定每个表示文本单元的序列的语音单元的多个路径,其中确定语音单元的多个路径包括:从语音单元语料库中选择包括表示第一文本单元的语音合成数据的第一语音单元;从所述语音单元语料库中选择包括表示所述第二文本单元的语音合成数据的多个第二语音单元,基于(i)联系所述第二语音单元与第一语音单元的联合成本和(ii)指示第二语音单元相应于第二文本单元的程度的目标成本来确定所述多个第二语音单元中的每一个;以及定义从所选择的第一语音单元到多个第二语音单元中的每一个第二语音单元的路径,以包括在语音单元的多个路径中;以及由文本到语音系统的一个或多个计算机根据从多个路径中选择的路径提供合成语音数据。2.根据权利要求1所述的计算机存储介质,其中确定每个表示所述文本的相应部分的文本单元的序列包括确定文本单元的序列,所述文本单元每个表示与由其他文本单元表示的文本的部分分离的、文本的不同部分。3.根据权利要求1所述的计算机存储介质,其中,根据从所述多个路径中选择的路径提供所述合成语音数据包括提供所述合成语音数据以使得设备生成所述文本的可听数据。4.根据权利要求1所述的计算机存储介质,所述操作包括:从语音单元语料库中选择两个或更多起始语音单元,每个起始语音单元包括表示文本单元的序列中的、具有在文本串的起始处的位置的起始文本单元的语音合成数据。5.根据权利要求4所述的计算机存储介质,其中:选择两个或更多起始语音单元包括选择预定量的起始语音单元;以及确定每个表示文本单元的序列的语音单元的多个路径包括确定预定量的路径,所述操作包括:从预定量的路径中选择提供合成语音数据的路径。6.根据权利要求5所述的计算机存储介质,其中:所述多个第二语音单元包括两个或更多第二语音单元;以及定义从所选择的第一语音单元到多个第二语音单元中的每一个第二语音单元的路径包括为包括表示第一文本单元的语音合成数据的另一第一语音单元确定不向包括另一第一语音单元的路径添加任何附加语音单元。7.根据权利要求6所述的计算机存储介质,所述操作包括:为第一文本单元选择每个包括表示第一文本单元的语音合成数据的预定量的第一语音单元;以及为第二文本单元选择每个包括表示第二文本单元的语音合成数据的预定量的第二语音单元,基于(i)联系第二文本单元和相应的第一语音单元的联合成本和(ii)指示第二语音单元相应于第二文本单元的程度的目标成本来确定所述预定量的第二语音单元的每个。8.根据权利要求7所述的计算机存储介质,所述操作包括:对于每个包括表示第二单元的语音合成数据的第二预定量的第二语音单元,确定(i)联系第二文本单元和相应的第一语音单元的联合成本和(ii)指示第二语音单元相应于第二文本单元的程度的目标成本,其中:所述第二预定量大于所述预定量;以及选择所述预定量的第二语音单元包括使用确定的联合成本和确定的目标成本从第二预定量的第二语音单元中选择预定量的第二语音单元。9.如权利要求4所述的计算机存储介质,其中:所述第一文本单元具有在文本单元的序列中的第一位置;所述第二文本单元具有在文本单元的序列中的在所述第一位置之后、没有任何中间位置的第二位置;以及从所述语音单元语料库中选择多个第二语音单元包括:使用(i)联系所述第二语音单元与所述第一语音单元的数据的联合成本和来自所述两个或更多起始语音单元的相应的起始语音单元、以及(ii)指示所述第二语音单元相应于所述第二文本单元的程度的所述目标成本,来从所述语音单元语料库中选择所述多个第二语音单元。10.根据权利要求9所述的计算机存储介质,所述操作包括:确定包括所述文本单元的序列中的每个文本单元的所选择的语音单元直到所述第一位置的路径,其中所选择的语音单元包括所述第一语音单元和所述相应的起始语音单元;为所述路径中的所选择的语音单元中的每一个确定第一声学参数;以及对于所述多个第二语音单元中的每一个,使用所述路径中的所选择的语音单元中的每一个的第一声学参数和所述第二语音单元的第二声学参数来确定所述联合成本。11.根据权利要求10所述的计算机存储介质,其中,对于所述多个第二语音单元中的每一个确定所述联合成本包括:对于两个或更多第二语音单元中的每一个,使用路径中的所选择的语音单元中的每一个的所述第一声学参数和所述第二语音单元的第二声学参数来同时确定所述联合成本。12.一种文本到语音系统,包括一个或多个计算机和一个或多个存储设备,其上存储有指令,所述指令在由所述一个或多个计算机执行时可操作以使所述一个或多个计算机执行操作,所述操作包括:由文本到语音系统的一个或多个计算机接收指示用于语音合成的文本的数据;由所述文本到语音系统的所述一个或多个计算机确定每个表示文本的相应部分的文本单元的序列,所述文本单元的序列包括至少第一文本单元、然后第二文本单元;...
【专利技术属性】
技术研发人员:I阿吉奥米尔詹纳基斯,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。