混合语言文语转换制造技术

技术编号:3046035 阅读:166 留言:0更新日期:2012-04-11 18:40
一种用于混合语言文语转换合成的方法,包括接收(220)两种语言的混合语言文本字符串。然后,分离步骤(23)将文本字符串内的文本分离为:(i)基于语音的字符的字符串,每一字符代表一个单一音节;(ii)或包含一个或多个单词的单词字符串,该单词由字母表的字母形成,并且一些单词代表多于一个音节。为每一基于音节的字符指定语音单元(240),并为每一单词指定音素(260)。选择(250,270)、拼接(275)并合成(285)语音单元和音素的单独的声学单元。

【技术实现步骤摘要】

本专利技术总的来说涉及文语转换(TTS)合成。具体的说,本专利技术适用于多语言文本合成发音的字母到语音的转换。
技术介绍
文语(TTS)转换,通常被称为拼接文语转换合成,允许电子装置接收输入文本字符串,并以合成语音的形式提供该字符串的转换的表示。然而,可能需要一种装置合成来自数目不定的接收文本字符串的语音,这将导致在提供高质量的实际合成语音时出现困难。一个难点是基于在字母到语音转换中,根据其他相邻字母以及在要合成的文本段中的位置,相同字母或字母组可能具有不同的发音以及元音重音/重点。出现了混合语言TTS合成,并将其应用到多个领域,例如呼叫中心和手持装置等。在下文中,混合语言TTS指的是用于可从文本字符串的分析中识别和检测两种或多种语言的语音合成技术。当考虑两种语言文本字符串的混合语言TTS时,一种包含大部分文本的占有优势的语言通常被称为主要语言,并且另一种是次要语言。通常,例如亚洲语言(普通话、广东话、日语、韩语、泰语等)的主要语言和英语混合。在基于拼接合成的TTS系统中,通过将若干语音段拼接在一起合成话语。虽然将拼接语音合成被认为是实现实际混合语言TTS系统的非常有希望的方法,但是识别语音单元、音素以及它们对应的声学单元还是有问题的。同样,在每一拼接点或在两个连续单元之间的听觉不连续性影响了合成的语音质量。此外,在每一拼接点的语音平滑滤波以及在两种语言的合成语音段之间的过渡的平滑滤波也影响了质量。在此包括权利要求的说明书中,术语“包括”、“包含”或类似术语意在表示非独占的包含,从而包括元素列表的方法或设备并不仅仅包括这些元素,还包括其他未列出的元素。
技术实现思路
根据本专利技术的一个方面,提供了一种用于混合语言文语转换合成的方法,该方法包括接收至少两种语言的混合语言文本字符串;将文本字符串内的文本分离成(i)至少一个基于音节的字符的字符串,每一字符都表示单一音节;(ii)或至少一个包含一个或多个单词的单词符列,这些单词由字母表的字母形成,至少一些单词表示多于一个音节;为每一基于音节的字符指定语音单元;为每一单词指定音素,一个或多个音素形成单独的音节;为语音单元和音素选择单独的声学单元;以及将单独的声学单元拼接具有对应于混合语言文本字符串的顺序的拼接的有序声学单元;以及使用拼接的有序声学单元执行语音合成。适当的,分离的文本还识别两种语言中的哪一个是文本字符串中的主要语言,哪一个是次要语言。优选的,包含主要语言的文本包括一个或多个伪间隔符(spacer),指示该文本距离次要语言的位置。适当的,指定语音单元包括通过最大匹配进行分段,进行最大匹配从而词典内的单词和匹配基于音节文本段的字符的最大数目的连续字符相匹配,该分段提供最大匹配单词。优选的,指定语音单元包括确定最大匹配单词的词组边界,以识别未用标点明确标识的自然语音停顿。适当的,指定语音单元包括为每一字符识别语音单元,这里为最大匹配单词的每一字符考虑包括的字符。适当的,存在和每一语音单元相关联的韵律信息。优选的,指定音素包括识别一个或多个未用标点明确标识的自然边界。适当的,根据部分言语模式,通过预测性单词集束识别自然边界。优选的,使用规则识别该部分言语模式,规则包括形容词+名词 ->自然边界;数字+量词->自然边界;动词+名词->自然边界;副词+动词->自然边界;名词+名词->自然边界;数字+名词->自然边界;动词+动词->自然边界;名词+连词+名词 ->自然边界。以及适当的,指定音素包括将单词分为形成子单词序列的子单词,并识别音节边界,由此为单独的音节指定一个或多个音素。识别音节边界优选的包括将各个子单词识别为辅音(C);元音(V);以及辅音组(CG)。适当的,识别音节边界包括以下规则VCV->V|CV;VV->V|V;当CC不在CG内时,VCCV->VC|CV;当CC在CG内时,VCCV->V|CCV;VCCCV->VC|CCV;VCCCCV->VC|CCCV,其中“|”表示音节边界。优选的,在拼接过程中,将声学单元插入各个指示文本距离次要语言的位置的伪间隔符。适当的,拼接的有序声学单元经历增强,该增强包括在拼接边界合并和声学单元相关联的激励信号。附图简要说明为了更易于理解本专利技术以及实际应用本专利技术,现在参考如附图所示的优选实施例在附图中附图说明图1是根据本专利技术的电子装置的示意性框图;图2显示可在图1的电子装置上执行的用于混合语言文语转换合成的方法的流程图;以及图3显示有向非循环图的例子。具体实施例方式参考图1,以无线电话的形式显示了电子装置100,其包括由总线103可操作地耦合到用户接口104的装置处理器102,用户接口通常是触摸屏或作为选择地是显示屏以及键区。电子装置100还具有话语语料库106,语音合成器110,非易失性存储器120,只读存储器118以及无线通信模块116,它们都通过总线103可操作地耦合到处理器102。语音合成器110具有和扬声器112耦合并驱动扬声器112的输出。语料库106包括单词或音素的表示以及相关的经过采样,数字化和处理的话语波形PUW。换句话说,如下所述,非易失性存储器120(存储模块)用于提供混合语言文语转换(TTS)合成。波形话语语料库106还包括以韵律特征的音素和重音/重点形式的经过采样和数字化的话语波形。正如本领域普通技术人员所熟知的,射频通信单元116通常是具有共用天线的组合接收机和发射机。射频通信单元116具有经射频放大器耦合到天线的收发机。该收发机还和组合的调制器/解调器耦合,并且该组合调制器/解调器将通信单元116耦合到处理器102。而且,在这个实施例中非易失性存储器120(存储模块)存储用户可编程的电话簿数据库Db,并且只读存储器118存储装置处理器102的操作代码(OC)。参考图2,其显示了用于混合语言文语转换合成的方法200。在开始步骤210之后,执行从存储器120接收混合语言文本字符串TS的步骤220。混合语言文本字符串TS可能来自由模块116或任意其它装置所接收的文本消息。同样,在这个说明书中所描述的混合语言文本字符串TS通常由至少两种语言形成,并且通过实例的方式,将在下面说明中文字符和字母表字符的组合;文本字符串TS还可包括数字0到9和/或标点符号。然后提供分离文本步骤230,用于分离文本字符串内的文本为(i)至少一个基于音节的字符(SBC)的字符串,每一字符表示单一音节;(ii)或至少一个包括一个或多个单词的单词符列,在下文中单词也被称为单词字符串(SOW),并且由字母表的字母组成,至少一些单词表示多于一个音节。通过本领域普通技术人员熟知的统一代码执行分离文本步骤230。构造统一代码,从而对英语字符(字母)编码使得每一字符由0000-007f的数字表示,并且对汉语字符编码使得每一字符由4e00-9fa5的数字存储。分离文本步骤还识别文本字符串中的两种语言中哪一种是主要语言,哪一种是次要语言。在此实施例(英语和汉语混合语言文本)中,这通过对汉语字符和英语单词计数来实现。如果汉语字符多于英本文档来自技高网
...

【技术保护点】
一种用于混合语言文语转换合成的方法,该方法包括:接收至少两种语言的混合语言文本字符串;将文本字符串内的文本分离成:(i)至少一个基于音节的字符的字符串,每一字符都表示单一音节;(ii)或至少一个包含一个或多个由字母表的字母形成的单词的单词符列,至少一些单词表示多于一个音节;为每一基于音节的字符指定语音单元;为每一单词指定音素,一个或多个音素形成单独的音节;为语音单元和音素选择单独的声学单元;以及将单独的声学单元拼接为具有对应于混合语言文本字符串的顺序的拼接的有序声学单元;以及使用拼接的有序声学单元执行语音合成。

【技术特征摘要】
1.一种用于混合语言文语转换合成的方法,该方法包括接收至少两种语言的混合语言文本字符串;将文本字符串内的文本分离成(i)至少一个基于音节的字符的字符串,每一字符都表示单一音节;(ii)或至少一个包含一个或多个由字母表的字母形成的单词的单词符列,至少一些单词表示多于一个音节;为每一基于音节的字符指定语音单元;为每一单词指定音素,一个或多个音素形成单独的音节;为语音单元和音素选择单独的声学单元;以及将单独的声学单元拼接为具有对应于混合语言文本字符串的顺序的拼接的有序声学单元;以及使用拼接的有序声学单元执行语音合成。2.如权利要求1的所述方法,其中,分离文本识别两种语言中的哪一种是文本字符串内的主要语言,哪一种是次要语言。3.如权利要求1的所述方法,其中,包含主要语言的文本包括一个或多个指示该文本距离次要语言的位置的伪间隔符。4.如权利要求1的所述方法,其中,指定语音单元包括通过最大匹配进行分段,进行最大匹配使得词典内的单词和最大数目的连续字符相匹配,并且最大数目的连续字符是和基于音节的字符文本段相匹配的最大数目连续字符,该分段提供最大匹配单词。5.如权利要求4的所述方法,其中,指定语音单元包括,确定最大匹配单词的词组边界,以识别未由标点明确标识的自然语音停顿。6.如权利要求5的所述方法,其中,指定语音单元包括,为每一字符识别语音单元,其中为最大匹配单词的每一字符考虑包括的字符。7.如权利要求6的所述方法,其中,存在和每一语音单元相...

【专利技术属性】
技术研发人员:岳东剑陈桂林俞振利祖漪清
申请(专利权)人:纽安斯通信有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利