当前位置: 首页 > 专利查询>微软公司专利>正文

基于HMM的双语(普通话-英语)TTS技术制造技术

技术编号:7180364 阅读:195 留言:0更新日期:2012-04-11 18:40
一种用于基于一种或多种语言的文本来生成语音的示例性方法,该方法包括提供两种或更多语言的音素集、训练包括跨语言状态级共享的多语言HMM、接收该多语言HMM的语言中的一种或多种语言的文本、以及至少部分地基于该多语言HMM来生成对应于所接收到的文本的语音。其他示例性技术包括第一语言的决策树和第二语言的决策树之间的映射和可任选地反方向的映射、以及对多语言文本-语音系统的Kullback-Leibler散度分析。

【技术实现步骤摘要】
基于HMM的双语(普通话-英语)TTS技术本申请是国际申请号为PCT/US2008/073563,国际申请日为2008年8月19日,进入中国国家阶段的申请号为200880103469. 0,名称为“基于HMM的双语(普通话-英语) TTS技术”的专利技术专利申请的分案申请。背景虽然文本-语音(TTS)合成质量近年来已极大地提高,但各种电信应用程序(例如,信息询问、预约和预定、以及电子邮件阅读)要求比现有TTS系统所能够提供的更高的合成质量。具体而言,随着全球化及其伴随的语言混合,这些应用程序能够从其中一个引擎能够合成多种语言或甚至混合语言的多语言TTS系统中受益。大多数常规TTS系统只能够处理单一语言,其中语音数据库中的句子由单个说母语的人来发音。尽管多语言文本可通过在每一种语言改变时切换语音或引擎来正确地阅读,但其中语言改变在句子内作为单词或短语发生的代码切换文本实际上是不可行的。此外,随着移动电话或嵌入式设备的广泛使用,语音合成器的覆盖区域成为基于这些设备的关于应用程序的因素。对多语言TTS系统的研究表明音素覆盖可通过收集多语言语音数据来实现,但语言专用信息(例如,专用文本分析)也是必需的。已经在多语言或语言无关语音识别和合成中尝试了使用最小音素库存来覆盖受影响的语言的所有音素的全局音素集。这一方法采用按音素相似性的音素共享,该音素相似性通过数据驱动聚类方法或者由国际音标字母表 (IPA)定义的音节特征来测量。存在对TTS系统的小覆盖区域方面的强烈兴趣,注意基于隐马尔可夫模型的语音合成往往更有希望。某些隐马尔可夫模型(HMM)合成器可具有相对较小的覆盖区域(例如,彡2MB),这使其适用于嵌入式系统。具体而言,这些HMM合成器已经成功地应用于许多单语的语音合成,例如,英语、日语和普通话。这一 HMM方法已经出于多语言的目的而应用,其中首先通过使用来自若干说不同语言的说话者的混合语音来训练平均语音并且然后使该平均语音对特定说话者自适应。因此,该特定说话者能够说包含在训练数据中的所有语言。通过全球化,嵌在普通话发言中的英语单词或短语在中国的学生和受过教育的人中正在变得越来越普遍地使用。然而,普通话和英语属于不同的语系;这些语言是高度无关的,这表现在基于对其IPA符号的检查,能够一起共享的音素很少。常规上,基于由双语说话者说出的预先记录的普通话和英语句子来构建双语(普通话-英语)TTS,其中该系统的单元选择模块是跨这两种语言共享的,而来自这两种不同语言的音素彼此不共享。这一方法具有某些缺点。这一系统的覆盖区域太大,即,大约是单一语言系统的大小的两倍。实际上,找到足够数量的专业双语说话者来为各种应用程序构建多个双语音型也不容易。此处所讨论的各种示例性技术涉及多语言TTS系统。与每一种语言需要单独的 TTS系统的现有技术相比,这些技术能够减小TTS系统的覆盖区域。概述一种用于基于一种或多种语言的文本来生成语音的示例性方法,该方法包括提供两种或更多语言的音素集、训练包括跨语言状态级共享的多语言HMM、接收该多语言HMM的语言中的一种或多种语言的文本、以及至少部分地基于该多语言HMM来生成对应于所接收到的文本的语音。其他示例性技术包括第一语言的决策树和第二语言的决策树之间的映射和可任选地反方向的映射、以及对多语言文本-语音系统的Kullkick-Leibler散度分析。附图简述参考附图描述了非限制性的和非穷尽的实施例,其中除非另外指定,否则在各个视图中相同的附图标记指示相同的部分。附图说明图1是包括语音-文本(STT)和文本-语音(TTS)的文本和语音方法的图示。图2是用于英语的TTS方法和系统以及用于普通话的TTS方法和系统的图示。图3是示例性多语言TTS方法和系统的图示。图4是确定英语和普通话的共享音素的示例性方法的图示。图5是使用KLD来确定共享在英语音素和普通话音素之间是否切实可行的示例性技术的图示。图6是用于确定共享在英语子音素和普通话子音素之间是否切实可行的示例性方法的图示。图7是用于确定共享在英语复杂音素和普通话音素对之间是否切实可行的示例性方法的图示。图8是用于上下文无关状态共享的示例性技术的图示。图9是用于上下文相关状态共享的示例性技术的图示。图10是用于语音合成的示例性技术的图示。图11是基线系统以及用于英语和普通话的两个示例性系统的图示。图12是用于将示例性系统与图11的基线系统进行比较的一系列表格和图表。图13是将普通说话者的语音扩展到“外国”语言的示例性技术的图示。图14是用于学习语言的示例性技术的图示。图15是可用于实现此处所讨论的各种示例性方法中的部分或全部的示例性计算设备的各个组件的图示。详细描述此处描述了用于多语言TTS系统的技术。这些技术可适用于使用概率模型的多种 TTS方法中的任一种。虽然参考用于英语和普通话的基于HMM的方法来描述各个示例,但各示例性技术可广泛地适用于其他语言和用于不止两种语言的TTS系统。此处描述了用于声音共享的若干示例性技术。一种使用基于IPA的音素检查的方法适用于发现来自英语和普通话的某些音素是可共享的。另一种示例性方法展示在子音素产生级存在声音相似性,这也是可共享的。另外,复杂音素可由两个或三个简单音素和众多音位变体来呈现,这些复杂音素在特定音素上下文中使用,提供更多的在普通话和英语之间共享音素的机会。参考上下文无关性和上下文相关性来讨论各种示例性技术。一种特定的示例性技术包括双语(普通话-英语)TTS系统中的上下文相关HMM状态共享。另一种特定的示例性技术包括状态级映射以便进行新语言合成而不必依赖于特定说话者的新语言语音。更具体而言,说话者的另一种语言的语音映射到新语言的声音以生成该新语言的语音。因此,这一方法可生成说话者的新语言语音而无需记录该说话者的新语言语音。这一技术通过合成来扩展用户的言语能力。一种示例性方法以基于HMM的语音合成框架为基础。在该框架中,谱包络、基频和状态持续时间同时由对应的HMM来建模。对于给定文本序列,然后在最大似然(ML)意义上从经训练的HMM中生成语音参数迹线和对应的信号。各种示例性技术可用于构建基于HMM的双语(普通话-英语)TTS系统。一种特定的示例性技术包括使用语言专用和语言无关问题,这些问题是为在一个单个决策树中跨两种语言聚类状态而设计的。试验结果表明具有跨语言上下文相关HMM状态共享的示例性 TTS系统胜过其中一起使用两个单独的语言相关HMM的简单基线系统。另一种示例性技术包括基于Kullback-Leibler偏差(KLD)来进行跨语言状态映射以便使用英语决策树中的模型参数来合成普通话语音。试验结果表明经由这一方法合成的普通话语音是高度可理解的。一种示例性技术可通过允许学生使用该学生的母语语音来生成外语语音来增强学习。这一技术使用例如使用天才双语说话者来建立的映射。根据这一技术,虽然来自说话者母语,但在使用学生自己的语音来合成外语时,该学生可以更容易地理解该外语。这一技术可任选地包括外语补充,例如,当学生变得更精通时,该学生可提供外语语音。图1示出了文本和语音方法100,该方法包括语音-文本(STT)方法110和文本-语音(TTS)方法120。文本101可使用IPA 102来按音素表示。在说出本文档来自技高网...

【技术保护点】
1.一种至少部分地由计算机实现的用于基于文本来生成语音的方法,所述方法包括:构建第一语言专用决策树;构建第二语言专用决策树;将来自所述第一树的叶节点映射到所述第二树的叶节点;接收所述第二语言的文本;以及至少部分地基于将来自所述第一树的叶节点映射到所述第二树的叶节点来生成对应于所接收到的文本的所述第二语言的语音。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:Y·钱F·KP·宋
申请(专利权)人:微软公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1