基于HMM的双语(普通话-英语)TTS技术制造技术

技术编号：7180364 阅读：195 留言：0更新日期：2012-04-11 18:40

一种用于基于一种或多种语言的文本来生成语音的示例性方法，该方法包括提供两种或更多语言的音素集、训练包括跨语言状态级共享的多语言HMM、接收该多语言HMM的语言中的一种或多种语言的文本、以及至少部分地基于该多语言HMM来生成对应于所接收到的文本的语音。其他示例性技术包括第一语言的决策树和第二语言的决策树之间的映射和可任选地反方向的映射、以及对多语言文本-语音系统的Kullback-Leibler散度分析。

全部详细技术资料下载

【技术实现步骤摘要】
基于HMM的双语(普通话-英语)TTS技术本申请是国际申请号为PCT/US2008/073563，国际申请日为2008年8月19日，进入中国国家阶段的申请号为200880103469. 0，名称为“基于HMM的双语(普通话-英语) TTS技术”的专利技术专利申请的分案申请。背景虽然文本-语音(TTS)合成质量近年来已极大地提高，但各种电信应用程序(例如，信息询问、预约和预定、以及电子邮件阅读)要求比现有TTS系统所能够提供的更高的合成质量。具体而言，随着全球化及其伴随的语言混合，这些应用程序能够从其中一个引擎能够合成多种语言或甚至混合语言的多语言TTS系统中受益。大多数常规TTS系统只能够处理单一语言，其中语音数据库中的句子由单个说母语的人来发音。尽管多语言文本可通过在每一种语言改变时切换语音或引擎来正确地阅读，但其中语言改变在句子内作为单词或短语发生的代码切换文本实际上是不可行的。此外，随着移动电话或嵌入式设备的广泛使用，语音合成器的覆盖区域成为基于这些设备的关于应用程序的因素。对多语言TTS系统的研究表明音素覆盖可通过收集多语言语音数据来实现，但语言专用信息(例如，专用文本分析)也是必需的。已经在多语言或语言无关语音识别和合成中尝试了使用最小音素库存来覆盖受影响的语言的所有音素的全局音素集。这一方法采用按音素相似性的音素共享，该音素相似性通过数据驱动聚类方法或者由国际音标字母表 (IPA)定义的音节特征来测量。存在对TTS系统的小覆盖区域方面的强烈兴趣，注意基于隐马尔可夫模型的语音合成往往更有希望。某些隐马尔可夫模型(HMM)合成器可具有相对较小的覆盖区...

【技术保护点】
１．一种至少部分地由计算机实现的用于基于文本来生成语音的方法，所述方法包括：构建第一语言专用决策树；构建第二语言专用决策树；将来自所述第一树的叶节点映射到所述第二树的叶节点；接收所述第二语言的文本；以及至少部分地基于将来自所述第一树的叶节点映射到所述第二树的叶节点来生成对应于所接收到的文本的所述第二语言的语音。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：Y·钱，F·KP·宋，
申请(专利权)人：微软公司，
类型：发明
国别省市：US

全部详细技术资料下载我是这个专利的主人