通过多形式段的生成和连接进行的合成制造技术

技术编号:5418983 阅读:191 留言:0更新日期:2012-04-11 18:40
描述了一种语音合成系统和方法。语音段数据库参考具有各种不同语音表示结构的语音段。语音段选择器从所述语音段数据库选择对应于目标文本的语音段候选的序列。语音段定序器根据所述语音段候选生成对应于所述目标文本的定序的语音段。语音段合成器组合定序的语音段来产生对应于所述目标文本的合成语音信号输出。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音合成(speech synthesis)。
技术介绍
机器生成的语音能够以许多不同的方式产生,并且用于许多不同的应用,但是当 前存在两种广泛使用的用于合成语音信号的基本方法。一种方法试图使用模型来构造语音 信号,而另一种方法连接(concatenate)预先存储的语音段(segment)。基于模型的方法倾 向于在存储和灵活性方面是高效的,但是产生相当不自然的声音语音。基于模型的语音合 成的示例是例如在 Proc. of Eurospeech, 1999,第 2347—2350 页的 T. Yoshimura^K. Tokuda、 Τ. Masuko> Τ.Kobayashi 禾口 Τ·Kitamura 的“Simultaneous Modeling Of Spectrum, Pitch And DurationIn HMM-Based Speech Synthesis,,中描述的基于隐 Markov 模型 (Hidden-Markov-Model, HMM)的语音合成,通过引用将其结合于此。语音合成的另一方法-段连接处于其最佳状态时能够产生非常自然的语音,但是 相当不灵活并且需要大量的存储。大的语音数据语料库(corpus)需要被记录并且被准 确地标记,以在商业可行的文本到语音系统中使用。基于段连接的方法的示例是例如在 Proceedings of ICSLP2000,第 395—398 页的 G. Coorman、J. FackrelU P. Rutten 禾口 B. Van Coile 的"Segment Selection In The L&H Realspeak Laboratory TTS System,,中描述的 Realspeak TTS系统,通过引用将其结合于此。表1根据各种特性建立了两种TTS方法的类型(typology)<table>table see original document page 5</column></row><table><table>table see original document page 6</column></row><table>如在表1中所看到的那样,这两种方法之间的一个显著差异是基于模型的方法能 够(例如对于给定的韵律语境)构造之前未见过的声音,而基于段的系统受限于它们的段 覆盖。通过借助于其它子段模型性质来动态构造“未见过的”声音是实现一般化的特征。
技术实现思路
本专利技术的实施例针对语音合成系统和方法。语音段数据库参考(reference)具有 各种不同的语音表示(representational)结构的语音段。语音段选择器从所述语音段数 据库选择对应于目标文本的语音段候选的序列。语音段定序器(sequencer)根据所述语音 段候选生成对应于所述目标文本的定序的(sequenced)语音段。语音段合成器组合定序的 语音段来产生对应于所述目标文本的合成的语音信号输出。在另一个特定实施例中,不同的语音表示结构可以包括基于模型的语音信号、基 于模板的语音信号、以及扩增(augment)有模板信息的基于模型的语音信号。基于模型的 语音表示结构可以基于统计语音模型,并且语音段选择器可以使用统计语音模型来选择语 音段候选。所述语音段选择器可以使用模板信息来扩增统计模型。不同的语音表 示结 构可以共享至少一个参数分量,并且可以以不同的语音表示结构来以不同方式编码所共享 的参数分量。在各种特定实施例中,在生成定序的语音段时可以使用来自语音段选择器的观察 和/或静态观察(static observation)。统计得到的成本函数(cost-function)、经验规 则和/或心理声学(psycho-acoustic)规则可以被用来选择语音段候选和/或生成定序的 语音段。统计得到的成本函数可能基于例如Markov过程所描述的语音段观察的序列。附图说明图1示出根据本专利技术实施例的混合语音合成系统的概观图。图2示出混合语音合成系统的一个特定实施例的示例。图3图示了在一个特定实施例中使用的训练过程。图4图示了特定实施例的模型选择过程。图5图示了特定实施例中的模板选择和轨迹(track)生成。图6图示了模板扩增的原理。图7图示了根据一个实施例的模型_模板控制滑块(controlslider)。图8图示了基于闭环混合合成的实施例。图9图示了在图7的实施例中使用的合成器方案。图10示出根据实施例的混合段定序的图形结果。具体实施例方式在下面的描述中,使用了语音信号的特定示例,但是本专利技术不限于语音信号,并且能够被一般化到其他信息处理和生成领域。其它特定实施例能够基于能被建模的其 它信号(例如非随机信号)或者模式(pattern)序列,包括但不限于股票的波动估计 (volatility estimationof stocks)、水文学和环境时间系列、音位(phoneme)序列、字符 序列、文本部分序列、DNA序列等等。在本专利技术的实施例中,通过最优地定序和组合“混合段”来生成合成语音信号。混 合段是不同的语音信号表示,例如合成模型、模板以及扩增有模板信息的合成模型。语音 合成模型与语音合成模板不同在于,语音合成模型是多个模板示例的抽象表示,在不降低 声音的自然性的情况下其性质可以改变例如以构造新的声音。一般来说,混合段是邻近的 (contiguous)数据块,其范围能够从语音采样序列(一个帧)到任何数目的邻近或相邻帧 (或状态),所述邻近或相邻帧(或状态)建立并且与语言上被激发的基本语音单元(例如 半音素(half-phone)、双音素(diphone)、音位、音节、短语(phrase)等等)对准(align)。在混合段系统中,语音段的定序可以基于各种特定的算法,例如从统计得到的成 本函数、经验规则和/或心理声学规则。语音段组合不限于任何一种特定方法,并且可以基 于例如时间、频率或参数域或者不同域的组合。在一些特定实施例中,辅助的语音合成信号可以是可用的,例如域或特定于应用 的语音信号片段可以是可用的。这对于将更一般的合成片段与诸如“Welcome to Nuance Communications directory service,,之类的应用提示或者诸如"Goodbye,,或"Stocks fell on Wall Streettoday”之类的常见词或短语无缝组合非常有用。特定语音合成片段 可以具有特定的说话风格,所述特定的说话风格与更一般的风格不同,或者是一般风格的 更极端的示例。可以使用不同于其他混合片段的不同编码方案(例如较不主动的(less aggressive)压缩)来存储不同的合成段片段。合成段片段还可以包含对于一般混合片段 而言不可用的附加信息。在特定实施例中,模板合成段可以是以某一特定形式编码或表示的自然语音段的 实例,并且可以用其符号、韵律和风格语境来分类。特定语音段的大小可以从单个帧变成高 达任何数目的邻近或相邻帧(或状态),所述邻近或相邻帧(或状态)可以被建立并且与语言上被激发的语音单元(例如半音素、双音素、音位、本文档来自技高网
...

【技术保护点】
一种语音合成系统,包括:语音段数据库,参考具有多个不同语音表示结构的语音段;语音段选择器,用于从所述语音段数据库选择对应于目标文本的语音段候选的序列;语音段定序器,用于根据所述语音段候选生成对应于所述目标文本的定序的语音段;以及语音段合成器,用于组合所述定序的语音段来产生对应于所述目标文本的合成语音信号输出。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:V波莱A布里恩
申请(专利权)人:微差通信公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1