混合语音合成器、方法和使用技术

技术编号:3044823 阅读:240 留言:0更新日期:2012-04-11 18:40
公开了用于生成接近人的语音的语音合成器和语音合成方法的新颖实施方案,其中语音信号可以由存储在音素数据库中的音素通过级联生成。小波变换与帧间内插可被用来在输出信号中产生相邻音素的平滑词素融合。音素可以具有一种韵律特性或一组韵律特性,替换的韵律可以通过将韵律修改参数应用到来自差别韵律数据库的音素来创建。优选的实施方案可以提供快速、资源经济的语音合成,以所需的韵律风格,例如记者风格或人类兴趣的风格,提供有吸引力的悦耳的或有节律的输出。本发明专利技术包括通过参考文本的一个部分的所确定的语义意义由计算机确定将应用于文本的另一个部分的适当韵律,并通过修改数字化的音素而把所确定的韵律应用于文本。这样,韵律化可以有效地自动化。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及新颖的文本到语音合成器、语音合成方法和具体实现 语音合成器或方法的产品,包括话音识别系统。本专利技术的方法和系统 适用于例如在个人计算机和其它计算机化的设备上的计算机实施方 案,本专利技术还包括这样的计算机化的系统和方法。
技术介绍
理论上描述了三种不同的语音合成器,即,发音的、共振峰的和 级联的语音合成器。共振峰和级联语音合成器已被开发用于商业用途。共振峰语音合成器是早期的、高度数学的语音合成器。共振峰语 音合成技术是基于利用与讲话人声道有关的参数,诸如基波频率、声 道的长度和直径、空气压力参数等等的声学模型。基于共振峰的语音 合成器可能是快速和低成本的,但所生成的声音对于人耳来说听上去 不令人满意。它通常听起来不真实并且机械冰冷,或者是单调的。合成单个单词的发音需要对应于辅音和元音的发音的声音,以使 该单词可识别。然而,各个单词具有多种发音的方式,诸如正式或非 正式发音。许多字典不单提供对于单词的意义的导引,而且还提供发 音的导引。然而,在句子中的每个单词按照字典对于单词的音标注释 进行发音导致对于人耳是怪异的无吸引力的单调的语音。为了解决这个问题,在本专利技术之前,许多市场上销售的合成器利 用级联语音合成方法。在国际音标字母表(IPA)字典中的基本语音单位 (例如单音素、双音素和三音素)被从个体的发音中记录,然后被级 联或链接在一起形成合成的语音。虽然输出的级联语音的质量可能优 于共振峰语音的质量,但在许多情形下,由于可能是由在相邻的语音单位之间的不完美合并造成的被称为杂散信号(glitch)的问题,听起来的感觉仍旧是不满意的。级联合成器的其它重大缺点是对于大语音单位数据库和高计算能 力的要求。在某些情形下,利用所有单词和有时是记录语音的词组的 级联合成可以使得话音标识特征更清晰。无论如何,当收听使用较长 的预先记录的单位合成,,的语音的句子和段落时,语音仍旧是韵律很 差的。韵律,,可被理解为牵涉到语言的步调、节律和音调方面。它也 可以看作为包括正确说出的语言的质量,这些质量将人的语音与通常 单调的传统的级联和共振峰机器语音区别开。在语音合成器中釆用的已知的文本归一化器和文本分析器是逐个 单词地进行的,在级联合成的情形下,有时是逐个词组进行的。逐个 单词的方法,即使带有各个单词重音,很快变为感觉像机器发出的。 级联方法虽然具有某些改进的话音质量,但很快变为重复的,并且杂 散信号可导致幅度和音调的误对准。人类话音的自然悦耳可以在语音中表示为韵律,它的单元包括语音的发音节律和音调和响度的改变。传统的共振峰语音合成器不能产 生韵律与要发音的文本相关并与收听人的收听原因相关的高质量合成语音。这样的韵律的例子是记者的、有说服力的、辩论的、人类兴趣 的韵律等等。自然语音在音调、节律、幅度和发音速率方面有变化。韵律模式 是与周围语境有关的,即与以前的和将来的单词和句子有关。已知的语音合成器没有满意地考虑到这些因素。Addison等人共同拥有的美国 专利No.6,865,533和6,847,931公开和要求保护采用有表现力的分析的 方法和系统。以上的
技术介绍
的说明可包括对于本专利技术以前的现有技术来说是 未知的、但由本专利技术提供的观点、发现、理解或公开内容或公开内容 的相关性。本专利技术的某些这样的贡献在这里被具体地指出,而本专利技术 的其它这样的贡献将从它们的上下文明白。仅仅因为文献可能已在这 里引述,不允许可能与本专利技术的领域非常不同的文献的领域类似于本 专利技术的领域。
技术实现思路
因此,需要一种资源节省的和可以从输入文本生成高质量语音的 语音合成器和合成器方法。还需要一种可以提供自然节律和可以容易 地生成具有一个或多个韵律的合成语音的语音合成器和合成器方法。因此,本专利技术一方面提供用于从文本合成语音的新颖的语音合成 器。语音合成器可包括文本分析器,用来分析要被合成的文本,得出 可表现为音素的文本元素。合成器还可包括音素数据库,包含对于表现文本元素有用的声音呈现的音素;和语音合成单元,用来组装来自 音素数据库的音素和生成组装的音素作为用于信号。所选择的音素可 以相应于各个文本元素。希望地,语音合成单元能够连接相邻的音素, 以提供连续的语音信号。语音合成器还可包括韵律分析器,把韵律标记与文本元素相联系, 以便在输出的语音中提供所需的韵律。韵律标记表示对于各个文本元 素的所需的发音。为了提高输出的质量,语音合成单元可包括波生成器,用来生成 语音信号作为波信号,以及语音合成单元可以实施相邻的音素的波形 的平滑词素融合,以便连接相邻的音素。可以利用音乐变换,导入悦耳性到压缩语音信号,而不丢失固有 的悦耳性。另一方面,本专利技术提供从文本合成语音的方法,包括分析要被合 成为可表现为音素的文本元素,和从包含对于表现文本元素有用的声 音呈现的音素的音素数据库中选择相应于各个文本元素的音素。方法 包括组装所选择的音素和连接相邻的音素,以提供连续的语音信号。在按照本专利技术的语音合成器的一个实施方案的结构中, 一旦一字的分析的矩阵被传送到语音合成器的信号处理单元,该信号就从音 素数据库被提取,以及它的韵律可以通过使用差别韵律数据库被改变。所有的语音分量然后被级联,产生合成的语音。本专利技术的优选实施方案可以提供快速的、资源有效的语音合成, 具有诸如记者的或人感兴趣的、所需的韵律风格的有吸引力的音乐的 或韵律的输出。再一方面,本专利技术提供从电子呈现的文本合成语音的计算机实施 的方法。在这方面,方法包括分析文本以确定语义意义和生成包括用 于发声地表示文本的数字化音素的语音信号。方法包括参照文本的另 一个部分的确定的语义意义,计算机确定被施加到文本的一部分的适 当的韵律,以及通过修改数字化的音素把确定的韵律施加到文本。本专利技术的某些实施方案使能生成富于表情的语音合成,其中长的 单词序列可以旋律地和节律地发音。这样的实施方案还提供富于表情 的语音合成,其中可以预测和控制音调、幅度和音素持续时间。附图说明下面参照附图作为例子详细地描述本专利技术的某些实施方案,作出 和使用本专利技术,以及实行本专利技术的打算的最好的模式,其中在几个图上相同的标号表示相同的单元,图上图l是按照本专利技术的语音合成器的实施方案的示意图; 图2是在按照本专利技术的混合语音合成器中有用的音素数据库的实施方案中的音素的图形代表;图3显示可以在本专利技术的语音合成器中有用的差别韵律数据库中利用的音素调节器参数的某些例子;图4示意地显示具有相关的音素的单词和可以在差别韵律数据库中利用的音素调节器参数信息的简化的例子;图5是在本专利技术的实践中有用的韵律文本分析方法的流程图;图6是在本专利技术的实践中有用的韵律标记方法的流程图;图7显示在本专利技术的实践中有用的图形元素到音素的矩阵的一个 例子。图8示意地显示代表可以在本专利技术的混合语音合成器和方法中利 用的语音信号特性的小波变换方法;图9显示可以在图8所示的小波变换中利用的环绕曲线族;图10显示通过把图9所示的环绕曲线施加到诸如图8所示的变换那 样的倾斜的小波变换而得到的频率环绕倾斜模式;图ll显示通过不同的曲线环绕技术可得到的不同的频率响应的两 个例子;图12显示代表单词have,,的、混合音素信号的波形; 图13是在图12上表示的信号的一部分的更大的尺度的扩展图;以及图14本文档来自技高网
...

【技术保护点】
一种用于从文本合成语音的语音合成器,该语音合成器包括:    a)文本分析器,用来分析要被合成的文本,得出可表达为音素的文本元素;    b)音素数据库,包含对于表达文本元素有用的声音呈现的音素;    c)语音合成单元,用来组装来自音素数据库的音素并将组装后的音素生成为语音信号,所述音素被选择为对应于各个文本元素;    其中,语音合成单元可连接相邻的音素,以提供连续的语音信号。

【技术特征摘要】
【国外来华专利技术】US 2005-3-28 60/665,8211.一种用于从文本合成语音的语音合成器,该语音合成器包括a)文本分析器,用来分析要被合成的文本,得出可表达为音素的文本元素;b)音素数据库,包含对于表达文本元素有用的声音呈现的音素;c)语音合成单元,用来组装来自音素数据库的音素并将组装后的音素生成为语音信号,所述音素被选择为对应于各个文本元素;其中,语音合成单元可连接相邻的音素,以提供连续的语音信号。2. 根据权利要求l的语音合成器,还包括韵律分析器,把韵律标记与文本元素相关联,以便在输出的语音 中提供所需的韵律。3. 根据权利要求2的语音合成器,其中韵律标记指示各个文本元 素的所需发音。4. 根据权利要求l、 2或3的语音合成器,其中由文本分析器识别 的文本元素每一个都可以由音素数据库中的单个特定音素单独地表 达。5. 根据权利要求l、 2、 3或4的语音合成器,其中音素数据库包括 具有声音单位的单韵律的编码记录的基本韵律的基本音素集合,每个声音单位构成所述音素之一,在所述音素集合中的音素的数目足以表 达所述文本。6. 根据权利要求5的语音合成器,其中语音合成器包括差别韵律 数据库,它包括改变音素数据库中的各个音素的韵律的多个参数,以 使合成的讲话文本能够以不同的韵律输出。7. 根据权利要求5的语音合成器,其中在音素数据库中的音素的 数目是从约80到约1000个音素。8. 根据权利要求5的语音合成器,其中在音素数据库中的音素是 根据用语音训练方法训练的讲话人的声音记录而生成的。9. 根据权利要求l、 2、 3或4的语音合成器,其中语音合成单元包 括波生成器,用来将语音信号生成为波信号,并且语音合成单元可以 实施相邻音素的波形的平滑词素融合,以便连接相邻的音素。10. 根据权利要求9的语音合成器,其中语音信号包括帧,并且其 中词素融合是在各个相邻音素的相邻帧之间进行的,并且包括通过在 相邻帧的波形特性之间的内插生成至少一个中间帧。11. 根据权利要求l、 2、 3或4的语音合成器,包括音乐变换模块, 把悦耳性添加到语音信号中。12. —种音频发布系统,包括要被发布的文本;用于生成表达要 被发布的文本的语音信号的、根据权利要求l、 2、 3、 4或5所述的语音 合成器;和可听地输出语音信号的音频输...

【专利技术属性】
技术研发人员:加里马普尼山特钱达
申请(专利权)人:莱塞克技术公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利