混合语音合成器、方法和使用技术

技术编号：3044823 阅读：240 留言：0更新日期：2012-04-11 18:40

公开了用于生成接近人的语音的语音合成器和语音合成方法的新颖实施方案，其中语音信号可以由存储在音素数据库中的音素通过级联生成。小波变换与帧间内插可被用来在输出信号中产生相邻音素的平滑词素融合。音素可以具有一种韵律特性或一组韵律特性，替换的韵律可以通过将韵律修改参数应用到来自差别韵律数据库的音素来创建。优选的实施方案可以提供快速、资源经济的语音合成，以所需的韵律风格，例如记者风格或人类兴趣的风格，提供有吸引力的悦耳的或有节律的输出。本发明专利技术包括通过参考文本的一个部分的所确定的语义意义由计算机确定将应用于文本的另一个部分的适当韵律，并通过修改数字化的音素而把所确定的韵律应用于文本。这样，韵律化可以有效地自动化。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及新颖的文本到语音合成器、语音合成方法和具体实现语音合成器或方法的产品，包括话音识别系统。本专利技术的方法和系统适用于例如在个人计算机和其它计算机化的设备上的计算机实施方案，本专利技术还包括这样的计算机化的系统和方法。
技术介绍
理论上描述了三种不同的语音合成器，即，发音的、共振峰的和级联的语音合成器。共振峰和级联语音合成器已被开发用于商业用途。共振峰语音合成器是早期的、高度数学的语音合成器。共振峰语音合成技术是基于利用与讲话人声道有关的参数，诸如基波频率、声道的长度和直径、空气压力参数等等的声学模型。基于共振峰的语音合成器可能是快速和低成本的，但所生成的声音对于人耳来说听上去不令人满意。它通常听起来不真实并且机械冰冷，或者是单调的。合成单个单词的发音需要对应于辅音和元音的发音的声音，以使该单词可识别。然而，各个单词具有多种发音的方式，诸如正式或非正式发音。许多字典不单提供对于单词的意义的导引，而且还提供发音的导引。然而，在句子中的每个单词按照字典对于单词的音标注释进行发音导致对于人耳是怪异的无吸引力的单调的语音。为了解决这个问题，在本专利技术之前，许多市场上销售的合成器利用级联语音合成方法。在国际音标字母表(IPA)字典中的基本语音单位 (例如单音素、双音素和三音素)被从个体的发音中记录，然后被级联或链接在一起形成合成的语音。虽然输出的级联语音的质量可能优于共振峰语音的质量，但在许多情形下，由于可能是由在相邻的语音单位之间的不完美合并造成的被称为杂散信号(glitch)的问题，听起来的感觉仍旧是不满意的。级联合...

【技术保护点】
一种用于从文本合成语音的语音合成器，该语音合成器包括：　　　　ａ）文本分析器，用来分析要被合成的文本，得出可表达为音素的文本元素；　　　　ｂ）音素数据库，包含对于表达文本元素有用的声音呈现的音素；　　　　ｃ）语音合成单元，用来组装来自音素数据库的音素并将组装后的音素生成为语音信号，所述音素被选择为对应于各个文本元素；　　　　其中，语音合成单元可连接相邻的音素，以提供连续的语音信号。

【技术特征摘要】
【国外来华专利技术】US 2005-3-28 60/665,8211.一种用于从文本合成语音的语音合成器，该语音合成器包括a)文本分析器，用来分析要被合成的文本，得出可表达为音素的文本元素；b)音素数据库，包含对于表达文本元素有用的声音呈现的音素；c)语音合成单元，用来组装来自音素数据库的音素并将组装后的音素生成为语音信号，所述音素被选择为对应于各个文本元素；其中，语音合成单元可连接相邻的音素，以提供连续的语音信号。2. 根据权利要求l的语音合成器，还包括韵律分析器，把韵律标记与文本元素相关联，以便在输出的语音中提供所需的韵律。3. 根据权利要求2的语音合成器，其中韵律标记指示各个文本元素的所需发音。4. 根据权利要求l、 2或3的语音合成器，其中由文本分析器识别的文本元素每一个都可以由音素数据库中的单个特定音素单独地表达。5. 根据权利要求l、 2、 3或4的语音合成器，其中音素数据库包括具有声音单位的单韵律的编码记录的基本韵律的基本音素集合，每个声音单位构成所述音素之一，在所述音素集合中的音素的数目足以表达所述文本。6. 根据权利要求5的语音合成器，其中语音合成器包括差别韵律数据库，它包括改变音素数据库中的各个音素的韵律的多个参数，以使合成的讲话文本能够以不同的韵律输出。7. 根据权利要求5的语音合成器，其中在音素数据库中的音素的数目是从约80到约1000个音素。8. 根据权利要求5的语音合成器，其中在音素数据库中的音素是根据用语音训练方法训练的讲话人的声音记录而生成的。9. 根据权利要求l、 2、 3或4的语音合成器，其中语音合成单元包括波生成器，用来将语音信号生成为波信号，并且语音合成单元可以实施相邻音素的波形的平滑词素融合，以便连接相邻的音素。10. 根据权利要求9的语音合成器，其中语音信号包括帧，并且其中词素融合是在各个相邻音素的相邻帧之间进行的，并且包括通过在相邻帧的波形特性之间的内插生成至少一个中间帧。11. 根据权利要求l、 2、 3或4的语音合成器，包括音乐变换模块，把悦耳性添加到语音信号中。12. —种音频发布系统，包括要被发布的文本；用于生成表达要被发布的文本的语音信号的、根据权利要求l、 2、 3、 4或5所述的语音合成器；和可听地输出语音信号的音频输...

【专利技术属性】
技术研发人员：加里马普，尼山特钱达，
申请(专利权)人：莱塞克技术公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人