用于语音合成的运行时声频单元选择方法和系统技术方案

技术编号：3047726 阅读：159 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种连结语音合成系统和产生声音更自然的语音的方法。该系统为可被用来产生代表语言表达的语音波形的各个声频单元提供了多个实例。这多个实例是在合成过程的分析和训练阶段中形成的，并限于概率最高的实例的健壮表示。提供多个实例，使得合成器能够选择非常接近所希望的实例的实例，从而不需要改变所存储的实例以与所希望的实例相匹配。这实际上尽量地减小了相邻实例的边界之间的频谱失真，从而产生出声音更自然的语音。（*该技术在2017年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术一般地涉及一种语音合成系统，且更具体地说，是涉及用于进行语音合成系统中的声频单元选择的方法和系统。连结语音合成是一种形式的语音合成，它依赖于与语音波形对应的声频单元的连结以从写入的文本产生语音。该领域中未解决的一个问题，是为了实现流利、可辨和自然的语音而适于声频单元进行优化的选择和连结。在很多传统的语音合成系统中，声频单元是语音的语音单元，诸如双音素、音素或短语。语音波形的暂态或瞬时与各个声频单元相联系，以代表语音音素单元。一系列实例的单纯的连结以合成语音，经常导致不自然或“机器声”的语音，因为在相邻的实例的边界处存在有频谱的不连续。为了获得最好的自然发声语音，连结的实例必须以适合于所要的文本的时序、强度和音调特性(即韵律)产生。在传统的系统中采用了两种通常的技术，以从声频单元的实例的连结产生自然发声的语音采用平滑技术和采用较长声频单元的技术。平滑试图通过调节实例以在实例之间的边界处进行匹配，来消除相邻实例之间的频谱不匹配。受调节的实例产生了更为平滑的发声语音，但由于实现平滑而对实例进行的操作，该语音通常是不自然的。选择较长的声频单元通常要采用双音素，因为它们获得了音素之间的共联结效果。该共联结效果是由于在给定音素之前和之后的音素而对给定的音素所产生的效果。采用每单元有三个或更多个音素的较长单元，有利于减小出现的边界的数目，并得到了较长单元上的共联结效果。较长单元的采用导致了较高的发声语音质量，但需要更大的存储量。另外，在不限制输入文本的情况下采用较长单元可能是有问题的，因为不能保证对模型的覆盖。本专利技术的最佳实施例涉及一种语音合成系统和...

【技术保护点】
在计算机系统中用于从输入语言表达产生语音的方法，所述方法包括以下步骤：把该输入语言表达转换成多个语音声频单元；为各个声频单元提供多个实例，每一个实例都表示了用于产生与该声频单元相联系的语音的语音信号的声频特性；形成与语言表达中的声频单元相对应的多个实例序列；对于每一个序列，确定序列中的相邻实例之间的不相类似性；选择相邻实例之间的不相类似性最小的最好的序列；以及产生从最好的序列生成的语音。

【技术特征摘要】
US 1996-4-30 6488081.在计算机系统中用于从输入语言表达产生语音的方法，所述方法包括以下步骤把该输入语言表达转换成多个语音声频单元；为各个声频单元提供多个实例，每一个实例都表示了用于产生与该声频单元相联系的语音的语音信号的声频特性；形成与语言表达中的声频单元相对应的多个实例序列；对于每一个序列，确定序列中的相邻实例之间的不相类似性；选择相邻实例之间的不相类似性最小的最好的序列；以及产生从最好的序列生成的语音。2.在具有存储装置的计算机系统中，用于合成语音的方法，包括以下步骤在该存储装置中提供第一声频单元的多个实例；在该存储装置中提供第二声频单元的多个实例；以及通过选择实例以使选出的实例之间的失真达到最小并将为第一声频单元提供的实例中的一个与为第二声频单元提供的实例中的一个连结起来，进行语音合成。3.根据权利要求2的方法，其中声频单元是双音素。4.根据权利要求2的方法，其中用于第一声频单元和第二声频单元的实例得到了选择，以尽量减小选定的实例之间的韵律失真。5.根据权利要求2的方法，其中用于第一声频单元和用于第二声频单元的实例得到选择，以尽量减小选定的实例之间的频谱失真。6.根据权利要求1的方法，其中对序列中的相邻实例之间的不相类似性的确定是根据频谱失真进行的。7.根据权利要求1的方法，其中对序列中的相邻实例之间的不相类似性的确定是根据韵律失真来进行的。8.在计算机系统中的一种方法，包括以下步骤提供声频单元的一组实例；对声频单元的该组实例进行剪切以产生声频单元实例的健壮集合；以及从声频单元实例的健壮集合选择出一个实例以进行语音合成。9.根据权利要求8的方法，其中在该组实例中的各个实例具有一个持续时间，且其中对声频单元的该组实例进行剪切的步骤包括除去该组实例中其持续时间与声频单元的该组实例的平均持续时间相差太大的声频单元实例，从而使除去的实例不处于实例的健壮集合中。10.根据权利要求8的方法，其中在该组实例中的各个实例都具有一个音调，且其中对声频单元的实例组进行剪切的步骤包括除去该组实例中其音调与声频单元的该组实例的平均音调相差太大的声频单元实例，从而使除去的...

【专利技术属性】
技术研发人员：黄学东，米切尔D普鲁珀，阿莱简乔埃塞罗，詹姆斯L阿多克，
申请(专利权)人：微软公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人