当前位置: 首页 > 专利查询>微软公司专利>正文

用于语音合成的运行时声频单元选择方法和系统技术方案

技术编号:3047726 阅读:159 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种连结语音合成系统和产生声音更自然的语音的方法。该系统为可被用来产生代表语言表达的语音波形的各个声频单元提供了多个实例。这多个实例是在合成过程的分析和训练阶段中形成的,并限于概率最高的实例的健壮表示。提供多个实例,使得合成器能够选择非常接近所希望的实例的实例,从而不需要改变所存储的实例以与所希望的实例相匹配。这实际上尽量地减小了相邻实例的边界之间的频谱失真,从而产生出声音更自然的语音。(*该技术在2017年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般地涉及一种语音合成系统,且更具体地说,是涉及用于进行语音合成系统中的声频单元选择的方法和系统。连结语音合成是一种形式的语音合成,它依赖于与语音波形对应的声频单元的连结以从写入的文本产生语音。该领域中未解决的一个问题,是为了实现流利、可辨和自然的语音而适于声频单元进行优化的选择和连结。在很多传统的语音合成系统中,声频单元是语音的语音单元,诸如双音素、音素或短语。语音波形的暂态或瞬时与各个声频单元相联系,以代表语音音素单元。一系列实例的单纯的连结以合成语音,经常导致不自然或“机器声”的语音,因为在相邻的实例的边界处存在有频谱的不连续。为了获得最好的自然发声语音,连结的实例必须以适合于所要的文本的时序、强度和音调特性(即韵律)产生。在传统的系统中采用了两种通常的技术,以从声频单元的实例的连结产生自然发声的语音采用平滑技术和采用较长声频单元的技术。平滑试图通过调节实例以在实例之间的边界处进行匹配,来消除相邻实例之间的频谱不匹配。受调节的实例产生了更为平滑的发声语音,但由于实现平滑而对实例进行的操作,该语音通常是不自然的。选择较长的声频单元通常要采用双音素,因为它们获得了音素之间的共联结效果。该共联结效果是由于在给定音素之前和之后的音素而对给定的音素所产生的效果。采用每单元有三个或更多个音素的较长单元,有利于减小出现的边界的数目,并得到了较长单元上的共联结效果。较长单元的采用导致了较高的发声语音质量,但需要更大的存储量。另外,在不限制输入文本的情况下采用较长单元可能是有问题的,因为不能保证对模型的覆盖。本专利技术的最佳实施例涉及一种语音合成系统和产生自然发声语音的方法。从以前所讲的语音的训练数据,产生出多个声频单元实例,诸如双音素、三音素等等。该实例与语音信号的频谱表示或用于产生有关的声音的波形相对应。从训练数据产生的实例随后剪切下来以形成实例的健壮子集(robust subset)。该合成系统对出现在输入语言表达中的每一个声频单元中的一个实例进行连结。实例的选择是根据相邻实例的边界之间的频谱失真来进行的。这可以通过多种可能的实例序列来进行,这些实例序列代表输入语言表达,从这种表达选择出一种,它使在序列中的相邻实例的所有边界之间的频谱失真达到最小。最好的实例序列随后被用来产生一种语音波形—它产生出与输入语言表达对应的谈话语音。从以下结合附图对本专利技术的最佳实施例所进行的详细描述,本专利技术的上述特征和优点将变得显而易见;在附图中,相同的标号表示相同的部分。这些附图不一定是成比例的,而是强调对本专利技术的描述。附图说明图1是用于进行最佳实施例的语音合成方法的语音合成系统。图2是最佳实施例中采用的分析方法的流程图。图3A是把语音波形排列成与文本“This is great”相对应的帧的例子。图3B显示了与图3A的例子的语音波形对应的HMM和句音(senone)串。图3C是双音素DH IH的实例的例子。图3D是一个例子,它进一步显示了双音素DH IH的实例。图4是用于构成每一个双音素的实例子集的步骤的流程图。图5是最佳实施例的合成方法的流程图。图6A描述了如何根据本专利技术的最佳实施例的语音合成方法为文本“This is great”合成语音的例子。图6B是一个例子,它显示了用于文本“This is great”的单元选择方法。图6C是一个例子,它进一步显示了用于文本“This is great”的实例串的单元选择方法。图7是本实施例的单元选择方法的流程图。最佳实施例通过从多个实例的选择中选择合成输入文本所需的每一个声频单元的一个实例并将选定的实例连结起来,而产生自然发声的语音。该语音合成系统在系统的分析或训练阶段产生多个声频单元实例。在此阶段,每一个声频单元的多个实例都从语音谈话形成,而这些谈话反映了在具体的语言中最可能出现的语音模式。在此阶段期间累积的实例随后得到剪切,以形成包含最有代表性的实例的健壮子集(robust subset)。在最佳实施例中,表示各种音素环境的概率最高的实例得到了选择。在语音合成中,合成器能够在运行中为语言表达中的各个声频单元选择最好的实例,并作为所有可能的实例组合中相邻实例的边界之间出现的频谱和韵律失真的函数。这种方式的单元选择,消除了对平滑单元以使出现在相邻单元之间的边界处的频率频谱相匹配的要求。这产生了更为自然发声的语音,因为采用了原来的波形而不是不自然的修正单元。图1显示了一个语音合成系统10,它适合于实现本专利技术的最佳实施例。该语音合成系统10包括用于接收输入的输入装置14。该输入装置14可以是例如一个麦克风、计算机终端等等。借助将在下面得到更详细的描述的单独的处理元件,对话音数据输入和文本数据输入进行处理。当输入装置14接收到话音数据时,输入装置将话音输入路由到训练部件13—它对话音输入进行语音分析。输入装置14从输入话音数据产生相应的模拟信号,而该输入话音数据可以是来自用户的输入语音谈话或存储的谈话模式。该模拟信号被发送到一个模拟—数字转换器16—它将模拟信号转换成数字取样序列。该数字取样随后被发送到一个特征提取器18—它提取数字化的输入语音信号的参数表示。最好,特征提取器18对数字化的输入语音信号进行频谱分析,以产生一个帧序列,其中每一个帧都包含代表输入语音信号的频率分量的系数。用于进行语音分析的方法是信号处理的现有技术中众所周知的,并可包括快速傅里叶变换、线性预测编码(LPC)、以及对数倒频谱系数。特征提取器18可以是进行频谱分析的传统处理器。在最佳实施例中,频谱分析每十毫秒进行一次,以将输入语音信号分成代表谈话的一部分的帧。然而,本专利技术不仅限于采用频谱分析或十毫秒的取样时间帧。可以采用其他的信号处理技术和其他的取样时间帧。对于整个语音信号重复上述的处理,并产生一系列的帧—它们被发送到分析引擎20。分析引擎20执行若干任务,这些任务将结合图2-4进行详细描述。分析引擎20对输入语音谈话或训练数据进行分析,以产生句音(senone)(一个句音是在不同音素模型上的一群类似的马尔可夫(Markov)状态)和隐藏马尔可夫模型的参数,它们将被语音合成器36使用。另外,分析引擎20产生出现在训练数据中的各个声频单元的多个实例,并形成了由合成器36所使用的这些实例的一个子集。该分析引擎包括用于进行分割的分割部件21和用于选择声频单元的实例的选择部件23。这些部件的作用,将在下面得到更详细的描述。分析引擎20利用了从文本存储部分30获得的输入语音谈话的音素表示、存储在字典存储部分22中的包含各个词的音素描述的字典、以及存储在HMM存储部分24中的句音表。分割部件21具有双重的目的获得存储在HMM存储部分中所需的HMM参数并将输入的谈话分成句音。这种双重的目的,是通过一种迭代算法来实现的,该算法在给定一组HMM参数而分割输入语音与给定该语音分割而重新估算HMM参数之间进行交替。该算法增大了HMM参数在每次迭代时产生输入谈话的概率。当达到收敛时停止该算法,且进一步的迭代并不显著地增大训练概率。一旦完成了输入谈话的分割,选择部件23从各个声频单元的所有可能的发生中选择出对各个声频单元(即双音素)的出现具有高度代表性的一个小的子集,并将这些子集存储在单元存储部分28中。这种发生的本文档来自技高网...

【技术保护点】
在计算机系统中用于从输入语言表达产生语音的方法,所述方法包括以下步骤: 把该输入语言表达转换成多个语音声频单元; 为各个声频单元提供多个实例,每一个实例都表示了用于产生与该声频单元相联系的语音的语音信号的声频特性; 形成与语言表达中的声频单元相对应的多个实例序列; 对于每一个序列,确定序列中的相邻实例之间的不相类似性; 选择相邻实例之间的不相类似性最小的最好的序列;以及 产生从最好的序列生成的语音。

【技术特征摘要】
US 1996-4-30 6488081.在计算机系统中用于从输入语言表达产生语音的方法,所述方法包括以下步骤把该输入语言表达转换成多个语音声频单元;为各个声频单元提供多个实例,每一个实例都表示了用于产生与该声频单元相联系的语音的语音信号的声频特性;形成与语言表达中的声频单元相对应的多个实例序列;对于每一个序列,确定序列中的相邻实例之间的不相类似性;选择相邻实例之间的不相类似性最小的最好的序列;以及产生从最好的序列生成的语音。2.在具有存储装置的计算机系统中,用于合成语音的方法,包括以下步骤在该存储装置中提供第一声频单元的多个实例;在该存储装置中提供第二声频单元的多个实例;以及通过选择实例以使选出的实例之间的失真达到最小并将为第一声频单元提供的实例中的一个与为第二声频单元提供的实例中的一个连结起来,进行语音合成。3.根据权利要求2的方法,其中声频单元是双音素。4.根据权利要求2的方法,其中用于第一声频单元和第二声频单元的实例得到了选择,以尽量减小选定的实例之间的韵律失真。5.根据权利要求2的方法,其中用于第一声频单元和用于第二声频单元的实例得到选择,以尽量减小选定的实例之间的频谱失真。6.根据权利要求1的方法,其中对序列中的相邻实例之间的不相类似性的确定是根据频谱失真进行的。7.根据权利要求1的方法,其中对序列中的相邻实例之间的不相类似性的确定是根据韵律失真来进行的。8.在计算机系统中的一种方法,包括以下步骤提供声频单元的一组实例;对声频单元的该组实例进行剪切以产生声频单元实例的健壮集合;以及从声频单元实例的健壮集合选择出一个实例以进行语音合成。9.根据权利要求8的方法,其中在该组实例中的各个实例具有一个持续时间,且其中对声频单元的该组实例进行剪切的步骤包括除去该组实例中其持续时间与声频单元的该组实例的平均持续时间相差太大的声频单元实例,从而使除去的实例不处于实例的健壮集合中。10.根据权利要求8的方法,其中在该组实例中的各个实例都具有一个音调,且其中对声频单元的实例组进行剪切的步骤包括除去该组实例中其音调与声频单元的该组实例的平均音调相差太大的声频单元实例,从而使除去的...

【专利技术属性】
技术研发人员:黄学东米切尔D普鲁珀阿莱简乔埃塞罗詹姆斯L阿多克
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1