当前位置: 首页 > 专利查询>西门子公司专利>正文

确定一系列声音模块以合成调性语言的语言信号的方法技术

技术编号:3047122 阅读:199 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种用于确定一系列声音模块以根据预定系列的语言模块来合成调性语言的语言信号的方法。本发明专利技术与已知方法的不同之处在于,所述的声音模块表现为一些分别包含一个具有相应上下文的音素的三单音,其中由一个或多个三单音组成所述调性语言的音节。由此在合成调性语言时实现了高度的灵活性。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种用于确定一系列声音模块以根据预定系列的语言模块来合成调性语言的语言信号的方法。
技术介绍
由计算机执行的、用于合成调性语言-譬如汉语、尤其是官方话或泰语-的自动方法通常是使用一些分别描述一个音节的声音模块,因为调性语言一般具有较少的音节。这些声音模块被链接成一个语言信号,其中需要考虑取决于音调的音节含义。由于这种已知方法具有一组声音模块,且该声音模块组必须包括不同变体和上下文(Kontext)中的所有音节,所以在计算机内自动地执行时需要较大的计算能力。在应用于移动电话的情况下,经常不具备这种计算能力。在具有较大计算能力的应用情况下,尽管有足够的计算能力可供使用,但所述已知的用于合成调性语言的方法还是有缺点的,即通过预定的音节组不能正确地合成那些包含有并非存储在该音节组中的音节的特殊词语。这些已知的方法在实践中被证明是可靠的。但它们并不非常灵活,因为它们经常不能适用于具有小计算能力的应用,而且它们并没有尽量利用由高计算能力提供的可能性。在论文“Konkatenative Sprachsynthese mit grossenDatenbanken(利用大数据库的链接语言合成)”,MartinHolzapfel,TU Dresden,2000中讲述过一种用于合成语言的方法,它涉及欧洲语言的合成。在该方法中,以声音模块的形式把各个声音寄存在其特有的左/右上下文中。按照“The HTK book,version 2.2(HTK书,版本2.2)”Steve Young,Dan Kershaw,Julian Odell,DaveOllason,Valtcho Valtchev以及Phil Woodland,Entropic Ltd.,剑桥1999,这些声音模块被称作三单音(Triphone)。从该意义上讲,三单音是单个音素的声音模块,但考虑了前面和后面的音素的上下文。根据该已知的方法,在数据库内给每个通常由一个字母组成的语言模块存储一组声音模块(三单音)。借助适用函数求出相应语言模块的声音模块的适用距离,其中,所述的适用函数定量地描述了相应声音模块对表示所述语言模块或一系列语言模块的适用性。在此,所述的适用距离可以按照如下准则求出-声音模块的代表性;-对声音时延的干扰;-对声音能量的干扰;-对基频的干扰;在测定声音模块的代表性时,可以确定声音模块组的典型的谱矩心,并把一个与相应声音模块离所述矩心的谱间隔间接地成比例的值确定为适用距离。在链接声音模块时可能干扰所述的基频,由此也影响到所述的声音时延和声音能量。利用相应的适用函数求出所述因干扰而产生的、偏离所述音段(Lautabschnitt)的原始状态的程度。在DE 197 36 465.9中曾公开过一种用于求取表示语言模块的声音模块(代表)的方法。其中把适用函数称为属性函数,而把适用距离称为选择标准。另外,该方法与在上面的论文中所讲述的方法是一致的。
技术实现思路
本专利技术所基于的任务在于创造一种用于确定一系列声音模块以根据预定系列的语言模块来合成调性语言的语言信号的方法。该任务由具有权利要求1的特征的方法来解决。优选改进方案由从属权利要求给出。根据本专利技术的方法来确定一系列声音模块,以根据预定系列的语言模块来合成调性语言的语言信号,其中,-根据预定系列的语言模块分别选择出一个具有音段的组,这个组包含有可分配给所述语言模块的音段,-通过如下方式为每个语言模块分别从相应的声音模块组中选择出一个声音模块,即针对一组内的声音模块分别借助至少一个适用函数确定出至预定语言模块的适用距离,并把预定系列的声音模块的各个适用距离用逻辑相互连接成一个全局适用距离,其中,所述的全局适用距离定量地描述了相应声音模块系列的用于表示相应语言模块系列的适用性,而且把具有最佳适用距离的所述声音模块系列分配给所述预定的语言模块系列,其中,所述的声音模块包括有分别只描述一个具有相应上下文的音素的三单音,而且由一个或多个三单音组成所述调性语言的音节。因此,利用本专利技术创造了如下一种方法,它可以用三单音来组成调性语言的音节。在此放弃了为合成调性语言而在常规方法中所采用的原理-即只由描述完整音节的声音模块来组成所述的语言信号-,而是还用三单音来组成音节。由此可以非常灵活地通过声音模块来合成音节。根据一种优选的实施方案,采用一个描述两个相邻声音模块的可链接性的函数作为适用函数,其中所述适用函数的值在音节边界处被加权时要小于音节内部的区域。由此可以实现在所述的音节边界处对三单音的可链接性进行较小的加权,从而三单音可以在音节边界处以较小的可链接性被相互链接。根据另一种优选实施例,采用一个对从一个声音模块过渡到相邻声音模块处的音调的一致性进行描述的函数来作为适用函数。由此实现了音调的匹配。附图说明下面借助附图来示例地讲述本专利技术。图中图1示出了一种用于确定一系列声音模块以合成语言信号的方法,图2简要地示出了局部适用函数和声音模块、语言模块之间的关系,图3-6分别示出了坐标系中的局部适用函数,图7示出了两个相邻的音段的音调曲线,以及图8简要地示出了用于合成语言的装置结构。具体实施例方式需要合成的文本通常都是以电子可读的文件形式出现的。该文件包含有诸如满语等调性语言的文字。在第一步骤S1(图1)中把这些文字转换成被分配给它们的音标,其中音标的每个字符都表示一个音素或其类似物。在步骤S2中给每个音素分配一组声音模块。该声音模块是预先在训练阶段通过对语言样品进行分段来产生的,并被存储下来。分段这种语言样品譬如可以借助“Fast-Viterbi-Alignment(快速维特比对准)”来实现。为每个三单音产生多个合适的声音模块,而这些声音模块被分别综合成一组。这些组随后被分配给相应的三单音。由此在步骤S2中求出一系列合适的声音模块组,并将其分配给相应的具有左右上下文的音素。这种具有左右上下文的音素被称为三单音,并表示了需合成的文本的语言模块。在步骤S3中计算局部适用函数,由该适用函数分别得出适用距离。所述的适用距离定量地描述了相应声音模块对于表示接下来的语言模块或语言模块系列的适用性。在图2中简要地示出了三个需要实现的语言模块SB1、SB2、SB3和三个可能的声音模块LB1、LB2、LB3。声音模块LB1是被分配给语言模块SB1的组中的成员。相应地也适用于所述的对SB2、LB2和SB3、LB3。表示某个语言模块的声音模块的适用性可能取决于不同的准则。这些准则基本上可以划分为两类。第一类准则确定了某个声音模块LB1能表示某个语言模块SB1的适用性。由于语言模块系列必须分别被转换成相应的声音模块系列,而且并不是任意的声音模块都可以相互链接-因为从一个声音模块至另一声音模块的相应过渡处可能会产生不理想的假象-,所以第二类准则描述了各个声音模块的可链接的适用性。从该意义上讲,可以区分为一种位于各个声音模块与语言模块之间的模块目标距离以及一种位于各个声音模块之间的可链接距离。下面来详细讲述所述的局部适用函数。在步骤S4中把一系列声音模块的适用距离用逻辑连接成一个全局适用距离。在本专利技术的实施例中,所有适用函数的数值范围包括值0~1,其中1对应于最佳的适用,而0对应于最差的适用。因此所述的局部适用函数可以根据如下公式用本文档来自技高网
...

【技术保护点】
用于确定一系列声音模块以根据预定系列的语言模块来合成调性语言的语言信号的方法,其中, -根据预定系列的语言模块分别选择出一个具有音段的组,这个组包含有可分配给所述语言模块的音段, -通过如下方式为每个语言模块分别从相应的声音模块组中选择出一个声音模块,即针对一组内的声音模块分别借助至少一个适用函数确定出至预定语言模块的适用距离,并把预定系列的声音模块的各个适用距离用逻辑相互连接成一个全局适用距离,其中,所述的全局适用距离定量地描述了相应声音模块系列的用于表示相应语言模块系列的适用性,而且把具有最佳适用距离的所述声音模块系列分配给所述预定的语言模块系列, 其特征在于: 所述的声音模块是分别只包含一个具有相应上下文的音素的三单音,其中由一个或多个三单音组成所述调性语言的音节。

【技术特征摘要】
【国外来华专利技术】DE 2001-4-26 10120513.91.用于确定一系列声音模块以根据预定系列的语言模块来合成调性语言的语言信号的方法,其中,-根据预定系列的语言模块分别选择出一个具有音段的组,这个组包含有可分配给所述语言模块的音段,-通过如下方式为每个语言模块分别从相应的声音模块组中选择出一个声音模块,即针对一组内的声音模块分别借助至少一个适用函数确定出至预定语言模块的适用距离,并把预定系列的声音模块的各个适用距离用逻辑相互连接成一个全局适用距离,其中,所述的全局适用距离定量地描述了相应声音模块系列的用于表示相应语言模块系列的适用性,而且把具有最佳适用距离的所述声音模块系列分配给所述预定的语言模块系列,其特征在于所述的声音模块是分别只包含一个具有相应上下文的音素的三单音,其中由一个或多个三单音组成所述调性语言的音节。2.如权利要求1所述的方法,其特征在于借助每个声音模块的多个适用函数分别计算出一个局部适用距离,所述预定系列的声音模块的各个局部适用距离被相乘为所...

【专利技术属性】
技术研发人员:M霍尔扎普菲尔B陶
申请(专利权)人:西门子公司
类型:发明
国别省市:DE[德国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1