声音个性化的语音合成器制造技术

技术编号:3046786 阅读:830 留言:0更新日期:2012-04-11 18:40
将语音合成器个性化,使声音类似于或能模仿单个讲话人的语音特征。单个讲话人提供可从少量语音中抽取的一定量的注册数据18,而且由系统修改基础合成参数12以便能更好地模拟新的讲话人36的参数。更具体地说,可以将合成参数12分解成特定讲话人语音参数30,例如与上下文无关的参数,和非特定讲话人语音参数32,例如与上下文有关的参数。用从新的讲话人处得到的注册数据18对特定讲话人语音参数30进行适配。适配后,把特定讲话人语音参数30和非特定讲话人语音参数进行组合从而提供个性化的合成参数群42。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术主要涉及语音合成。更确切地说,本专利技术涉及使语音合成器的输出个性化以便在特定讲话人提供了注册数据后能模拟或模仿出该讲话人细微差异的系统和方法。
技术介绍
在很多使用文本-语音转换(text-to-speech,TTS)合成器的领域中,都期望使合成器的输出声音能模拟特定讲话人的特征。目前,花费在开发语音合成器方面的很多努力都在于使合成的声音尽可能人性化。尽管在这方面不断有进展,但是目前合成器产生的准自然语音表现的是用于构建合成器的语音数据资料库中包含的混合音素变体。当前,没有有效的方法能生产模仿特定讲话人特性的语音合成器,也无法让讲话人花费一些时间记录他或她的语言实例以便用其构成合成器。尽管非常期望能够仅用少量从特定讲话人得到的注册数据(enrollment data)将现有语音合成器定型或个性化,但是,迄今为止还不存在这种技术。最近设计的语音合成器已经能将主要是文本格式的信息转换成合成语音。通常,这些合成器是以合成方法为基础并与某些合成参数相关联。通常,通过操作人的实际语音链接单元产生合成参数,所述实际语音已经过预记录、数字化和分段,从而使包含在该语音中的单个音素变体,能够与记录过程中使用的文本相关联或是标记成与所述文本相对应。虽然目前普遍使用的有各种不同的合成方法,但是一种示例性实例是源滤波法。源滤波法把人的语音模仿成源波形集群,所述源波形集群是通过滤波器群提供的。源波形可以是简单的脉冲或正弦波形,或是更复杂的谐波高品质波形。滤波器修改源波形并使其着色以便模仿发音清晰的语音。在源滤波合成方法中,通常在源波形的复杂性和滤波器的特性之间存在相反的关联性。如果使用复杂的波形,则一般使用相当简单的滤波器模式就足够了。相反,如果使用简单的源波形,则通常应采用较复杂的滤波器结构。现有的语音合成器实例已经利用了全频谱源滤波器的关系,其范围从简单源、复杂滤波器到复杂源、简单滤波器。为了说明本专利技术的原理,在此将描述声门源、共振峰轨迹滤波合成法。熟悉本领域的技术人员应当认识到这仅仅是一种源滤波合成法的范例,本专利技术也可以采用大量其他的方法。此外,尽管在此说明的是源滤波合成方法,但是其他合成方法,如非源滤波方法也属于本专利技术的范围。
技术实现思路
按照本专利技术,通过提供一个基础合成器来构成个性化语音合成器,所述基础合成器采用了预定的合成方法并具有可供合成方法使用以产生合成语音的初始参数群。从讲话人那里获取注册数据,并用该注册数据修改初始参数群,由此使基础合成器个性化,从而模仿讲话人的语音特性。按照本专利技术的另一方面,将初始参数群分解成特定讲话人语音参数(speaker dependent parameters)和非特定讲话人语音参数(speakerindependent parameters)。然后用从新的讲话人处获得的注册数据与特定讲话人语音参数相配,把得到的特定讲话人系统适配参数与非特定讲话人语音参数进行组合从而产生供语音合成器使用的个性化合成参数群。按照本专利技术的另一方面,通过将初始参数群分解成两组,即与上下文不相关(context independent)的参数和与上下文相关(context dependent)的参数,可以获得前面所述的特定讲话人语音参数和非特定讲话人语音参数。就此而言,根据在不同上下文的参数中是否存在可检测的变化,便可确定所述参数与上下文无关还是与上下文有关。当给定的音素变体发出不同的声音时,根据出现的相邻音素变体,可将与该变体相关的合成参数分解成可识别的与上下文有关的参数(那些随相邻音素变体变化的参数)。同样也把音素变体分解成与上下文无关的参数,该参数在相邻音素变体发生变化时不产生明显变化。本专利技术把与上下文无关的参数和特定讲话人语音参数联系起来;并把与上下文有关的参数和非特定讲话人语音参数联系起来。因此,用注册数据与和上下文无关的参数相适配,并将这些参数与和上下文有关的参数重新组合形成适配的合成参数。在优选实施例中,将参数分解成与上下文无关的参数和与上下文有关的参数以便使与上下文无关参数的数量小于与上下文有关参数的数量。由于仅对与上下文无关的参数(数量很少)进行自适应处理,所以可以利用参数的数量差。因此,可用最小的计算量得到极好的个性化结果。按照本专利技术的另一方面,可以用极小量的注册数据进行上面讨论的自适应处理。的确,并不需要注册数据包含所有与上下文无关的参数实例。通过使用由本专利技术的受让人开发的本征语音技术可以用最小量的数据完成自适应处理。本征语音技术包括使用与上下文无关的参数构建超级矢量(supervector),然后对其进行,例如主分量分析(PCA)等维度精简(dimensionality reduction)的处理,以形成本征空间。本征空间借助相当少的维度表示由原始语音合成器中所有与上下文无关的参数覆盖的空间。一旦生成本征空间,就可以用该本征空间并利用新的讲话人语音中的短样本来判断新的讲话人的与上下文无关的参数。新的讲话人发出一些数字化的、分段的和经标记构成注册数据的注册语音。从注册数据中抽取与上下文无关的参数并使这些抽取的参数似然最大化,从而限制本征空间。即使是新的讲话人未提供足够量的包含所有与上下文无关参数的语音,本征语音技术也允许系统判断所有新的讲话人的与上下文无关的参数。因为本征空间最初是由一些来自新的讲话人的与上下文无关的参数构建的,所以上述判断是可行的。当将新的讲话人的注册数据限制在本征空间内时(无论用多么不完整的参数群都是有效的),系统将推测出遗漏的参数是在本征空间内对应于新的讲话人位置的参数。本专利技术所用的技术实际上适用于合成方法的任何方面。目前优选的实施例采用了使共振峰轨迹与源滤波模式的滤波器相关联的技术。该技术也可以用于和源表述相关联或是和其他语音模型参数相关联的特定讲话人语音参数,这些参数包括韵律参数、持续时间和倾斜度参数。此外,如果使用本征语音技术,则可以将该技术用于叠合结构中,由此可以反复指定本征空间并且在提供附加的注册数据时可以改善该本征空间。为了更完整地理解本专利技术,在下面的描述中将结合附图说明本专利技术的目的和优点。附图说明图1是本专利技术所述个性化语音合成器的方框图;图2是表示在构成个性化合成器或将现有合成器个性化过程中包含的基本步骤的流程图;图3是表示本专利技术一个实施例的数据流示意图,其中将合成参数分解成与讲话人相关的参数和与讲话人不相关的参数;图4是表示另一个优选实施例的详细数据流程示意图,其中从音素变体的共振峰轨迹中抽取与上下文不相关的参数和与上下文相关的参数;图5是表示本征语音技术在使用自适应参数或判断参数时的方框图;图6是表示判断特定讲话人语音参数的本征矢量技术的流程图。具体实施例方式参照图1,用标号10表示示例性语音合成器。语音合成器使用了合成参数群12和预定合成方法14,利用该合成方法把输入数据例如文本转换成合成语音。按照本专利技术的一个方面,个性化器件16提取注册数据18并根据合成参数12进行运算使合成器模拟一个讲话人的语音特征。个性化器件16可根据合成参数12的种类在很多不同的域内进行运算。例如,如果合成参数包括共振峰轨迹等频率参数,则可以将个性化器件设置得能够修改共振峰轨迹,其修改方式是使得最终合成的语音更象提供注册数据18的个体。本专利技术提供一本文档来自技高网
...

【技术保护点】
一种将语音合成器个性化的方法,其特征在于,包括:获得用参数群表示的语音数据资料库,所述参数可供所述产生合成语音的语音合成器使用;将所述参数群分解成特定讲话人语音参数群和非特定讲话人语音参数群;从新的讲话人处获取注册数 据并用所述注册数据和与所述特定讲话人系统的参数进行适配,由此产生适配的特定讲话人语音参数;把所述非特定讲话人语音参数和所述适配的特定讲话人语音参数进行组合以构建供所述语音合成器在产生合成语音时使用的个性化合成参数。

【技术特征摘要】
US 2001-2-26 09/792,9281.一种将语音合成器个性化的方法,其特征在于,包括获得用参数群表示的语音数据资料库,所述参数可供所述产生合成语音的语音合成器使用;将所述参数群分解成特定讲话人语音参数群和非特定讲话人语音参数群;从新的讲话人处获取注册数据并用所述注册数据和与所述特定讲话人系统的参数进行适配,由此产生适配的特定讲话人语音参数;把所述非特定讲话人语音参数和所述适配的特定讲话人语音参数进行组合以构建供所述语音合成器在产生合成语音时使用的个性化合成参数。2.根据权利要求1所述的方法,其特征在于,非特定讲话人语音参数数量超过特定讲话人语音参数数量。3.根据权利要求1所述的方法,其特征在于,所述分解步骤是通过识别与上下文有关的信息和采用所述与上下文有关的信息表示的所述非特定讲话人语音参数实现的。4.根据权利要求1所述的方法,其特征在于,所述分解步骤是通过识别与上下文无关的信息和采用所述与上下文无关的信息表示的所述特定讲话人语音参数实现的。5.根据权利要求1所述的方法,其特征在于,所述语音数据包括频率参数群,所述频率参数群对应于与人的语音相关联的共振峰轨迹。6.根据权利要求1所述的方法,其特征在于,所述语音数据包括时间域参数群,所述时间域参数群对应于与人的语音相关联的声门源信息。7.根据权利要求1所述的方法,其特征在于,所述语音数据包括的参数群对应于与人的语音相关联的韵律信息。8.根据权利要求1所述的方法,其特征在于,进一步包括用从指定讲话人群得到的特定讲话人语音参数构建本征空间并用所述本征空间以及所述注册数据与所述特定讲话人语音参数进行适配。9.根据权利要求1所述的方法,其特征在于,进一步包括用从指定讲话人群得到的特定讲话人语音参数构建本征空间,而且如果所述注册数据并不单独代表合成器使用的所有音素的话,用所述本征空间以及所述注册数据与所述特定讲话人语音参数进行适配。10.一种构建个性化语音合成器的方法,其特征在于,包括提供基础合成器,所述合成器采用预定的合成方法并且具有供所述合成方法使用以产生合成语音的初始参数群;将所述初始参数群表示成特定讲话人语音参数和非特定讲话人语音参数;从讲话人处获取注册数据;和用所述注册数据修改与所述特定讲话人系统参数并由此将所述基础合成器个性化,使之能模仿所述讲话人的语音特性。...

【专利技术属性】
技术研发人员:杰克劳德约库阿佛罗伦特佩罗宁罗兰德科恩帕特里克恩古因
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1