合成咯吱音的方法技术

技术编号:3046167 阅读:180 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种合成信号的方法,包括步骤:a)提供一个第一信号,该第一信号以交替的顺序具有第一类型的多个第一周期和第二类型的多个第二周期,b)通过识别第一类型的第一个要求音调声位置的最紧邻周期来为该第一个要求音调声位置选择一个音调声,并选择所识别的周期的音调声,c)通过识别具有第二类型的第二个要求音调声位置的最紧邻周期来为该第二个要求音调声位置选择一个音调声,并选择所识别的周期的音调声,其中对所有要求的音调声位置执行步骤b)和c)。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及语音的合成领域,更具体地而不加限制地涉及文本到语音(text-to-speech)合成领域。文本到语音(TTS)合成系统的功能是用给定语言从普通文本合成语音。现在,TTS系统已经被用于多种应用的实际操作中,例如通过电话网接入数据库或帮助残疾人。合成语音的一种方法是通过联接(concatenation)语音子单元的记录集合的元素,例如半音节(demisyllable)或多音码(polyphone)。大多数成功的商业系统使用多音码的联接。多音码包括两个(双音子)、三个(三音子)或更多音子的组,并且可以从无意义字中通过在稳定的光谱区内分割期望的音子的组来确定。在一种基于联接的合成中,在两个相邻音子之间的转换对话(conversation)对于确保合成语音的质量是至关重要的。随着选择多音码做为基本的子单元,在两个相邻音子之间的转换保存在已记录的子单元中,并且在相似的音子之间执行联接。然而,在合成前,须修改这些音子的持续时间(duration)和音调(pitch)修正,以实现包括那些音子的新字的韵律约束。这个处理是必需的,从而避免产生一个单调的发声合成语音。在一个TTS系统中,通过一个韵律模块执行这个功能。为了在已记录的子单元中允许持续时间和音调修正,许多基于联接的TTS系统使用时域音调同步叠加(TD-PSOLA)(E.Moulines和F.Charpentier的“使用双音子进行文本到语音合成的音调同步波形处理技术(Pitch synchronouswaveform processing techniques for text-to-speech synthesisusing diphones)”,Speech Commun.,第9卷,第453-467页,1990年)合成模型。当使用一种已知的PSOLA方法要合成一个具有增加的持续时间的信号时,对应于持续时间的期望增加而多次重复每个音调声。例如,如果持续时间加倍,那么重复原始信号的每个周期。当这种方法应用于咯吱音(creaky voice)时,所得到的合成信号的发声不自然,并且遗失了话音的咯吱音特征。因此,本专利技术的目的在于提供一种改进的合成信号的方法,能够合成咯吱音。此外,本专利技术的目的在于提供一种相应的计算机程序产品和计算机系统,特别是文本到语音系统。本专利技术提供一种合成具有交替的强弱周期的信号的方法,咯吱音正是如此。咯吱音通常发生在一个句子的结尾,那里讲话者的音调在其低端。咯吱音由音调周期持续时间的不规则性来描述。一种咯吱音的通常形式具有交替的强弱周期。本专利技术基于这种发现,即通过将一种现有技术的PSOLA型方法用于合成一个具有增加的持续时间的信号但失去了强弱周期的交替,并且因此将一个不自然的发声幅度变化加到合成的语音上。本专利技术能够在合成的信号中保持这种咯吱音特征。根据本专利技术的一个优选实施例,通过使用不同的种类类型(class-type)标记这些周期来对一个原始咯吱音声音信号的强弱周期进行分类。这些信息用于在这些强弱周期之间进行交替的选择。通过选定最接近的相邻周期作为音调声的选择,信号包络的形式也保持在具有增加的持续时间的合成的信号中。本专利技术对于文本到语音合成系统特别有利。根据本专利技术的一个优选实施例,这样一个文本到语音合成系统包括一个数据文件,用于存储原始声音信号的分类信息。使用这种分类信息,识别具有交替的强弱信号的咯吱音间隔。能够由计算机程序产生这种分类信息,分析原始信号以检测信号中的咯吱音特征。可替换地,可以由人类专家进行这种分类。应当注意,仅执行一次分类;在初始分类之后,能够合成不限定数量的多种持续时间的信号,而没有进一步的相互作用。下面,将参照附图更详细的描述本专利技术的优选实施例,附图说明图1说明了一个包括咯吱音的声音信号和一个具有增加的持续时间的合成信号,图2是本专利技术的一个优选实施例的流程图,图3是一个计算机系统的优选实施例的方框图。图1示出了具有持续时间0.07秒的一个原始信号100。将原始信号100的周期分类为“v”、“e”或“o”分类符“v”标明“浊音”型周期;分类符“e”和“o”标明是“咯吱”型周期,其中“e”指明是强周期和“o”指明是弱周期。在上下文中,“弱”意味着在咯吱音间隔周期内的幅值低于紧接前面周期的幅值;相似地,“强”意味着在咯吱音声周期内的幅值高于在咯吱音声间隔内的紧接前面的周期的幅值。使用一种计算机程序能够执行原始信号100的这种分类,该程序分析原始信号100以识别上述信号特征。可替换地,能够由一名人类专家人工执行这种分类。最好这样执行这种分类,即首先由计算机程序执行分类,其次由人类专家校对该分类,使该分类更为精确。原始信号100及其分类作为产生合成信号102的基础。要求合成的信号102具有大约0.16秒的持续时间,大约是原始信号100的持续时间的两倍。为了合成具有这个要求的持续时间的信号102,在合成信号102的区域内的时间轴104上确定音调声位置j。在时间轴104上用周期p隔开音调声位置j,周期p由要合成的信号的基频给定。注意,要合成的信号能够具有相同的或另一个音调/基频做为原始信号。此刻对于在原始信号100内的咯吱音声间隔的第一周期e1,第一要求的音调声位置j=1是“e”类型。从而通过开窗操作,从原始信号100内的周期e1中获取一个音调声。由于咯吱音的合成要求交替的强弱周期,所以随后的要求的音调声位置j=2要求一个“o”类型的音调声。还为了保持原始信号100中的咯吱音声周期内的信号包络的形式,从原始信号100的紧邻的“o”型周期中获取一个音调声,该周期是周期o1。接下来的要求的音调声位置j=3再次要求“e”型的音调声。这个音调声从在原始信号100中分类为“e”的一个周期中获取,该周期是要求的音调声位置j=3的最接近的相邻周期。该最接近的相邻周期是原始信号100中的周期e1。这意味着通过原始信号100的开窗周期(windowingperiod),为音调声位置j=3获取了一个音调声。同样,相继的音调声位置j=4需要是“o”型的。再次选择在原始信号100中的那个类型的最接近周期,以获取一个音调声。这个要求类型的最接近周期是o1周期。针对在时间轴100上的所有要求的音调声位置执行这个过程,以对于每个要求的音调声位置获取一个音调声。随后重叠并相加这些得到的音调声,以合成该具有增加的持续时间的信号102,信号102包括有合成的咯吱音。得到的合成的信号102具有一系列交替的强弱周期,此时在原始信号100中用以保持原始信号特征的这个方面。由于一般从原始信号100中为获取音调声而选择所要求的类型的最紧邻周期,所以也保持了原始信号100中的咯吱部分的信号包络的形式。其结果是产生了一个自然声音合成的信号102,具有原始咯吱音声的所有特征,但具有增加的持续时间。图2示出了相应的流程图。在步骤200,提供一个原始信号。该原始信号至少包括一个具有咯吱音的间隔。在步骤202,识别并分类咯吱音声周期。这能够手工、使用计算机程序或在计算机程序的辅助下进行。为了保持咯吱音的逼真度,使用不同的分类类型标识强弱周期,并且这些信息用于在强弱周期之间进行交替的选择。用类型“1”标记强(偶)周期,并且用类型“-1”标记弱(奇)周期。在步骤本文档来自技高网...

【技术保护点】
一种合成信号的方法,包括步骤:a)提供一个第一信号,该第一信号以交替的顺序具有第一类型的多个第一周期和第二类型的多个第二周期,b)对该第一信号执行开窗操作,以对每个第一和第二周期提供一个音调声,c)为一个要合成的第二 信号确定多个要求的音调声位置,d)通过识别该第一类型的第一个要求音调声位置的最紧邻周期来为该第一个要求音调声位置选择一个音调声,和选择所识别的周期的音调声,e)通过识别具有第二类型的第二个要求音调声位置的最紧邻周期来为该第二 个要求音调声位置选择一个音调声,和选择所识别的周期的音调声,其中对所有要求的音调声位置执行步骤d)和e),f)对所选择的音调声执行重叠和相加操作,以合成该第二信号。

【技术特征摘要】
EP 2002-9-17 02078850.11.一种合成信号的方法,包括步骤a)提供一个第一信号,该第一信号以交替的顺序具有第一类型的多个第一周期和第二类型的多个第二周期,b)对该第一信号执行开窗操作,以对每个第一和第二周期提供一个音调声,c)为一个要合成的第二信号确定多个要求的音调声位置,d)通过识别该第一类型的第一个要求音调声位置的最紧邻周期来为该第一个要求音调声位置选择一个音调声,和选择所识别的周期的音调声,e)通过识别具有第二类型的第二个要求音调声位置的最紧邻周期来为该第二个要求音调声位置选择一个音调声,和选择所识别的周期的音调声,其中对所有要求的音调声位置执行步骤d)和e),f)对所选择的音调声执行重叠和相加操作,以合成该第二信号。2.权利要求1的方法,该第一信号具有基本相同的信号形式的交替的强弱周期。3.权利要求1或2的方法,该第一信号是一个咯吱音信号。4.权利要求1、2或3的方法,其中确定所要求的音调声位置以增加要合成的第二信号的持续时间。5.一种计算机程序,特别是数字存储介质,包括执行下列步骤的程序部件a)提供一个第一信号,该第一信号以交替的顺序具有第一类型的多个第一周期和第二类型的多个第二周期,b)对该第一信号执行开窗操作,以对每个第一和第二周期提供一个音调声,c)为一个要合成的第二信号确定多个要求的音调声位置,d)通过识别该第一类型的第一个要求音调声位置的最紧邻周期来为...

【专利技术属性】
技术研发人员:EF吉吉
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利