用于稳定音信号合成的方法和文本到语音转换的合成系统技术方案

技术编号:3046166 阅读:195 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种根据第二声音信号合成第一声音信号的方法,第一声音信号具有所需要的第一基频,并且第二声音信号具有第二基频,该方法包括步骤:a)确定第一声音信号的时域中所需要的基音声位置,该基音声位置通过第一基频的一个周期分开;b)通过对第二声音信号的时域中的基音声位置上的第二声音信号进行加窗提供基音声,该基音声位置通过第二基频的一个周期分开;c)对于每一所需要的基音声位置,从所提供的基音声中随机地选择一基音声;d)对所选择的基音声执行叠接和相加操作,以合成第一信号。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及语音或乐音合成领域,并且更特别地没有限制地涉及文本到语音转换合成领域。文本到语音转换(TTS)合成系统的功能是根据给定语言的普通文本合成语音。如今,TTS系统已经投入许多应用的实际操作,诸如通过电话网络访问数据库或帮助障碍人士。合成语音的一种方法是通过联结所记录的语音子单元集的元素,诸如半音节或多音素。大多数成功的商用系统都采用多音素联结。多音素包括两个(双音素)、三个(三音素)或多个音素的组,并可以通过在稳定的频谱区域对理想分组的音素进行划分根据无意词进行确定。在基于联结的合成中,两个相邻音素之间的过渡转换对于确保所合成的语音的质量非常重要。通过选择多音素作为基本子单元,在所记录的子单元中就保留有两个相邻音素之间的过渡,并且在相似音素之间进行联结。但是在合成之前,为了实现包含这些音素的新词的韵律限制,必须修改这些音素的持续时间和基音。必须进行该过程,才能避免产生发音单调的合成语音。在TTS系统中,韵律模块执行该功能。为了在所记录的子单元中进行持续时间和基音的修改,许多基于联结的TTS系统采用时域基音同步叠接相加(TD-PSOLA)(E.Moulines和F.Charpentier,“Pitch synchronous waveform processingtechniques for text-to-speech synthesis usingdiphones,”Speech Commun.,vol.9,pp,453-467,1990)模式的合成。当待合成的信号需要具有延长的持续时间时,这可以通过重复从原始信号得到的基音声(pitch bell)完成。该重复过程如附图说明图1中所示。时间轴100属于原始信号的时域。原始信号的长度T跨过时间轴100上的零与T之间的时间间隔。而且,原始信号的基频f对应于周期p;通过窗102对原始信号进行加窗,从原始信号得到基音声。在这里所考虑的范例中,窗在时间轴100的域中被周期p分开。通过这种方式,在时间轴100上确定基音声的位置i。时间轴104属于待合成信号的时域。待合成信号需要具有的持续时间为yT,其中y可以为任何数。随后在时间轴104上确定基音声位置j的编号。像在时间轴100上一样,基音声位置j被对应于原始信号的基频f的周期p分开。为了增加原始信号的持续时间,将从原始信号得到的每个原始基音声都重复y次。这样就在时间轴104的域上得到多个间隔106、108……,其中每一间隔106、108…由多个相同基音声的重复组成。例如间隔106包含从原始信号基音声位置i=1得到的基音声在从基音声位置j(i=1,k=1)至j(i=1,k=y)的重复。这就意味着间隔106包含从原始信号的时间轴100上的基音声位置i=1得到的基音声的y个重复。同样的,随后的间隔108包含从原始信号基音声位置i=2得到的基音声的y个重复。结果,所合成的信号就是由基音声重复的联结序列组成。这种PSOLA方法的共同缺点就是,极其长持续时间的操作将序列之间的能够听到的过渡引入到信号中。尤其是当原始声音为混合声音,例如具有噪音成分和周期性成分的浊摩擦音,就会产生该问题。基音声的重复在噪音成分中引入周期性,其使得所合成的语音听起来不自然。本专利技术因此意欲提供一种合成声音信号的改进方法,特别是用于极其长持续时间的修改,例如用于唱歌。本专利技术提供一种根据原始信号合成声音信号的方法,以便操作原始信号的持续时间。特别地,本专利技术使极其长的持续时间和对原始的基音修改成为可能,而不会产生听得到的假象。这尤其可以用于歌唱的合成,其中极其长持续时间的操作的数量级可以是原始信号的4-100倍。实际上,本专利技术是基于这样的观察,现有技术的PSOLA方法在持续时间操作之后向合成语音中引入了假象,因为从一个重复基音声链到另一个的过渡是可以听见的。当采用现有技术PSOLA类型的方法进行极其长持续时间的操作时,就会出现这种效应,其对于包含噪声成分和周期性成分的混合声音尤其有害。根据本专利技术,对于待合成信号的每一所需的基音声位置,从原始信号中随机地选择基音声。通过这种方式可以避免在噪声成分中引入周期性,并且保留了原始声音的自然度。根据本专利技术优选的实施例,原始声音是具有噪声成分和周期性成分的浊摩擦音。将本专利技术应用于这种浊摩擦音尤其有利。根据本专利技术进一步的优选实施例,使用升余弦对浊摩擦音进行加窗。将正弦窗用于清音间隔,其所具有的优点是,功率域中总信号包络大约为常数。不同于周期性信号,当添加两个噪声采样时,其总和可能小于这两个采样中任何一个的绝对值。这是因为(大多数)信号不是同相的,正弦窗用于调整该效果并除去包络调制。根据本专利技术进一步的优选实施例,原始声音信号的周期在频谱上是相似的,并且基本上具有相同的信息内容。通过第一分类器对这种浊音周期进行分类,并且通过第二分类器对这种清音周期进行分类。根据本专利技术进一步的优选实施例,将原始信号的分类信息存储在计算机系统中,例如文本语音转换系统。被划分为在频谱上是相似的浊音或清音稳定周期的原始信号的间隔根据本专利技术进行处理,其中将升余弦窗用于浊音间隔,将正弦窗用于清音间隔。通过参照附图对本专利技术下面的优选实施例进行更详细的描述,其中图1所述为现有技术的PSOLA类型的方法;图2所述为根据本专利技术的实施例用于合成声音信号的范例;图3所述为本专利技术的方法实施例的流程图;图4所示为原始信号和合成信号的范例;和图5是计算机系统的优选实施例的方框图。图2所示为根据原始信号合成信号的范例。时间轴200所示为原始信号的时间域。原始信号在时间轴200上具有持续时间T和0至T之间的时间跨度。原始信号的基频f对应于周期p。周期p确定时间轴200上的位置i,用于通过窗202对原始信号进行加窗。在这里所考虑的范例中,原始信号是浊混合音,于是使用根据下面公式的余弦窗w[n]=0.5-0.5·cos(2π·(n+0.5)m),0≤n<m.]]>在前面的关系中,m是窗的长度,并且n是运行索引。当原始信号是清音信号时,优选地使用下面的窗w[n]=sin(π·(n+0.5)m),0≤n<m.]]>通过时间轴204描述待合成信号的时域。该待合成的信号需要具有的持续时间为yT,其中y可以是任何数,例如y=4或y=6或y=20或y=50或y=100。周期p也确定时间轴204上基音声位置j。同在时间轴200上一样,该基音声位置被周期p分开。对于每一个所需要的基音声位置j,随机选择时间轴200的时域中的基音声位置i。在这里所考虑的范例中,通过对时间轴200的时域中的原始信号加窗,得到的基音声的数目为6。对于基音声位置j,为了从这些所得到的基音声中选择一个,产生1至6之间的一个随机数。通过这种方式,对基音声位置i=1至i=6上的可用基音声随机地进行选择。对于时间轴204上的所有需要的基音声位置j,重复该过程。例如,通过产生1至6之间的随机数,选择所需要的基音声位置j=1的基音声。在这里所考虑的范例中,得到数字6,从而对于时间轴204上所需要的基音声位置j=1,选择本文档来自技高网...

【技术保护点】
一种根据第二声音信号合成第一声音信号的方法,第一声音信号具有所需要的第一基频,并且第二声音信号具有第二基频,该方法包括步骤:.确定第一声音信号的时域中所需要的基音声位置,该基音声位置通过第一基频的一个周期分开;.通过对第二声 音信号的时域中的基音声位置上的第二声音信号进行加窗,提供基音声,该基音声位置通过第二基频的一个周期分开;.对于每一所需要的基音声位置,从所提供的基音声中随机地选择一基音声;.对所选择的基音声执行叠接和相加操作,以合成第一信号 。

【技术特征摘要】
EP 2002-9-17 02078848.51.一种根据第二声音信号合成第一声音信号的方法,第一声音信号具有所需要的第一基频,并且第二声音信号具有第二基频,该方法包括步骤·确定第一声音信号的时域中所需要的基音声位置,该基音声位置通过第一基频的一个周期分开;·通过对第二声音信号的时域中的基音声位置上的第二声音信号进行加窗,提供基音声,该基音声位置通过第二基频的一个周期分开;·对于每一所需要的基音声位置,从所提供的基音声中随机地选择一基音声;·对所选择的基音声执行叠接和相加操作,以合成第一信号。2.权利要求1的方法,其中第二声音信号是包括噪声成分和周期性成分的混合声音。3.权利要求1或2的方法,第二声音信号是浊摩擦音信号。4.任一前述权利要求1、2或3的方法,第二声音信号是浊音信号,并且由此使用升余弦对第二声音信号进行加窗。5.任一前述权利要求1、2或3的方法,第二声音信号是清音信号,并且由此使用正弦窗对第二声音信号进行加窗。6.任一前述权利要求1至5的方法,第二声音信号具有频谱相似的周期,该频谱相似的周期基本上具有相同的信息内容。7.任一前述权利要求1至6的方法,所需要的第一基频和第二基频基本上相同。8.一种计算机程序产品,特别是数字存储媒体,包括用于根据第二声音信号合成第一声音信号的程序装置,第一声音信号具有所需要的第一基频,并且第二声音信号具有第二基频,该程序装置...

【专利技术属性】
技术研发人员:EF吉吉
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利