语音合成制造技术

技术编号:3047774 阅读:147 留言:0更新日期:2012-04-11 18:40
通过将语音信号分成一个频谱分量及一个激励分量而改变合成的语音信号的音高。在发声语音的情况中,将激励分量乘以与至少近似地对应于发声激励瞬间的音高定时标记信息同步的一系列重叠的窗口函数,以将其分成开窗口的语音段,在作用了可控制的时间位移之后重新将它们加在一起。然后重新组合频谱及激励分量。乘法以每一音高时段至少用两个窗口,各有小于一个音高时段的持续时间。作为替代,各窗口具有小于两倍定时标记之间的音高时段的持续时间并相对于定时标记不对称。(*该技术在2015年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及语音的自动生成(例如从编码文本输入中)。更具体地涉及分析合成法,其中“合成的”语音是从存储的始自来人类说话者导出的语音波形生成的(与“用规则合成”系统对应)。为了产生自然发音的语音,有必要在合成语音中产生与出现在人类语音中的相同种类的上下文相关的(韵律学的)音调变化。本专利技术包含生成定义要作出的音高变化的韵律学信息,并致力于处理语音信号以达到这种音高变化的问题。在F.J.Charpentier与MG Stella的“采用语音波形连接的重叠相加技术的复音合成”中描述了音高调节的一种方法,ASSP国际会议会报,IEEE,东京,1986年,2015-2018页。存储了各表示一个复音的语音波型的段,连同在时间上与波形的各音高周期的最大峰值值重合(对于发声的语音)并从而粗略地对应于说话人的声门闭合瞬间;或者对于不发声的语音是随意的音高标记。利用长度等于三倍音高时段的Hamming窗口将要使用的波形部分分成重叠的段。为波形得出一个全程频谱包络,并利用离散傅立叶变换得出一个短期频谱包络;得出一个用频谱包络去除该短期频谱的“源分量”。然后用线性插入过程修正源分量的音高再将其与包络信息重新组合。用这一方法预处理之后,用重叠相加过程连接这些段以给出所希望的基本音高。另一种建议免除了频域预处理而使用两倍音程持续时间的Hamming窗口(“基于语音的时域韵律修正的复音合成系统”,C.Hamon、E.Moulines与F.Charpentier,ASSP国际会议,Glasgow,1989年,238-241页)。作为将时域重叠相加过程应用在一个完整的语音信号上的一种替代,可将它应用在一个激励分量上,例如通过使用LPC(线性预测编码)分析生成一个残留信号(或其参量表示)并在将其通过LPC合成滤波器之前在残留信号上作用重叠相加过程(“使用复音的文本到语音合成的音高同步波形处理技术”,F.Charpentier与E.Moulines,语音通信与技术欧洲会议,巴黎,1989年,卷II,13-19页)。附图说明图1中示出重叠相加过程的的基本原理,其中示出了带有定心在激励峰值上的音高标记P的一个语音信号S;它是通过乘以窗口波形W(只示出其中的两个)而分成重叠的段的。合成的波形是通过将这些段加在一起而生成的,用时间移位来升高或降低音高,其中一个段偶而分别省略或重复。按照本专利技术,提供了一种语音合成装置,其中包含可加以控制来改变由其合成的语音信号的音高的装置,具有(i)用于将语音信号分成一个频谱分量及一个激励分量的装置;(ii)用一系列在发声语音的情况中与至少近似地对应于发声激励瞬间的音高定时标记信息同步的重叠窗口函数去乘该激励分量以将其分成开窗口的语音段的装置;(iii)在这些段上作用可控时间移位并将它们加在一起的装置;以及(iv)用于重新组合频谱与激励分量的装置,其中乘法装置每一音高时段至少采用两个窗口,各窗口具有小于一个音高时段的持续时间。窗口中最好包括采用定时标记部分的每一音高时段一个的第一窗口,及多个中间窗口,而这些中间窗口各有小于第一窗口的宽度。另一方面,本专利技术提供一种语音合成装置,其中包含可加以控制来改变由其合成的语音信号的音高的装置,具有(i)用于将语音信号分成一个频谱分量及一个激励分量的装置;(ii)用于通过插入来自输入信号样本的新信号样本而时间压缩/扩张激励分量的装置;以及(iii)用于重新组合频谱与激励分量的装置,其中乘法装置每一个音高时段至少采用两个窗口,各窗口具有小于一个音高时段的持续时间。最好该压缩/扩张装置能响应至少近似地对应于发声激励瞬间的定时标记信息进行操作来与之同步地改变压缩/扩张的程度,使得激励信号在定时标记附近压缩/扩张得比在两个连续的这种标记之间的音高时段的中心上要少。现在参照附图用示例的方式描述本专利技术的一些实施例附图中图2为按照本专利技术的合成装置的一种形成的方框图;图3与5为例示两种重叠相加音高调节方法的定时图;以及图4为展示为频谱分析目的而在语音信号上开窗口的定时图。在图2的装置中,数字语音波形S的部分是存储在存储器100中的,各带有对应的音高标记定时信息P,如上所述。波形部分是在生成必要的存储器地址的文本到语音驱动器101的控制下读出的;驱动器101的操作是传统的,除了说明它还生成音高信息PP之外以对它不作进一步的描述。LPC分析单元102分离从存储器100中读出的波形部分的激励与发声道分量,LPC分析单元102周期性地产生具有类似于语音波形部分的频谱的频率响应的合成滤波器的系数。这驱动作为合成滤波器的反面的分析滤波器103,并在其输出上生成一个残留信号R。LPC分析与逆滤波操作是与音高标记P同步的,如下面将描述的。过程中的下一步为修正残留信号的音高。(对于发声的语音段)这是由多窗口法执行的,在其中通过用一系列重叠窗口函数(每一音高时段至少两个)在处理单元104中去乘残留信号而将其分成段;图3中示出为五个,它示出了定心在音高时段上的一个梯形窗口及四个中间三角形窗口。音高时段窗口比中间窗口宽一些以避免在降低音高时复制主激励。在升高音高时,将开窗口的段加在一起,但带有减小的时间间隔,如图3的下方部分中所示;如果降低音高,便增加时间间隔。在每种情况中,选择相对窗口宽度以便在合成期间给出倾斜侧面的重叠(即在中间窗口上的50%重叠)来保证正确的信号幅度。时间调节是由信号PP控制的。中间窗口的典型宽度为2ms而位于音高标记上的窗口的宽度则取决于特定信号的音高时段但通常在2至10ms的范围内。采用多窗口与采用每一音高时段一个窗口相比认为能减少相位失真。时间处理之后,将残留信号传送给LPC滤波器105以重构所要求的语音信号。存储器100还包含各波形部分的发声/不发声指示符,而不发声部分是由与单元104相同的音高单元104′处理的,但绕过LPC分析与合成。两条通路之间的切换是在106上控制的。作为替代,不发声部分也能跟随与发声部分相同的路径;在每一种情况中,采用任意部分作为音高标记。作为在残留信号上重叠相加的一种替代,研究出了旨在保持残留信号中的形状的另一种算法,并可从移位与重相加中得到进一步减少的相位失真。基本原理为重新抽样缺相来改变音高时段(这便是音高标记之间的一部分波形,保持音高标记附近的有意义信息不变),保持在闭合时注入的高频并给予激励时段更现实的总体形状。通常可以重新抽样80%的时段。重新抽样是通过将原来的抽样率上的各抽样瞬间映射到时间轴上的新的位置上而达到的。然后用两个最接近的映射样本之间的线性内插来估计重新抽样的信号的各抽样瞬间的信号幅度。线性内插对于重新抽样并不理想,但容易实现并至少能给出该技术的有用程度的指示。当下降抽样以减小音高时段时,必须将信号低通滤波以避免混叠。初始时,采用窗口设计法已为各音高时段设计了独立的滤波器。最终,这些可通过查表来生成以减少计算。作为进一步的改善,重新抽样因子在待处理的段上平滑地改变以避免在边界上的信号特征中的剧烈改变。没有这一点,信号的有效抽样率将遭受阶梯形改变。采用正弦函数,并且平滑程度是可以控制的。可变重新抽样是在按照下式的映射过程中实现的T(n)=n(N-1M-1)-α(N-1M-1)cos[π(n本文档来自技高网...

【技术保护点】
一种语音合成装置,包含可加以控制来改变由其合成的语音信号的音高的装置,具有:(i)用于将语音信号分成一个频谱分量及一个激励分量的装置;(ii)用于在发声语音的情况中,一系列与至少近似地对应于发声激励瞬间的音高定时标记信息同步的重叠窗口函数去乘激励分量,而将其分成开窗口的语音段的装置;(iii)在这些段上作用一个可控时间移位并将它们加在一起的装置;以及(iv)用于重新组合频谱与激励分量的装置;其中该乘法装置每一音高时段至少采用两个窗口,各有小于一个音高时段的持续时间。2、按照权利要求1的语音合成装置,其中该窗口包括每一音高时段一个的包含定时标记位置的第一窗口及多个中间窗口。

【技术特征摘要】
EP 1994-3-18 94301953.91.一种语音合成装置,包含可加以控制来改变由其合成的语音信号的音高的装置,具有(i)用于将语音信号分成一个频谱分量及一个激励分量的装置;(ii)用于在发声语音的情况中,一系列与至少近似地对应于发声激励瞬间的音高定时标记信息同步的重叠窗口函数去乘激励分量,而将其分成开窗口的语音段的装置;(iii)在这些段上作用一个可控时间移位并将它们加在一起的装置;以及(iv)用于重新组合频谱与激励分量的装置;其中该乘法装置每一音高时段至少采用两个窗口,各有小于一个音高时段的持续时间。2.按照权利要求1的语音合成装置,其中该窗口包括每一音高时段一个的包含定时标记位置的第一窗口及多个中间窗口。3.按照权利要求2的语音合成装置,其中的中间窗口各有小于第一窗口的宽度。4.一种语音合成装置,包含可加以控制来改变由其合成的语音信号的音高的装置,具有(i)用于将语音信号分成一个频谱分量及一个激励分量的装置;(ii)用于通过插入来自输入信号样本的新的信号样本,而暂时间压缩/扩张激励分量的装置;以及(iii)用于重新组合频谱与激励分量的装置。5.按照权利要求4的语音合成装置,其中该压缩/扩张装置可以响应至少近似地对应于发声激励瞬间的定时标记信息进行操作来与之同步地改变压缩/扩张的程度,使得该激励信号在定时标记...

【专利技术属性】
技术研发人员:安德鲁洛厄里
申请(专利权)人:英国电讯有限公司
类型:发明
国别省市:GB[英国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1