一种基于微分声门波模型的语音变调变嗓音方法技术

技术编号:18446924 阅读:27 留言:0更新日期:2018-07-14 11:11
本发明专利技术公开了一种基于微分声门波模型的语音变调变嗓音方法,本发明专利技术采用线性预测编码技术和微分声门波相结合的方法合成变调语音,将语音信号通过LPC逆滤波器得到的残差信号即为声门信号的一阶差分,用LF模型对其进行更细致的模拟得到高质量的声门激励信号,从而合成高质量的变调语音。本发明专利技术简单、有效、快速,通过te/tc和tp/tc能灵活控制嗓音源,具有广泛的实用价值。

【技术实现步骤摘要】
一种基于微分声门波模型的语音变调变嗓音方法
本专利技术属于语音合成
,涉及一种语音变调方法,尤其是涉及一种基于微分声门波模型的语音变调、变嗓音方法。
技术介绍
随着信息技术的发展,传统的音视频素材已无法满足人们的需求,融合语言学、信号处理技术、计算机科学等多领域的语音合成技术应运而生。其中的语音变调不变速技术具有广阔的应用市场,如保护说话人隐私,提供某种娱乐效果,帮助语言功能不完善或受损的患者进行语音恢复,用作如语音邮件、广播电台变声热线、多媒体音效处理、军事保密通信等,可广泛应用于民用,商用,医用和军用等多个领域。语音变调不变速指改变语音基音频率的大小,同时保持语速和语义不变,即保持短时频谱包络和时间过程基本不变。语音变调不变速算法中,基于线性预测的方法具有简单、完全自动的分析步骤,合成器结构简单,硬件实现容易等优点,但嗓音源序列采用简单的脉冲和噪声激励模型,合成语音有严重的机器声和噪声。对嗓音源序列建模拟合生成更为细致精确的嗓音源序列以合成高质量的语音,是近年来的研究热点及难点。申请号为200810222508.0的中国专利公开了一种语音变调方法及装置,能够实现语音的自适应变调。但用户人群不同,需求也不同,由于该种变调方式无法通过手工设置升降调的幅度,因此不适应于希望按照自己的需求来固定地改变音调的用户。申请号为201610573399.1的中国专利公开了一种稳定音色的音乐语音变调方法,通过语音信号的倒谱序列导出频谱包络,从中分离出语音信号的激励分量,再计算经变调处理后的激励分量,并与频谱包络重新合成音调改变但音色稳定的音乐语音信号。该方法同样无法实现对嗓音源的灵活控制。
技术实现思路
本专利技术针对现有技术的不足,提出了一种基于微分声门波模型的语音变调变嗓音方法。本专利技术采用线性预测编码(LPC)技术和微分声门波(LF)相结合的方法合成变调语音,将语音信号通过LPC逆滤波器得到的残差信号即为声门信号的一阶差分,用LF模型对其进行更细致的模拟得到高质量的声门激励信号,从而合成高质量的变调语音。LPC是目前最简单、最重要、最有效、最流行的语音分析技术之一,普遍应用于语音信号处理的各个方面,具有低速率传输和储存语音、计算简单快速,能够极为精确地估计语音参数等优点。LF模型通过对嗓音源参数的灵活控制,可以合成不同音色的语音,且模型参数具有明确的物理意义,属发音器官合成语音法范畴,是语音合成技术发展的潮流之一。本专利技术的目的就是提供一种更为简单、有效、快速的、能够灵活改变嗓音源参数的语音变调、变嗓音的方法。本专利技术的目的可以通过以下技术方案来实现:一种基于微分声门波模型的语音变调变嗓音方法,该方法包括:Step1:数字语音信号记为S,采样频率记为fs,对S进行预处理,包括:去除直流分量、预滤波、预加重、归一化一系列处理,得到预处理后的信号S1;其中预加重系数k1范围为-1.0<k1<-0.90;预滤波器为带通滤波器记为lvboqi1,通带频率范围60Hz~2000Hz,阻带范围55Hz~3400Hz;Step2:对S1加窗分帧后得S2;窗函数为矩形窗,分帧参数为:分段时长初步取tms,t范围10~30,精确值为t×fs左右2的整次幂;帧长、帧移、帧叠分别记为wlen、inc、overlap,wlen=t×fs左右2的整次幂,inc=wlen×k2,k2范围为1/5~1/2,帧叠overlap=wlen-inc,总帧数fn=fix((N-wlen)/inc)+1,其中N为信号的长度,fix为取整;Step3:对S2逐帧进行静音帧、清音帧和浊音帧的判别;所述静音段、清音段和浊音段的判别步骤如下:Step3.1:逐帧计算短时平均能量,记为ampi;Step3.2:逐帧计算短时平均过零率,记为zcri;Step3.3:设置短时平均能量较高的阈值ampth1和较低的阈值ampth2;Step3.4:设置短时平均过零率的阈值zcrth;Step3.5:短时平均能量和短时平均过零率双门限法进行判别:当ampi>ampth1,该帧为浊音帧;当ampi<ampth2,该帧为静音帧;当ampth2<ampi<ampth1,若zcri>zcrth,该帧为清音帧,若zcri<zcrth,该帧为清音帧;Step4:基音周期估计:提取基音频率f0i和基音周期T0i,根据基音改变参数计算新的基音频率Nf0i和基音周期NT0i,下标i=1~fn,fn为总帧数,下同;Step4.1:将预处理后的信号S1通过带通滤波器记为lvboqi2得S31,滤波器的主要通带频率范围为60Hz~500Hz,阻带范围为20Hz~2000Hz,通带波纹为x1dB,范围1≦x1≦5,阻带衰减为x2dB,30≦x2≦60;Step4.2:对S31按wlen和inc加矩形窗分帧,得S32;Step4.3:对S32中的浊音帧加汉明窗,用三电平削波法削波、互相关函数法求取基音周期T0i和基音频率f0i;Step4.4:对超出基频范围f0i记为0,对应的T0i记为0;处理后的T0i和f0i进行平滑处理得稳定的基音频率Dfreq和基音周期Dpitch;Step4.5:新的基音频率Dfreqm=Dfreq×rate,基音周期Dpitchm=Dpitch/rate,其中rate指新的基音频率是原基音频率的倍数;Step5:依据言语产生的源滤波器模型理论,通过线性预测分析技术(LPC)和逆滤波技术来估计残差信号ei和声道模型参数;残差信号和声道模型系统函数通过以下步骤获得:Step5.1:对分帧后的语音信号S2加汉明窗得S21;Step5.2:对S21逐帧估计声道模型参数:先用一阶LPC分析估计声门脉冲对语音信号频谱的倾斜效应,通过逆滤波得到消除倾斜效应后的信号S22,再对S22进行高阶LPC分析,得到声道传递系数ari和增益Gaini;Step5.3:对残差信号ei的估计:使S21通过ari构成的逆滤波器即得ei;Step6:逐帧合成新的激励NGi:静音帧的激励按随机噪声合成,清音帧的激励按高斯白噪声合成,浊音帧的激励按LF模型的积分函数即声门波函数,在新的基音周期基础上合成;其中LF模型即微分声门波模型。浊音激励信号按如下步骤合成:Step6.1:将ei通过滤波器lvboqi2,得微分声门波信号LFi;Step6.2:从LFi提取单周期信号LF0iStep6.3:对LF0i进行数值积分得声门波信号G0i;Step6.4:计算声门波模型函数表达式G;LF模型函数表达式为当0<t<te,LF=E0×exp(-k1×t)×sin(wg×t),当te<t<tc,LF=-Ee×(exp(-k2×(t-te)));则对LF模型函数积分可得声门波模型函数表达式,即当0<t≦te,G=-(E0×exp(-k1×t)×cos(t×wg))/t,当te<t≦tc,G=(Ee×exp(-k2×(t-te)))/k2+C。其中,C为常数使得函数图像在te处连续;E0为G0i的正的最大值;Ee为G0i的负本文档来自技高网
...

【技术保护点】
1.一种基于微分声门波模型的语音变调变嗓音方法,其特征在于,该方法具体包括以下步骤:Step1:采集的语音信号记为S,采样频率记为fs,对S进行预处理,包括:去除直流分量、预滤波、预加重、归一化一系列处理,得到预处理后的信号S1;Step2:对S1加窗分帧后得S2;Step3:对S2逐帧进行静音帧、清音帧和浊音帧的判别;Step4:基音周期估计:提取基音频率f0i和基音周期T0i,根据基音改变参数计算新的基音频率Nf0i和基音周期NT0i,下标i=1~fn,fn为总帧数;Step5:依据言语产生的源滤波器模型理论,通过线性预测分析技术和逆滤波技术来估计残差信号ei和声道模型参数;Step6:按照变调和变嗓音的要求逐帧合成新的激励NGi:静音帧的激励按随机噪声合成,清音帧的激励按高斯白噪声合成,浊音帧的激励按LF模型的积分函数即声门波函数,改变同一时间内的基音周期个数来实现变调,改变LF模型中关于声门开合速度的参数实现嗓音效果模拟在新的基音周期基础上合成;Step7:将新的激励NGi通过声道模型系统函数构成的滤波器,合成各帧语音s0i;Step8:对各帧语音信号s0i叠加,得到相位连续的、变调变嗓音合成语音SS。...

【技术特征摘要】
1.一种基于微分声门波模型的语音变调变嗓音方法,其特征在于,该方法具体包括以下步骤:Step1:采集的语音信号记为S,采样频率记为fs,对S进行预处理,包括:去除直流分量、预滤波、预加重、归一化一系列处理,得到预处理后的信号S1;Step2:对S1加窗分帧后得S2;Step3:对S2逐帧进行静音帧、清音帧和浊音帧的判别;Step4:基音周期估计:提取基音频率f0i和基音周期T0i,根据基音改变参数计算新的基音频率Nf0i和基音周期NT0i,下标i=1~fn,fn为总帧数;Step5:依据言语产生的源滤波器模型理论,通过线性预测分析技术和逆滤波技术来估计残差信号ei和声道模型参数;Step6:按照变调和变嗓音的要求逐帧合成新的激励NGi:静音帧的激励按随机噪声合成,清音帧的激励按高斯白噪声合成,浊音帧的激励按LF模型的积分函数即声门波函数,改变同一时间内的基音周期个数来实现变调,改变LF模型中关于声门开合速度的参数实现嗓音效果模拟在新的基音周期基础上合成;Step7:将新的激励NGi通过声道模型系统函数构成的滤波器,合成各帧语音s0i;Step8:对各帧语音信号s0i叠加,得到相位连续的、变调变嗓音合成语音SS。2.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step1中,预加重系数k1范围为-1.0<k1<-0.90;预滤波器为带通滤波器记为lvboqi1,主要参数为:通带频率范围60Hz~2000Hz,阻带范围55Hz~3400Hz。3.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step2中,窗函数为矩形窗,分帧参数为:分段时长初步取tms,t范围10~30,精确值为t×fs左右2的整次幂;帧长、帧移、帧叠分别记为wlen、inc、overlap,wlen=t×fs左右2的整次幂,inc=wlen×k2,k2范围为1/5~1/2,帧叠overlap=wlen-inc,总帧数fn=fix((N-wlen)/inc)+1,其中N为信号的长度,fix为取整。4.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step3中,所述静音段、清音段和浊音段的判别步骤如下:Step4.1:逐帧计算短时平均能量,记为ampi;Step3.2:逐帧计算短时平均过零率,记为zcri;Step4.3:设置短时平均能量较高的阈值ampth1和较低的阈值ampth2;Step4.4:设置短时平均过零率的阈值zcrth;Step4.5:短时平均能量和短时平均过零率双门限法进行判别:当ampi>ampth1,该帧为浊音帧;当ampi<ampth2,该帧为静音帧;当ampth2<ampi<ampth1,若zcri>zcrth,该帧为清音帧,若zcri<zcrth,该帧为清音帧。5.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step4中,基音周期的估计具体步骤如下:Step5.1:将预处理后的信号S1通过带通滤波器记为lvboqi2得S31,滤波器的主要通带频率范围为60Hz~500Hz,阻带范围为20Hz~2000Hz,通带波纹为x1dB,范围1≦x1≦5,阻带衰减为x2dB,30≦x2≦60;Step5.2:对S31按wlen和inc加矩形窗分帧,得S32;Step5.3:对S32中的浊音帧加汉明窗,用三电平削波法削波、互相关函数法求取基音周期T0i和基音频率f0i;Step5.4:对超出基频范围f0i记为0,对应的T0i记为0;...

【专利技术属性】
技术研发人员:周林灿申炎仃黄昭鸣孙海霞
申请(专利权)人:上海泰亿格康复医疗科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1