【技术实现步骤摘要】
一种基于微分声门波模型的语音变调变嗓音方法
本专利技术属于语音合成
,涉及一种语音变调方法,尤其是涉及一种基于微分声门波模型的语音变调、变嗓音方法。
技术介绍
随着信息技术的发展,传统的音视频素材已无法满足人们的需求,融合语言学、信号处理技术、计算机科学等多领域的语音合成技术应运而生。其中的语音变调不变速技术具有广阔的应用市场,如保护说话人隐私,提供某种娱乐效果,帮助语言功能不完善或受损的患者进行语音恢复,用作如语音邮件、广播电台变声热线、多媒体音效处理、军事保密通信等,可广泛应用于民用,商用,医用和军用等多个领域。语音变调不变速指改变语音基音频率的大小,同时保持语速和语义不变,即保持短时频谱包络和时间过程基本不变。语音变调不变速算法中,基于线性预测的方法具有简单、完全自动的分析步骤,合成器结构简单,硬件实现容易等优点,但嗓音源序列采用简单的脉冲和噪声激励模型,合成语音有严重的机器声和噪声。对嗓音源序列建模拟合生成更为细致精确的嗓音源序列以合成高质量的语音,是近年来的研究热点及难点。申请号为200810222508.0的中国专利公开了一种语音变调方法及装置,能够实现语音的自适应变调。但用户人群不同,需求也不同,由于该种变调方式无法通过手工设置升降调的幅度,因此不适应于希望按照自己的需求来固定地改变音调的用户。申请号为201610573399.1的中国专利公开了一种稳定音色的音乐语音变调方法,通过语音信号的倒谱序列导出频谱包络,从中分离出语音信号的激励分量,再计算经变调处理后的激励分量,并与频谱包络重新合成音调改变但音色稳定的音乐语音信号。该方法同样无 ...
【技术保护点】
1.一种基于微分声门波模型的语音变调变嗓音方法,其特征在于,该方法具体包括以下步骤:Step1:采集的语音信号记为S,采样频率记为fs,对S进行预处理,包括:去除直流分量、预滤波、预加重、归一化一系列处理,得到预处理后的信号S1;Step2:对S1加窗分帧后得S2;Step3:对S2逐帧进行静音帧、清音帧和浊音帧的判别;Step4:基音周期估计:提取基音频率f0i和基音周期T0i,根据基音改变参数计算新的基音频率Nf0i和基音周期NT0i,下标i=1~fn,fn为总帧数;Step5:依据言语产生的源滤波器模型理论,通过线性预测分析技术和逆滤波技术来估计残差信号ei和声道模型参数;Step6:按照变调和变嗓音的要求逐帧合成新的激励NGi:静音帧的激励按随机噪声合成,清音帧的激励按高斯白噪声合成,浊音帧的激励按LF模型的积分函数即声门波函数,改变同一时间内的基音周期个数来实现变调,改变LF模型中关于声门开合速度的参数实现嗓音效果模拟在新的基音周期基础上合成;Step7:将新的激励NGi通过声道模型系统函数构成的滤波器,合成各帧语音s0i;Step8:对各帧语音信号s0i叠加,得到相位连续的 ...
【技术特征摘要】
1.一种基于微分声门波模型的语音变调变嗓音方法,其特征在于,该方法具体包括以下步骤:Step1:采集的语音信号记为S,采样频率记为fs,对S进行预处理,包括:去除直流分量、预滤波、预加重、归一化一系列处理,得到预处理后的信号S1;Step2:对S1加窗分帧后得S2;Step3:对S2逐帧进行静音帧、清音帧和浊音帧的判别;Step4:基音周期估计:提取基音频率f0i和基音周期T0i,根据基音改变参数计算新的基音频率Nf0i和基音周期NT0i,下标i=1~fn,fn为总帧数;Step5:依据言语产生的源滤波器模型理论,通过线性预测分析技术和逆滤波技术来估计残差信号ei和声道模型参数;Step6:按照变调和变嗓音的要求逐帧合成新的激励NGi:静音帧的激励按随机噪声合成,清音帧的激励按高斯白噪声合成,浊音帧的激励按LF模型的积分函数即声门波函数,改变同一时间内的基音周期个数来实现变调,改变LF模型中关于声门开合速度的参数实现嗓音效果模拟在新的基音周期基础上合成;Step7:将新的激励NGi通过声道模型系统函数构成的滤波器,合成各帧语音s0i;Step8:对各帧语音信号s0i叠加,得到相位连续的、变调变嗓音合成语音SS。2.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step1中,预加重系数k1范围为-1.0<k1<-0.90;预滤波器为带通滤波器记为lvboqi1,主要参数为:通带频率范围60Hz~2000Hz,阻带范围55Hz~3400Hz。3.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step2中,窗函数为矩形窗,分帧参数为:分段时长初步取tms,t范围10~30,精确值为t×fs左右2的整次幂;帧长、帧移、帧叠分别记为wlen、inc、overlap,wlen=t×fs左右2的整次幂,inc=wlen×k2,k2范围为1/5~1/2,帧叠overlap=wlen-inc,总帧数fn=fix((N-wlen)/inc)+1,其中N为信号的长度,fix为取整。4.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step3中,所述静音段、清音段和浊音段的判别步骤如下:Step4.1:逐帧计算短时平均能量,记为ampi;Step3.2:逐帧计算短时平均过零率,记为zcri;Step4.3:设置短时平均能量较高的阈值ampth1和较低的阈值ampth2;Step4.4:设置短时平均过零率的阈值zcrth;Step4.5:短时平均能量和短时平均过零率双门限法进行判别:当ampi>ampth1,该帧为浊音帧;当ampi<ampth2,该帧为静音帧;当ampth2<ampi<ampth1,若zcri>zcrth,该帧为清音帧,若zcri<zcrth,该帧为清音帧。5.根据权利要求1所述的一种基于微分声门波模型的语音变调、变嗓音方法,其特征在于,在所述步骤Step4中,基音周期的估计具体步骤如下:Step5.1:将预处理后的信号S1通过带通滤波器记为lvboqi2得S31,滤波器的主要通带频率范围为60Hz~500Hz,阻带范围为20Hz~2000Hz,通带波纹为x1dB,范围1≦x1≦5,阻带衰减为x2dB,30≦x2≦60;Step5.2:对S31按wlen和inc加矩形窗分帧,得S32;Step5.3:对S32中的浊音帧加汉明窗,用三电平削波法削波、互相关函数法求取基音周期T0i和基音频率f0i;Step5.4:对超出基频范围f0i记为0,对应的T0i记为0;...
【专利技术属性】
技术研发人员:周林灿,申炎仃,黄昭鸣,孙海霞,
申请(专利权)人:上海泰亿格康复医疗科技股份有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。