一种语音时长规整系统及方法技术方案

技术编号:16039826 阅读:43 留言:0更新日期:2017-08-19 21:51
本发明专利技术公开了一种语音时长规整系统,包括:对输入的语音信号通过自相关函数法进行基音周期计算的基音周期检测单元;依据基音周期将输入的语音信号进行分帧的分帧单元;通过变速系数及基音周期计算获取各帧语音信号规整长度的规整长度计算单元;对分帧单元获取的各帧信号通过正弦分解法改变各帧信号波形的重复长度的时长规整单元;对时长规整单元规整后的语音信号进行信号波形平滑处理的平滑处理单元。本系统通过当前帧语音信号的特点动态计算展开项数,大幅减少了运算量和噪声,改善了输出语音的质量。有效的解决了规整后相邻帧信号相位不连续问题。另外,采用了定位搜索算法寻找相位连续点,大大减小了搜索范围,进而大幅减少了运算量。

【技术实现步骤摘要】
一种语音时长规整系统及方法
本专利技术涉及一种语音时长规整系统及方法。
技术介绍
语音时长规整是一种通过压缩或者扩展语音长度从而改变语音播放速度的技术。在进行时域压缩或扩展的同时,应尽量保持语音信号的基音频率、音色、语义等特性不变。经过时长规整后的语音听起来就像说话人自己在改变说话速度一样。语音时长规整广泛应用于语音压缩、语言教学、影视制作以及人机交互等领域,研究语音时长规整对现代化及信息化发展意义重大。专利号为ZL200610164672.1的“语音变速的方法”专利技术专利中提出了一种语音规整方法。该方法包含下列步骤:接收原始语音信号;计算出该原始语音信号的基音周期;依据该基音周期定义搜寻范围;在该原始语音信号的每个该搜寻范围内寻找最大值;依据该最大值将该原始语音信号划分为多个语音区段;依据变速指令对该原始语音信号的每个该语音区段进行变速运算,而取得变速语音信号。该方法在做变速运算时采用波形叠加法,即将各语音区段乘以一比重函数,在变速指令为加速时,两语音区段叠加后取代原两段语音区段,使得变速语音信号短于原语音信号;在变速指令为减速时,两语音区段叠加后插入原两段语音区段之间,使得变速语音信号长于原语音信号。在做变速运算时,将相邻两语音区段乘以比重函数后直接叠加,没有考虑相位连续性问题,影响了输出语音质量。同时,由于各语音区段长度一般并不相同,使得规整比例的精度达不到预期效果。
技术实现思路
本专利技术针对现有技术存在的:①在做规整处理时没有考虑相位连续性问题,或者相位连续处理效果不佳,导致输出语音质量较差;②采用波形叠加法,对语音信号统一规整而不考虑其感知特性,导致语音转折区的模糊或者信息丢失,并且在采样率较低或规整比例较大时,输出语音质量严重下降等问题而研发一种语音时长规整系统及方法。具体技术方案如下:一种语音时长规整系统,其特征在于包括:对输入的语音信号通过自相关函数法进行基音周期计算的基音周期检测单元;根据基音周期检测单元获取的基音周期大小,将输入的语音信号进行分帧的分帧单元;根据基音周期检测单元获取的基音周期大小,通过变速系数计算获取语音规整长度的规整长度计算单元;根据规整长度计算单元计算出的语音规整长度,对分帧单元获取的各帧信号通过正弦分解法改变各帧信号波形的重复长度的时长规整单元。还包括:对时长规整单元规整后的语音信号进行信号波形平滑处理的平滑处理单元;所述平滑处理单元通过渐变法或重叠相加法进行信号波形平滑处理。基音周期检测单元进行基音检测的过程如下:定义x(im)为输入语音信号的第im+1个数据,假设x(im)为第m帧信号的第一点,即x(im)点前的语音信号均已分帧完毕;定义长度为N的序列r(n2),0≤n2<N,令r(n2)=x(im+n2-N/2);N为设定值,即N=1440;计算序列r(n2)的自相关序列R(k):计算基音周期其中,Rmax是序列R(k)的最大值,max{}表示大括号内数据的最大值;得到Rmax对应R(k)后,设此时k值为K,令Lm=K+1,其中Lm即为基音周期;分帧单元根据基音周期检测单元获取的基音周期大小,将输入的语音信号进行分帧:定义序列x_m(n3)为第m帧信号,则x_m(n3)=x(im+n3),0≤n3<Lm。所述:规整单元进行规整的过程如下:定义变速系数为α,定义第m帧信号x_m(n3)规整后的长度为N_Lm,则其中,Lm为x_m(n3)的长度,表示与最接近且小于等于的整数;使用正弦分解法改变信号波形的重复长度,具体过程如下:其中,x′_m(n4)为正弦分解后的第m帧信号,x_m(n3)为规整前的第m帧信号,Lm为x_m(n3)的长度;展开项数Im需要根据x_m(n3)的特征进行自适应选取,n4的取值范围需要根据相位连续点的位置选取;展开项数Im的自适应选取过程如下:第m帧信号x_m(n3)的能量为x_m(n3)经正弦分解后的能量为其中,a0、ai、bi可分别由式(4)~式(6)求出,I为展开项数变量;S为定值,S′的值随I的增加而增加;经正弦分解后的信号能量与原信号能量比值为β值随I的增加而增加;Im应取使β满足条件β>0.999999的最小的I值;寻找相位连续点的过程如下:定义x_m(pm)为第m帧信号的相位连续点(x_m(pm)为序列x_m(n3)的第pm+1点,pm为其序号且p1=0),则式(3)中n4的取值范围为pm≤n4<pm+N_Lm;首先,计算相位偏离程度:其中,V(n3)代表第m帧信号x_m(n3)中各点相位与点x′_m-1(n0)相位的偏离程度,点x′_m-1(n0)为经过规整后的第m-1帧信号序列的最后一点;n0=pm-1+N_Lm-1-1(11)pm-1为第m-1帧信号相位连续点的序号,N_Lm-1为第m-1帧信号规整后的长度,Lm-1为第m-1帧信号的长度;ai、bi可由式(5)、式(6)求出;ai′、bi′为第m-1帧信号的展开系数然后,定位搜索相位连续点:语音信号具有类周期性,相邻两帧信号波形相似,可以利用前一帧信号最后一点的位置来确定后一帧信号相位连续点的大概位置,以减小搜索范围;定义start′m=(N_Lm%Lm+pm-1)%Lm-λ*Lm,end′m=(N_Lm%Lm+pm-1)%Lm+λ*Lm其中,x%y表示x除以y的余数,x,y为不为零的常数;λ为搜索范围系数,取值范围为0≤λ≤0.5,startm、endm分别为第m帧信号相位连续点搜索范围的起始点与结束点;则式(10)中n3的取值范围改为startm≤n3≤endm;再计算pm:Vmin=min{V(startm),V(startm+1),…,V(endm)}(14)其中,Vmin为序列V(n)的最小值,min{}表示大括号内数据的最小值;若V(Z)=Vmin,startm≤Z≤endm,则令pm=Z;最后,得到输出序列:第m帧信号x_m(n3)经过正弦分解后的输出为第m帧信号x_m(n3)经过时长规整后的实际输出为y_m(n7)=x′_m(n7+pm),0≤n7<N_Lm+U(16)其中,n7的取值范围多取U点是平滑处理需要,U的取值范围为30≤U≤90。还包括:平滑处理单元,对于第m帧输出序列,如其在第H(a)点处存在不平滑现象H(a)=a*Lm-pm(17)其中,a为正整数且a满足条件令其中,Δ1=y_m(Lm-pm-1)-y_m(Lm-pm),Δ2=y_m(Lm-pm-1)-y_m(Lm-pm-2)10≤V≤30。则经过渐变法处理后的输出信号为还包括:平滑处理单元,对于第m帧经渐变法处理后的输出序列,可以改变其前U点数据的值,使其与第m-1帧输出序列间的连接变得平滑,其中,s_m(n9)为y′_m(n7)的前U个数据经过重叠相加法处理后得到的一个新的序列。y_m-1(n10)为第m-1帧信号经过规整后的输出序列,可由式(15)、式(16)求出;第m帧信号经过时长规整和平滑处理后的最终输出为同现有技术相比本专利技术的优点是显而易见的,具体如下:1)本专利技术提出了一种信号正弦分解时展开项数的自适应选取方法,通过当前帧语音信号的特点动态计算展开项数,大幅减少了运算量和噪声,改善了输出语音的质量。2)本专利技术利用信号正弦分解后各正弦分量相位偏差的均方和表示两点间的相位本文档来自技高网...
一种语音时长规整系统及方法

【技术保护点】
一种语音时长规整系统,其特征在于包括:对输入的语音信号通过自相关函数法进行基音周期计算的基音周期检测单元;根据基音周期检测单元获取的基音周期大小,将输入的语音信号进行分帧的分帧单元;根据基音周期检测单元获取的基音周期大小,通过变速系数计算获取语音规整长度的规整长度计算单元;根据规整长度计算单元计算出的语音规整长度,对分帧单元获取的各帧信号通过正弦分解法改变各帧信号波形的重复长度的时长规整单元。

【技术特征摘要】
1.一种语音时长规整系统,其特征在于包括:对输入的语音信号通过自相关函数法进行基音周期计算的基音周期检测单元;根据基音周期检测单元获取的基音周期大小,将输入的语音信号进行分帧的分帧单元;根据基音周期检测单元获取的基音周期大小,通过变速系数计算获取语音规整长度的规整长度计算单元;根据规整长度计算单元计算出的语音规整长度,对分帧单元获取的各帧信号通过正弦分解法改变各帧信号波形的重复长度的时长规整单元。2.根据权利要求1所述的一种语音时长规整系统,其特征在于还包括:对时长规整单元规整后的语音信号进行信号波形平滑处理的平滑处理单元;所述平滑处理单元通过渐变法或重叠相加法进行信号波形平滑处理。3.根据权利要求1或2所述的一种语音时长规整系统,其特征在于所述:基音周期检测单元进行基音检测的过程如下:定义x(im)为输入语音信号的第im+1个数据,假设x(im)为第m帧信号的第一点,即x(im)点前的语音信号均已分帧完毕;定义长度为N的序列r(n2),0≤n2<N,令r(n2)=x(im+n2-N/2);N为设定值,即N=1440;计算序列r(n2)的自相关序列R(k):计算基音周期其中,Rmax是序列R(k)的最大值,max{}表示大括号内数据的最大值;得到Rmax对应R(k)后,设此时k值为K,令Lm=K+1,其中Lm即为基音周期;分帧单元根据基音周期检测单元获取的基音周期大小,将输入的语音信号进行分帧:定义序列x_m(n3)为第m帧信号,则x_m(n3)=x(im+n3),0≤n3<Lm。4.根据权利要求3所述的一种语音时长规整系统,其特征在于所述:规整单元进行规整的过程如下:定义变速系数为α,定义第m帧信号x_m(n3)规整后的长度为N_Lm,则其中,Lm为x_m(n3)的长度,表示与最接近且小于等于的整数;使用正弦分解法改变信号波形的重复长度,具体过程如下:其中,1x′_m(n4)为正弦分解后的第m帧信号,x_m(n3)为规整前的第m帧信号,Lm为x_m(n3)的长度;展开项数Im需要根据x_m(n3)的特征进行自适应选取,n4的取值范围需要根据相位连续点的位置选取;展开项数Im的自适应选取过程如下:第m帧信号x_m(n3)的能量为x_m(n3)经正弦分解后的能量为其中,a0、ai、bi可分别由式(4)~式(6)求出,I为展开项数变量;S为定值,S′的值随I的增加而增加;经正弦分解后的信号能量与原信号能量比值为β值随I的增加而增加;Im应取使β满足条件β>0.999999的最小的I值;寻找相位连续点的过程如下:定义x_m(pm)为第m帧信号的相位连续点(x_m(pm)为序列x_m(n3)的第pm+1点,pm为其序号且p1=0),则式(3)中n4的取值范围为pm≤n4<pm+N_Lm;首先,计算相位偏离程度:

【专利技术属性】
技术研发人员:陈喆殷福亮张鹤鸣
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1