一种语音时长规整系统及方法技术方案

技术编号：16039826 阅读：43 留言：0更新日期：2017-08-19 21:51

本发明专利技术公开了一种语音时长规整系统，包括：对输入的语音信号通过自相关函数法进行基音周期计算的基音周期检测单元；依据基音周期将输入的语音信号进行分帧的分帧单元；通过变速系数及基音周期计算获取各帧语音信号规整长度的规整长度计算单元；对分帧单元获取的各帧信号通过正弦分解法改变各帧信号波形的重复长度的时长规整单元；对时长规整单元规整后的语音信号进行信号波形平滑处理的平滑处理单元。本系统通过当前帧语音信号的特点动态计算展开项数，大幅减少了运算量和噪声，改善了输出语音的质量。有效的解决了规整后相邻帧信号相位不连续问题。另外，采用了定位搜索算法寻找相位连续点，大大减小了搜索范围，进而大幅减少了运算量。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音时长规整系统及方法
本专利技术涉及一种语音时长规整系统及方法。
技术介绍
语音时长规整是一种通过压缩或者扩展语音长度从而改变语音播放速度的技术。在进行时域压缩或扩展的同时，应尽量保持语音信号的基音频率、音色、语义等特性不变。经过时长规整后的语音听起来就像说话人自己在改变说话速度一样。语音时长规整广泛应用于语音压缩、语言教学、影视制作以及人机交互等领域，研究语音时长规整对现代化及信息化发展意义重大。专利号为ZL200610164672.1的“语音变速的方法”专利技术专利中提出了一种语音规整方法。该方法包含下列步骤：接收原始语音信号；计算出该原始语音信号的基音周期；依据该基音周期定义搜寻范围；在该原始语音信号的每个该搜寻范围内寻找最大值；依据该最大值将该原始语音信号划分为多个语音区段；依据变速指令对该原始语音信号的每个该语音区段进行变速运算，而取得变速语音信号。该方法在做变速运算时采用波形叠加法，即将各语音区段乘以一比重函数，在变速指令为加速时，两语音区段叠加后取代原两段语音区段，使得变速语音信号短于原语音信号；在变速指令为减速时，两语音区段叠加后插入原两段语音区段之间，使得变速语音信号长于原语音信号。在做变速运算时，将相邻两语音区段乘以比重函数后直接叠加，没有考虑相位连续性问题，影响了输出语音质量。同时，由于各语音区段长度一般并不相同，使得规整比例的精度达不到预期效果。
技术实现思路
本专利技术针对现有技术存在的：①在做规整处理时没有考虑相位连续性问题，或者相位连续处理效果不佳，导致输出语音质量较差；②采用波形叠加法，对语音信号统一规整而不考虑其感知特性...
一种语音时长规整系统及方法

【技术保护点】
一种语音时长规整系统，其特征在于包括：对输入的语音信号通过自相关函数法进行基音周期计算的基音周期检测单元；根据基音周期检测单元获取的基音周期大小，将输入的语音信号进行分帧的分帧单元；根据基音周期检测单元获取的基音周期大小，通过变速系数计算获取语音规整长度的规整长度计算单元；根据规整长度计算单元计算出的语音规整长度，对分帧单元获取的各帧信号通过正弦分解法改变各帧信号波形的重复长度的时长规整单元。

【技术特征摘要】
1.一种语音时长规整系统，其特征在于包括：对输入的语音信号通过自相关函数法进行基音周期计算的基音周期检测单元；根据基音周期检测单元获取的基音周期大小，将输入的语音信号进行分帧的分帧单元；根据基音周期检测单元获取的基音周期大小，通过变速系数计算获取语音规整长度的规整长度计算单元；根据规整长度计算单元计算出的语音规整长度，对分帧单元获取的各帧信号通过正弦分解法改变各帧信号波形的重复长度的时长规整单元。2.根据权利要求1所述的一种语音时长规整系统，其特征在于还包括：对时长规整单元规整后的语音信号进行信号波形平滑处理的平滑处理单元；所述平滑处理单元通过渐变法或重叠相加法进行信号波形平滑处理。3.根据权利要求1或2所述的一种语音时长规整系统，其特征在于所述：基音周期检测单元进行基音检测的过程如下：定义x(im)为输入语音信号的第im+1个数据，假设x(im)为第m帧信号的第一点，即x(im)点前的语音信号均已分帧完毕；定义长度为N的序列r(n2)，0≤n2＜N，令r(n2)＝x(im+n2-N/2)；N为设定值，即N＝1440；计算序列r(n2)的自相关序列R(k)：计算基音周期其中，Rmax是序列R(k)的最大值，max{}表示大括号内数据的最大值；得到Rmax对应R(k)后，设此时k值为K，令Lm＝K+1，其中Lm即为基音周期；分帧单元根据基音周期检测单元获取的基音周期大小，将输入的语音信号进行分帧：定义序列x_m(n3)为第m帧信号，则x_m(n3)＝x(im+n3),0≤n3＜Lm。4.根据权利要求3所述的一种语音时长规整系统，其特征在于所述：规整单元进行规整的过程如下：定义变速系数为α，定义第m帧信号x_m(n3)规整后的长度为N_Lm，则其中，Lm为x_m(n3)的长度，表示与最接近且小于等于的整数；使用正弦分解法改变信号波形的重复长度，具体过程如下：其中，1x′_m(n4)为正弦分解后的第m帧信号，x_m(n3)为规整前的第m帧信号，Lm为x_m(n3)的长度；展开项数Im需要根据x_m(n3)的特征进行自适应选取，n4的取值范围需要根据相位连续点的位置选取；展开项数Im的自适应选取过程如下：第m帧信号x_m(n3)的能量为x_m(n3)经正弦分解后的能量为其中，a0、ai、bi可分别由式(4)～式(6)求出，I为展开项数变量；S为定值，S′的值随I的增加而增加；经正弦分解后的信号能量与原信号能量比值为β值随I的增加而增加；Im应取使β满足条件β＞0.999999的最小的I值；寻找相位连续点的过程如下：定义x_m(pm)为第m帧信号的相位连续点(x_m(pm)为序列x_m(n3)的第pm+1点，pm为其序号且p1＝0)，则式(3)中n4的取值范围为pm≤n4＜pm+N_Lm；首先，计算相位偏离程度：

【专利技术属性】
技术研发人员：陈喆，殷福亮，张鹤鸣，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人