一种基于声道滤波和声门激励的语音重构方法技术

技术编号:34763333 阅读:12 留言:0更新日期:2022-08-31 19:06
本发明专利技术涉及一种基于声道滤波和声门激励的语音重构方法,属于语言合成技术领域。本发明专利技术首先标记音频话音特征起止点,根据检测音频在频域下短时能量的平坦程度,标记音频中的有话段和无话段位置信息,供提取基音频率使用,再提取音频的基音频率,根据倒谱法将声脉冲倒谱和声道响应倒谱分离,提取出音频每一帧的基音频率,其次根据提取出的基音频率,构建模拟声脉的冲激响应,再在音频进行快速傅里叶变换和取对数谱之后,利用离散余弦变换恢复出倒谱数据,最终提取出能量集中的部分,作为模拟的声道响应,并作为重构语音的滤波器数据,最后利用提取出的声脉冲激响应和声道响应重构出语音。本发明专利技术在保证语音重构准确率的前提下提高了重构效率。高了重构效率。高了重构效率。

【技术实现步骤摘要】
一种基于声道滤波和声门激励的语音重构方法


[0001]本专利技术涉及一种基于声道滤波和声门激励的语音重构方法,属于语言合成


技术介绍

[0002]随着社会的不断进步,语音合成技术在人们的日常生活中应用广泛,其应用价值越来越受到重视。语音合成出的声音能否拟人化、情感化,影响着设备的人机交互体验。
[0003]语音合成技术主要可以分为三类:波形合成法、参数合成法和规则合成法。波形合成法主要是通过将所需合成的语音波形按照不同音素语音波形存储起来,需要时再从素材库中取出所需素材拼接合成后输出;参数合成法主要是提取出语音的参数,由参数变化合成出所需要的语音信号;规则合成法则是在系统中存储语音的声学参数、从音素组成音节、词句,控制音调、韵律、轻重等规则,合成出目标文字后,再利用规则将其转换成连续的声波。
[0004]参数合成法凭借素材语音库需求量小、提取参数方便、系统能适应的韵律特征范围较宽的优点,在近些年来发展迅速。但依然具有提取算法复杂,提取参数过多,合成出的语音情感平淡等缺点。
[0005]人类的语音发声是通过声门不断地张开与闭合,使声门处气流冲击声带产生振动,这些气流通过声道从而产生语音,在说话时声道也是在不断的变换中,因此能够听到不同的语音。本专利技术所提到的发声模型就是基于人的发音器官的特点和语音产生的原理,通过提取语音中说话人不同时刻的基音频率和声道参数特性,模拟发声中的声门激励和声道变化,重构出语音信号。

技术实现思路

[0006]本专利技术要解决的技术问题是提供一种基于声道滤波和声门激励的语音重构方法,用以解决传统的参数合成法提取算法复杂,提取参数过多的问题。
[0007]本专利技术的技术方案是:一种基于声道滤波和声门激励的语音重构方法,其特征在于:
[0008]Step1:标记音频话音特征起止点,根据检测音频在频域下短时能量的平坦程度,标记音频中的有话段和无话段位置信息,供提取基音频率使用。
[0009]所述标记音频话音特征起止点具体为:通过将音频信号进行分帧和加窗处理后,通过检测音频在频域下短时能量的平坦程度标记处音频中的有话段和无话段位置信息,区分出音频中的有话段和无话段,提取结果以一组二维数组表示一段语音的端点位置信息,从而提取出音频话音的起止点。
[0010]Step2:基音频率包含着音频中说话人的声学信息,提取音频的基音频率,根据倒谱法将声脉冲倒谱和声道响应倒谱分离,提取出音频每一帧的基音频率。
[0011]具体为,通过信号的采样频率与其在倒谱后频率范围中的最大值所在的位置的商
作为特征,提取结果以一组一维数组表示一段样本音频的基音频率。
[0012]Step3:根据提取出的基音频率,构建模拟声脉的冲激响应;
[0013]具体为,通过Step2中提取的样本基音频率,经过插值和平滑和归一化后,将基音频率输入到压控振荡器中,输出一段75~300Hz范围内的振荡信号,将振荡信号转换为矩形波并延迟1个单位进行错位相减,得到所需的冲激信号,输出信号以一组一维数组表示样本音频模拟的声脉冲激响应。
[0014]Step4:根据离散余弦变换的特点,提取声道的特征响应,在音频进行快速傅里叶变换和取对数谱之后,利用离散余弦变换恢复出倒谱数据,最终提取出能量集中的部分,作为模拟的声道响应,并作为重构语音的滤波器数据;
[0015]具体为,对分帧后的原语音数据进行快速傅里叶变换和进行取对数操作,再提取一半的数据点(即128点)进行离散余弦变换恢复出另外一半数据的相位部分,再进行快速傅里叶逆变换,提取口腔特征中能量最为集中的42个点作为FIR滤波器的参数,即模拟的声道响应。
[0016]Step5:利用提取出的声脉冲激响应和声道响应重构出语音。通过步骤Step3中提取的声门激励响应和步骤Step4中提取的声道时域FIR滤波参数,使得提取的声门参数通过卷积的形式一帧一帧的通过FIR滤波器,最后通过逆分帧将每一帧的数据叠加在一个一维数组中,根据原语音的采样率将一维数组写成音频文件。
[0017]本专利技术的有益效果是:提取的声道脉冲计算量小且运算时间快,构建声道参数仅需要一半的数据,降低了运算时间;音频端点检测减少了对无声段语音对重构参数提取的干扰,提高了运算效率。因此,针对现有技术在语音重构中运算量大,数据需求高的缺点,本专利技术在保证语音重构准确率的前提下提高了重构效率。
附图说明
[0018]图1是本专利技术所采用的发声模型图;
[0019]图2是本专利技术总体结构框图;
[0020]图3是本专利技术的一帧语音信号的倒谱图;
[0021]图4是本专利技术的基音频率估计结果图;
[0022]图5是本专利技术的一帧声门激励信号的波形图;
[0023]图6是本专利技术的一帧声道参数波形图;
[0024]图7是原语音与重构语音的语谱图对比图。
具体实施方式
[0025]下面结合附图和具体实施方式,对本专利技术作进一步说明。
[0026]一种基于声道滤波和声门激励的语音重构方法,其重构控制系统图如图1所示,通过参数提取模块提取出重构音频所需要的有声\静音段标记、基音频率、声门参数、白噪声等参数,经过FIR滤波器重构出目标音频,用来解决传统的参数合成法提取算法复杂,提取参数过多的问题。
[0027]本专利技术主要分为两部分,分别是提取声道滤波参数和提取声门激励参数,整体流程图如图2所示。
[0028]本专利技术具体技术方案为:
[0029]Step1:标记音频话音特征起止点,根据检测音频在频域下短时能量的平坦程度标记处音频中的有话段和无话段位置信息,供提取基音频率使用;
[0030]Step2:提取音频的基音频率,根据倒谱法将声脉冲倒谱和声道响应倒谱分离,提取出音频每一帧的基音频率;
[0031]Step3:根据提取出的基音频率,构建模拟声门脉冲的冲激响应;
[0032]Step4:根据离散余弦变换的特点,在音频进行快速傅里叶变换和取对数谱之后,利用离散余弦变换恢复出倒谱数据,最终提取出能量集中的部分,作为模拟的声道响应,并作为重构语音的滤波器数据;
[0033]Step5:利用提取出的声脉冲激响应和声道响应重构出语音。
[0034]所述Step1具体为:
[0035]Step1.1:对素材库中的音频信号进行分帧和加窗处理,其中窗长度为256,帧移为128,对加窗后的短时语音帧信号进行快速傅里叶变换计算;
[0036]Step1.2:计算出每一帧的谱的能量;
[0037]Step1.3:计算出每一帧中每个样本点的概率密度函数;
[0038]Step1.4:计算出每一帧的谱熵值,如式(1)所示:
[0039][0040]式中,H(i)是第i帧的谱熵,P(n,i)是第i帧下谱线n的归一化谱概率密度函数;
[0041]设置判决门限,本实施例门限的设置为0.12;
[0042]根据各帧本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于声道滤波和声门激励的语音重构方法,其特征在于:Step1:标记音频话音特征起止点,根据检测音频在频域下短时能量的平坦程度,标记音频中的有话段和无话段位置信息,供提取基音频率使用;Step2:提取音频的基音频率,根据倒谱法将声脉冲倒谱和声道响应倒谱分离,提取出音频每一帧的基音频率;Step3:根据提取出的基音频率,构建模拟声脉的冲激响应;Step4:在音频进行快速傅里叶变换和取对数谱之后,利用离散余弦变换恢复出倒谱数据,最终提取出能量集中的部分,作为模拟的声道响应,并作为重构语音的滤波器数据;Step5:利用提取出的声脉冲激响应和声道响应重构出语音。2.根据权利要求1所述的基于声道滤波和声门激励的语音重构方法,其特征在于,Step1中,标记音频话音特征起止点具体为:通过将音频信号进行分帧和加窗处理后,通过检测音频在频域下短时能量的平坦程度标记处音频中的有话段和无话段位置信息,区分出音频中的有话段和无话段,提取结果以一组二维数组表示一段语音的端点位置信息,从而提取出音频话音的起...

【专利技术属性】
技术研发人员:邵玉斌段云龙华杜庆治苏树盟黄张衡刘晶
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1