基于支持向量机在语音解码端重构子带清浊音度参数的方法技术

技术编号:18785808 阅读:20 留言:0更新日期:2018-08-29 07:46
本发明专利技术的基于支持向量机在语音解码端重构子带清浊音度参数的方法,首先利用语音样本的5个子带清浊音度参数、声道参数、基音参数和能量参数训练出5个子带清浊音判决的支持向量机模型,在低速率声码器的解码端,利用线谱频率参数、基音周期参数、能量参数与子带清浊音度参数的相关性,对子带清浊音度参数进行重构。摒弃传统编码器中对子带清浊音度参数量化编码传输的方法,在声码器中引入支持向量机,利用线谱频率参数、基音周期参数和能量参数将子带清浊音度参数直接恢复出来,在不明显降低各子带清浊音判决准确率的前提下,节省的量化比特数,可用来量化其他更加重要的参数,整体上可以进一步提升合成语音的质量。

Reconstruction of subband voicing parameters based on support vector machine at speech decoder

The method of reconstructing subband voiced parameters based on support vector machine (SVM) in the speech decoder is proposed. Firstly, five subband voiced decision support vector machine models are trained by using five subband voiced parameters of speech samples, including voiced parameters, vocal channel parameters, pitch parameters and energy parameters. Spectral frequency parameters, pitch period parameters, energy parameters and subband unvoiced tone parameters correlation, subband unvoiced tone parameters are reconstructed. Discarding the traditional coding and transmission method of subband voiced parameters quantization in encoder, SVM is introduced into vocoder to recover the subband voiced parameters directly by using line spectrum frequency parameters, pitch period parameters and energy parameters, without significantly reducing the accuracy of each subband voiced decision. The saved quantization bits can be used to quantize other more important parameters, and the overall quality of synthesized speech can be further improved.

【技术实现步骤摘要】
基于支持向量机在语音解码端重构子带清浊音度参数的方法
本专利技术涉及一种重构子带清浊音度参数的方法,更具体的说,尤其涉及一种基于支持向量机在语音解码端重构子带清浊音度参数的方法。
技术介绍
语音编码在通信系统、语音存储回放系统、具有语音功能的消费类产品中有广泛的应用。近些年来国际电信联盟(ITU)、一些区域组织和国家相继制定了一系列语音压缩编码标准,在编码速率为2.4kb/s到16kb/s上得到了令人满意的语音质量。目前国内外的研究主要集中在2.4kb/s以下速率高质量语音压缩编码上,主要用于无线通信、保密通信、大容量语音存储回放等。其中,混合激励线性预测编码模型得到了广泛采用,表现优异。在混合激励线性预测编码模型中,解码端采用了多带激励信号合成,合成过程需要依靠表征各子带清浊音判决结果的子带清浊音度参数。目前,解码端获取子带清浊音度参数的方法如下:(1)对输入语音信号样点按时间顺序分帧;(2)按帧提取子带清浊音度参数;(3)对子带清浊音度参数进行矢量量化,将其量化索引值进行编码传输,量化码本的训练方法可参照杨行峻等人著《语音信号数字处理》矢量量化一章中所采用的LBG算法;(4)解码端根据索引值搜索码本得到子带清浊音度参数;送入激励信号合成端生成激励信号。低速率语音编码中,量化比特数有限,是宝贵的资源。子带清浊音度参数需要进行量化传输,从而占用了可观的量化比特数。而实验证明,在混合激励线性预测编码模型中,子带清浊音度参数同其他语音编码参数间仍然具有一定的相关性。在现有的语音编码技术中,没有充分利用这种相关性来进一步提高语音编码的效率。
技术实现思路
本专利技术为了克服上述技术问题的缺点,提供了一种基于支持向量机在语音解码端重构子带清浊音度参数的方法。本专利技术的基于支持向量机在语音解码端重构子带清浊音度参数的方法,包括支持向量机模型训练阶段和子带清浊音度参数恢复阶段;其特征在于:支持向量机模型训练阶段,首先采集足够长的语音信号并对其进行分帧,然后提取分帧的5个子带清浊音度参数、声道参数、基音参数和能量参数,以形成支持向量机模型的训练数据,然后通过迭代的方式训练出5个子带清浊音判决的支持向量机模型;子带清浊音度参数恢复阶段,编码端采集语音信号并分帧,然后提取分帧的声道参数、基音参数和能量参数并对其量化编码和传输,解码端根据接收到的索引值反量化后得到声道参数、基音参数和能量参数,并利用训练好的5个子带清浊音判决的支持向量机模型重构子带清浊音度参数,以形成高质量的语音信号。本专利技术的基于支持向量机在语音解码端重构子带清浊音度参数的方法,所述支持向量机模型训练阶段通过以下步骤来实现:a).语音信号采集,以频率f对语音信号进行采集,将采集的语音信号以Nbit进行量化,以形成足够长度的线性PCM文件,作为训练语音集;b).语音信号分帧,将步骤a)中获取的训练语音集按时间顺序以帧长Tms进行分帧,记分帧集合为M={m1、m2、…、mn},n为总帧数;c).提取子带清浊音度参数,从步骤b)中的每个分帧中提取5个子带清浊音度参数,记分帧Mi的5个子带清浊音度参数为Vi={vi1、vi2、…、vi5},并记录Mi中每个子带清浊音度参数的判决结果,i=1,2,…n;d).提取语音参数,提取每帧的声道参数Lsf、基音参数P、能量参数G,并进行归一化处理;记归一化处理后分帧Mi的声道参数、基音参数和能量参数分别为Lsfi、Pi、Gi,i=1,2,…n;e).训练支持向量机模型,以{vi1、Lsfi、Pi、Gi}、{vi2、Lsfi、Pi、Gi}、{vi3、Lsfi、Pi、Gi}、{vi4、Lsfi、Pi、Gi}、{vi5、Lsfi、Pi、Gi},i=1,2,…n,分别作为5个子带清浊音判决的支持向量机模型的训练数据,5个子带的清浊音判决结果作为对应支持向量机模型的标定值,对5个子带清浊音判决的支持向量机模型进行训练,经过多次迭代,得到训练好的5个子带清浊音判决的支持向量机模型;所述子带清浊音度参数恢复阶段通过以下步骤来实现:1).语音采集和分帧,编码端以频率f对输入的语音信号进行采样,并将采样后的语音信号按时间顺序进行分帧,设得到的帧数为m;2).语音参数的提取,编码端按帧从步骤1)获取的每个分帧中提取声道参数Lsf、基音参数P、能量参数G;3).编码和传输,编码端按帧对获取的声道参数、基音参数和能量参数进行量化编码,并将量化编码得到的参数索引传输到解码端,直至所有帧的参数索引传输完毕;4).反量化,在解码端根据索引值反量化得到各帧的参数,记得到的第j帧的声道参数为、基音参数为、能量参数为,j=1,2,…,m;5).重构清浊音度参数,在解码端,根据训练得到的5个子带清浊音判决的支持向量机模型,利用声道参数为、基音参数为、能量参数为,依次送入每个子带清浊音判决对应的支持向量机模型,计算出第j帧的5个子带清浊音度参数,最后将5个子带清浊音度参数送入激励信号合成端生成激励信号,以获取高质量的语音信号。本专利技术的基于支持向量机在语音解码端重构子带清浊音度参数的方法,步骤a)和步骤1)中采用诸如8kHz的频率f进行信号采集,步骤a)中以诸如16bit的长度对语音信号进行量化,步骤b)和步骤1)中以诸如20ms或25ms的帧长对语音信号进行分帧。本专利技术的基于支持向量机在语音解码端重构子带清浊音度参数的方法,步骤e)中,5个子带清浊音判决的支持向量机模型的核函数选择径向基函数。本专利技术的基于支持向量机在语音解码端重构子带清浊音度参数的方法,步骤5)中,首先利用第一子带清浊音判决的支持向量机模型判别第1子带为清音还是浊音,若为清音,则后面4个子带皆为清音,无需再重复判别;若第一子带为浊音,则利用其余四个训练好的子带清浊音判决的支持向量机模型,分别判别剩余4个子带为清音还是浊音。本专利技术的有益效果是:本专利技术的基于支持向量机在语音解码端重构子带清浊音度参数的方法,摒弃传统声码器中对子带清浊音度参数量化编码传输的方法,在低速率声码器的解码端引入支持向量机,利用线谱频率参数、基音周期参数、能量参数与子带清浊音度参数的相关性,对子带清浊音度参数进行重构,在不明显降低各子带清浊音判决准确率的前提下,节省的量化比特数,可用来量化其他更加重要的参数,整体上可以进一步提升合成语音的质量。附图说明图1为本专利技术中支持向量机模型训练阶段的流程图;图2为本专利技术中子带清浊音度参数恢复阶段的流程图。具体实施方式下面结合附图与实施例对本专利技术作进一步说明。如图1所示,给出了本专利技术中支持向量机模型训练阶段的流程图,其通过以下步骤来实现:a).语音信号采集,以频率f对语音信号进行采集,将采集的语音信号以Nbit进行量化,以形成足够长度的线性PCM文件,作为训练语音集;b).语音信号分帧,将步骤a)中获取的训练语音集按时间顺序以帧长Tms进行分帧,记分帧集合为M={m1、m2、…、mn},n为总帧数;步骤a)中,可按8khz频率采样、16bit量化,并经过高通滤波去除工频干扰,以形成线性PCM语音样点。步骤b)中可采用帧长25ms或20ms进行分帧,也就是200个或160个语音样点构成一帧,但不限于此。c).提取子带清浊音度参数,从步骤b)中的每个分帧中提取5个子带清浊音度参数,记分帧Mi的本文档来自技高网...

【技术保护点】
1.一种基于支持向量机在语音解码端重构子带清浊音度参数的方法,包括支持向量机模型训练阶段和子带清浊音度参数恢复阶段;其特征在于:支持向量机模型训练阶段,首先采集足够长的语音信号并对其进行分帧,然后提取分帧的5个子带清浊音度参数、声道参数、基音参数和能量参数,以形成支持向量机模型的训练数据,然后通过迭代的方式训练出5个子带清浊音判决的支持向量机模型;子带清浊音度参数恢复阶段,编码端采集语音信号并分帧,然后提取分帧的声道参数、基音参数和能量参数并对其量化编码和传输,解码端根据接收到的索引值反量化后得到声道参数、基音参数和能量参数,并利用训练好的5个子带清浊音判决的支持向量机模型重构子带清浊音度参数,以形成高质量的语音信号。

【技术特征摘要】
1.一种基于支持向量机在语音解码端重构子带清浊音度参数的方法,包括支持向量机模型训练阶段和子带清浊音度参数恢复阶段;其特征在于:支持向量机模型训练阶段,首先采集足够长的语音信号并对其进行分帧,然后提取分帧的5个子带清浊音度参数、声道参数、基音参数和能量参数,以形成支持向量机模型的训练数据,然后通过迭代的方式训练出5个子带清浊音判决的支持向量机模型;子带清浊音度参数恢复阶段,编码端采集语音信号并分帧,然后提取分帧的声道参数、基音参数和能量参数并对其量化编码和传输,解码端根据接收到的索引值反量化后得到声道参数、基音参数和能量参数,并利用训练好的5个子带清浊音判决的支持向量机模型重构子带清浊音度参数,以形成高质量的语音信号。2.根据权利要求1所述的基于支持向量机在语音解码端重构子带清浊音度参数的方法,其特征在于:所述支持向量机模型训练阶段通过以下步骤来实现:a).语音信号采集,以频率f对语音信号进行采集,将采集的语音信号以Nbit进行量化,以形成足够长度的线性PCM文件,作为训练语音集;b).语音信号分帧,将步骤a)中获取的训练语音集按时间顺序以帧长Tms进行分帧,记分帧集合为M={m1、m2、…、mn},n为总帧数;c).提取子带清浊音度参数,从步骤b)中的每个分帧中提取5个子带清浊音度参数,记分帧Mi的5个子带清浊音度参数为Vi={vi1、vi2、…、vi5},并记录Mi中每个子带清浊音度参数的判决结果,i=1,2,…n;d).提取语音参数,提取每帧的声道参数Lsf、基音参数P、能量参数G,并进行归一化处理;记归一化处理后分帧Mi的声道参数、基音参数和能量参数分别为Lsfi、Pi、Gi,i=1,2,…n;e).训练支持向量机模型,以{vi1、Lsfi、Pi、Gi}、{vi2、Lsfi、Pi、Gi}、{vi3、Lsfi、Pi、Gi}、{vi4、Lsfi、Pi、Gi}、{vi5、Lsfi、Pi、Gi},i=1,2,…n,分别作为5个子带清浊音判决的支持向量机模型的训练数据,5个子带的清浊音判决结果作为对应支...

【专利技术属性】
技术研发人员:李晔马晓凤姜竞赛郝秋赟张鹏
申请(专利权)人:山东省计算中心国家超级计算济南中心
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1