The method of reconstructing subband voiced parameters based on support vector machine (SVM) in the speech decoder is proposed. Firstly, five subband voiced decision support vector machine models are trained by using five subband voiced parameters of speech samples, including voiced parameters, vocal channel parameters, pitch parameters and energy parameters. Spectral frequency parameters, pitch period parameters, energy parameters and subband unvoiced tone parameters correlation, subband unvoiced tone parameters are reconstructed. Discarding the traditional coding and transmission method of subband voiced parameters quantization in encoder, SVM is introduced into vocoder to recover the subband voiced parameters directly by using line spectrum frequency parameters, pitch period parameters and energy parameters, without significantly reducing the accuracy of each subband voiced decision. The saved quantization bits can be used to quantize other more important parameters, and the overall quality of synthesized speech can be further improved.
【技术实现步骤摘要】
基于支持向量机在语音解码端重构子带清浊音度参数的方法
本专利技术涉及一种重构子带清浊音度参数的方法,更具体的说,尤其涉及一种基于支持向量机在语音解码端重构子带清浊音度参数的方法。
技术介绍
语音编码在通信系统、语音存储回放系统、具有语音功能的消费类产品中有广泛的应用。近些年来国际电信联盟(ITU)、一些区域组织和国家相继制定了一系列语音压缩编码标准,在编码速率为2.4kb/s到16kb/s上得到了令人满意的语音质量。目前国内外的研究主要集中在2.4kb/s以下速率高质量语音压缩编码上,主要用于无线通信、保密通信、大容量语音存储回放等。其中,混合激励线性预测编码模型得到了广泛采用,表现优异。在混合激励线性预测编码模型中,解码端采用了多带激励信号合成,合成过程需要依靠表征各子带清浊音判决结果的子带清浊音度参数。目前,解码端获取子带清浊音度参数的方法如下:(1)对输入语音信号样点按时间顺序分帧;(2)按帧提取子带清浊音度参数;(3)对子带清浊音度参数进行矢量量化,将其量化索引值进行编码传输,量化码本的训练方法可参照杨行峻等人著《语音信号数字处理》矢量量化一章中所采用的LBG算法;(4)解码端根据索引值搜索码本得到子带清浊音度参数;送入激励信号合成端生成激励信号。低速率语音编码中,量化比特数有限,是宝贵的资源。子带清浊音度参数需要进行量化传输,从而占用了可观的量化比特数。而实验证明,在混合激励线性预测编码模型中,子带清浊音度参数同其他语音编码参数间仍然具有一定的相关性。在现有的语音编码技术中,没有充分利用这种相关性来进一步提高语音编码的效率。
技术实现思路
本专利技术 ...
【技术保护点】
1.一种基于支持向量机在语音解码端重构子带清浊音度参数的方法,包括支持向量机模型训练阶段和子带清浊音度参数恢复阶段;其特征在于:支持向量机模型训练阶段,首先采集足够长的语音信号并对其进行分帧,然后提取分帧的5个子带清浊音度参数、声道参数、基音参数和能量参数,以形成支持向量机模型的训练数据,然后通过迭代的方式训练出5个子带清浊音判决的支持向量机模型;子带清浊音度参数恢复阶段,编码端采集语音信号并分帧,然后提取分帧的声道参数、基音参数和能量参数并对其量化编码和传输,解码端根据接收到的索引值反量化后得到声道参数、基音参数和能量参数,并利用训练好的5个子带清浊音判决的支持向量机模型重构子带清浊音度参数,以形成高质量的语音信号。
【技术特征摘要】
1.一种基于支持向量机在语音解码端重构子带清浊音度参数的方法,包括支持向量机模型训练阶段和子带清浊音度参数恢复阶段;其特征在于:支持向量机模型训练阶段,首先采集足够长的语音信号并对其进行分帧,然后提取分帧的5个子带清浊音度参数、声道参数、基音参数和能量参数,以形成支持向量机模型的训练数据,然后通过迭代的方式训练出5个子带清浊音判决的支持向量机模型;子带清浊音度参数恢复阶段,编码端采集语音信号并分帧,然后提取分帧的声道参数、基音参数和能量参数并对其量化编码和传输,解码端根据接收到的索引值反量化后得到声道参数、基音参数和能量参数,并利用训练好的5个子带清浊音判决的支持向量机模型重构子带清浊音度参数,以形成高质量的语音信号。2.根据权利要求1所述的基于支持向量机在语音解码端重构子带清浊音度参数的方法,其特征在于:所述支持向量机模型训练阶段通过以下步骤来实现:a).语音信号采集,以频率f对语音信号进行采集,将采集的语音信号以Nbit进行量化,以形成足够长度的线性PCM文件,作为训练语音集;b).语音信号分帧,将步骤a)中获取的训练语音集按时间顺序以帧长Tms进行分帧,记分帧集合为M={m1、m2、…、mn},n为总帧数;c).提取子带清浊音度参数,从步骤b)中的每个分帧中提取5个子带清浊音度参数,记分帧Mi的5个子带清浊音度参数为Vi={vi1、vi2、…、vi5},并记录Mi中每个子带清浊音度参数的判决结果,i=1,2,…n;d).提取语音参数,提取每帧的声道参数Lsf、基音参数P、能量参数G,并进行归一化处理;记归一化处理后分帧Mi的声道参数、基音参数和能量参数分别为Lsfi、Pi、Gi,i=1,2,…n;e).训练支持向量机模型,以{vi1、Lsfi、Pi、Gi}、{vi2、Lsfi、Pi、Gi}、{vi3、Lsfi、Pi、Gi}、{vi4、Lsfi、Pi、Gi}、{vi5、Lsfi、Pi、Gi},i=1,2,…n,分别作为5个子带清浊音判决的支持向量机模型的训练数据,5个子带的清浊音判决结果作为对应支...
【专利技术属性】
技术研发人员:李晔,马晓凤,姜竞赛,郝秋赟,张鹏,
申请(专利权)人:山东省计算中心国家超级计算济南中心,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。