本发明专利技术提供了用于对语音信号LPC系数进行多级矢量量化的方法和系统,以及解码语音信号LPC系数的方法和系统。其中该对语音信号LPC系数进行多级矢量量化的方法包括:通过等效变换,将LPC系数转换为一等价表达,并对该等价表达进行第一级矢量量化,得到相应的第一级量化索引和第一级量化残差;基于GMM模型,对第一级量化残差进行模型聚类分割,得到相应的GMM聚类索引;基于GMM聚类索引,对第一级量化残差进行第二级矢量量化,得到相应的第二级矢量索引;以及将经历进一步编码处理的第一级量化索引、GMM聚类索引、及第二级矢量索引传到解码端。实施本发明专利技术的方法和系统,可实现较高的量化性能和较低的运算复杂度。
【技术实现步骤摘要】
本专利技术涉及语音编码领域,更具体地,本专利技术涉及基于线性预测编码(LPC)类的语音编码技术。
技术介绍
在语音编码压缩中,通常用LPC系数表征语音的短时谱包络,对其高效量化是语音编码中一个关键性问题。由于LPC系数的动态范围比较大,出于合成滤波器稳定性和量化效率的考虑,LPC系数通常被转换为在数学上完全等价的其它形式的参数后再量化,通常的表示形式为导抗谱频率系数(ISF)或线谱频率参数(LSF)。LSF作为LPC系数的一种频域参数,由于其具有更好的量化和插值特性,语音编码端常将LPC系数转换为LSF系数,然后再将LSF系数进行量化,语音解码端进行逆量化得到量化后的LSF参数,并将LSF参数再转换为LPC系数,因此LSF在基于LPC语音编码中得到了广泛的应用。由于矢量量化在相同的编码比特数下能获得比标量量化更低的量化失真,因此对LSF系数量化的研究主要集中在矢量量化上,参见Gardner W R等人发表于IEEE Transactions on Speech and Audio Processing, 1995. 3 (5) :367 381 的论文 Theoretical analysis of the high-rate vector quantization of LPC parameters。目前LPCi吾音编码中的矢量量化技术主要存在以下缺陷第一,将高维LSF系数作为一个矢量进行整体量化的方法并不可行,其存在存储量大、搜索运算复杂、难以实现的问题。第二,对于其他次优矢量量化算法一般都基于LBG等聚类训练算法得到矢量量化器,虽然适合对任何概率分布的源信号进行高效量化,但其需要大量的存储空间存储矢量码本(一般随量化比特数和矢量的维数成指数增长),运算复杂度高、存储空间大。常见的次优矢量量化算法例如多级矢量量化(可参见 LeBlance W P 等人发表于 IEEE Transactions on Speech and Audio Processing, 1993.1 (4) : 373 385 的论文 Efficient search and design procedures for robust mult1-stage VQ of LPC parameters for4Kb/s speech coding.和周高洪等人发表于电子技术应用,2005. 6:4扩51的论文一种增强的LPC参数多级矢量量化技术)、分裂矢量量化(了参见 Paliwal K. K 等人发表于 IEEE Transactions on Speech and Audio Processing, 1993.1 (I) : 3 14 的论文Efficient vector quantization of LPC parameters at24bit/frame和李靓等人发表于北京工业大学学报,2005. 3,Vol. 31,No2:130^135的论文一种高效、低存储的线谱频率参数矢量量化器件)等。2003年Subramaniam提出的基于GMM模型的线谱频率(LSF)参数量化算法 (具体可见 Subramaniam A. D 和 Rao B. D.发表于 IEEE Transactions on Speech and Audio Processing, 2003. 11 (2):130 142 的论文 PDF optimized parametric vector quantization of speech line spectral frequencies),其基本思想是利用高斯混合模型将输入的LSF矢量分成属于不同高斯分布的M个聚类,然后针对每个高斯聚类设计量化器实现对该高斯聚类信号的量化。但是,这种算法是基于标量量化器的,从理论上来说标量量化在相同的比特数的情况下,其量化性能是次于矢量量化的,而且其量化算法需要将输入的矢量通过KLT (Karhunen-Leove变换)转换为标准正态分布,随着输入矢量的维数增加, 其变换的运算复杂度将急剧增加。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的量化性能低、运算复杂度高、存储空间大等问题中的至少一些缺陷,提供以下技术方案。根据本专利技术的第一方面,提供了用于对语音信号LPC系数进行多级矢量量化的方法,其包括通过等效变换,将LPC系数转换为一等价表达,并对该等价表达进行第一级矢量量化,得到相应的第一级量化索引和第一级量化残差;基于GMM模型,对第一级量化残差进行模型聚类分割,得到相应的GMM聚类索引;基于GMM聚类索引,对第一级量化残差进行第二级矢量量化,得到相应的第二级矢量索引;以及将经历进一步编码处理的第一级量化索引、GMM聚类索引、及第二级矢量索引传到解码端。在一个优选实施例中,LPC系数的等价表达可以是LSF或者ISF系数中的一种。进一步地,第一级矢量量化可选自多级矢量量化、分裂矢量量化或混合矢量量化其中一种。优选地,第一级矢量量化进一步包含两次矢量量化,第一次矢量量化采用随机矢量码本对信号进行矢量量化,第二次矢量量化将第一次矢量量化的残差分裂为N维矢量,然后按照第一次矢量量化的量化方式处理N维矢量,得到第一级量化索引和第一级量化残差。在一个优选实施例中,在模型聚类分割中,将第一级量化残差进行高斯格型量化, 得到针对GMM模型各种情况的多个格矢量,以及基于GMM模型及多个格矢量,将第一级量化残差聚类分割到某一 GMM聚类,并确定GMM聚类索引。进一步地,第一级量化残差聚类分割的方法包括全局搜索法。优选地,高斯格型量化包括归一化的步骤,并且归一化后的矢量量化为RE8、Z8、Z16、D8、D16格矢量中的一种。在一个优选实施例中,所述高斯格型量化还包括归一化的步骤,通过下式实现所述归一化_ χ-μ;y=7T 其中X为高斯模型的输入矢量,Ui为第i个高斯模型的均值矢量,^为第1个高斯模型的方差矢量。在优选实施例中,对第一级量化残差进行模型聚类分割的方法可选自全局搜索法、矢量量化法或后验概率计算法中的一种。根据本专利技术的第二方面,提供了用于对语音信号LPC系数进行多级矢量量化的系统,其包括等效变换器,其将LPC系数转换为一等价表达;耦合到等价变换器的第一级矢量量化器,其接收等价表达并对等价表达进行第一级矢量量化,得到相应的第一级量化索引和第一级量化残差;耦合到第一级矢量量化器的GMM模型聚类分割器,其基于GMM模型对第一级量化残差进行模型聚类分割,得到相应的GMM聚类索引;耦合到GMM模型聚类分割器的第二级矢量量化器,其基于GMM聚类索引,对第一级量化残差进行第二级矢量量化,得到相应的第二级矢量索引;以及发送器,将经历进一步编码处理的第一级量化索引、GMM聚类索引、及第二级矢量索引传到解码端。在一个优选实施例中,LPC系数可以是LSF或ISF系数中的一种。进一步地,第一级矢量量化器可选自多级矢量量化器、分裂矢量量化器、混合矢量量化器中的其中一种。优选地,第一级矢量量化进一步包括两次矢量量化,第一次矢量量化采用随机矢量码本对信号进行矢量量化,第二次矢量量化将第一次矢量量化的残差分裂为N维矢量,然后按照第一次矢量量化的量化方式处理N维矢量,得到第一级量化索引和第一级本文档来自技高网...
【技术保护点】
一种用于对语音信号LPC系数进行多级矢量量化的方法,包括:a通过等效变换,将所述LPC系数转换为等价表达,并对所述等价表达进行第一级矢量量化,得到相应的第一级量化索引和第一级量化残差;b基于GMM模型对所述第一级量化残差进行第二级矢量量化,得到相应的第二级矢量索引;以及c将经历进一步编码处理的所述第一级量化索引、GMM聚类索引、及第二级矢量索引传到解码端。
【技术特征摘要】
【专利技术属性】
技术研发人员:张勇,闫建新,
申请(专利权)人:深圳广晟信源技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。