用于预测量化有声语音的方法和设备技术

技术编号:3047001 阅读:123 留言:0更新日期:2012-04-11 18:40
用于预测量化有声语音的一种方法和设备,包括参数生成器和量化器。参数生成器被配置成从诸如有声语音等预测语音帧中提取参数,并把提取的信息转换成频域表示。量化器被配置成从当前帧的参数中减去之前帧参数的权值和。量化器被配置成量化该差值。可以加入原型提取器来提取参数生成器处理的音调周期原型。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

技术介绍
I.专利
本专利技术主要涉及语音处理领域,尤其涉及用于预测量化有声语音的方法和设备。II.背景借助数字技术的语音传送已变得普遍,尤其是在长距离和数字无线电电话应用中。这依次建立了对确定可在信道上发送的最少量的信息,而保持重构的语音的可察觉的质量的兴趣。如果通过简单地采样和数字化而发送语音,要求大约每秒64千比特(kbps)的数据速率,以实现常规模拟电话的语音质量。然而,通过对语音分析的使用,继之以适当的编码、传送以及在接收机处的重新合成,可以在数据速率中实现显著的降低。用于压缩语音的设备在电信的许多领域中得到了应用。一个示例性的领域是无线通信。无线通信领域有许多应用,包括例如无绳电话、寻呼、无线本地回路、诸如蜂窝网和PCS电话系统之类的无线电话技术、移动网际协议(IP)电话技术以及卫星通信系统。尤其重要的应用是用于移动用户的无线电话技术。已经为无线通信系统发展了各种空中接口,包括例如频分多址(FDMA)、时分多址(TDMA)以及码分多址(CDMA)。与此有关的是,已经建立了各种国内的和国际的标准,包括例如高级移动电话服务(AMPS)、全球移动通信系统(GSM)以及暂行标准95(IS-95)。示例性的无线电话技术通信系统是码分多址(CDMA)系统。由电信工业协会(TIA)和其他著名的标准团体颁布了IS-95标准及其派生的IS-95A、ANSI J-STD-008、IS-95B、建议的第3代标准IS-95C以及IS-2000等等(这里把它们一起称为IS-95),为蜂窝网或PCS电话技术通信系统规定了CDMA空中接口的使用。在美国专利号5,103,459和4,901,307中描述了实质上根据对IS-95标准的使用而配置的示例性无线通信系统,把它们转让给本专利技术的受让人,并按引用而充分结合于此。把使用技术以通过提取关于人类语音产生的模型的参数来压缩语音的设备称为语音编码器。语音编码器将进入的语音信号分成时间块或分析帧。语音编码器典型地包括编码器和解码器。编码器分析进入的语音帧,以提取某些相关参数,并然后将这些参数量化成二进制表示,即量化成一组比特或二进制数据分组。在通信信道上将数据分组传送到接收机和解码器。解码器处理数据分组,对它们进行非量化以产生参数,并使用所述非量化的参数重新合成所述语音帧。语音编码器的功能是通过除去语音中所固有的所有自然冗余而将数字化的语音信号压缩成低比特率的信号。通过使用一组参数表示输入语音帧,并使用量化以用一组比特来表示所述参数,来实现数字压缩。如果输入语音帧具有Ni个比特,并且语音编码器产生的数据分组具有No个比特,则由该语音编码器实现的压缩系数是Cr=Ni/No。问题是要保留经解码的语音的高语音质量,而实现目标压缩系数。语音编码器的性能取决于(1)语音模型或上述分析与合成处理的组合能多好地进行,以及(2)能多好地以每帧No比特的目标比特率进行参数量化处理。从而,语音模型的目的是用每帧一小组参数来捕获语音信号的本质,或目标语音质量。语音编码器的设计中最重要的也许是寻找较佳的一组参数(包括矢量)来描述语音信号。较佳的一组参数要求低系统带宽用于对感觉上精确的语音信号的再现。音调、信号功率、谱包络(或共振峰)、幅度谱、以及相位谱是语音编码参数的例子。可以把语音编码器实现为时域编码器,它试图通过使用每次编码小段语音(一般为5毫秒(ms)子帧)的高时间分辨率处理来捕获时域语音波形。对于每个子帧,借助于本领域中已知的各种搜索算法可从编码本空间建立高精度表示。另一方面,可以把语音编码器实现为频域编码器,它试图用一组参数(分析)捕获输入语音帧的短期语音频谱,并使用对应的合成处理,以从频谱参数中重建语音波形。参数量化器根据A.Gersho和R.M.Gray的“Vector Quantization and SignalCompression(1992)”中所描述的已知的量化技术,通过用所存储的编码矢量表示代表所述参数,来保存这些参数。著名的时域语音编码器是按引用而充分结合于此的L.B.Rabiner和R.W.Schafer的“Digital Processing of Speech Signals 396-453(1978)”中所描述的码激励线性预测编码器(CELP)。在CELP编码器中,通过寻找短期共振峰滤波器系数的线性预测(LP)分析可除去语音信号中的短期相关或冗余。将短期预测滤波器施加到输入语音帧,产生了LP残余信号,用长期预测滤波器参数和随后的随机编码本进一步建模并量化该信号。从而,CELP编码将编码时域语音波形的任务分割成对LP短期滤波器系数编码以及对LP残余编码的分开的任务。可用固定的速率(即对每帧使用相同的比特数N0)或以可变的速率(即对不同类型的帧内容使用不同的比特率)进行时域编码。可变速率编码器试图仅使用将编解码器参数编码成足够获得目标质量而所需的比特量。在转让给本专利技术的受让人并按引用而充分结合于此的美国专利号5,414,796中描述了一种示例性的可变速率CELP编码器。诸如CELP编码器之类的时域编码器一般依靠每帧高比特数N0,以保存时域语音波形的精确度。只要每帧比特数N0相对较高(如8kbps或以上),这样的编码器一般提供极佳的语音质量。然而,以低比特率(4kbps以及以下),由于有限的可用比特数,时域编码器不能保持高质量和稳固的性能。以低比特率,有限编码本空间削减了常规时域编码器的波形匹配能力,而在较高速率商业应用中常规时域编码器得到相当成功地使用。因此,尽管随时间的过去而得到改进,但是以低比特率操作的CELP编码系统遭受到感觉上显著的失真,一般把该失真表征为噪声。当前存在研究兴趣的浪潮以及对于发展以中到低的比特率(即在2.4至4kbps以及以下的范围内)操作的高质量语音编码器的商业需要。应用范围包括无线电话技术、卫星通信、因特网电话技术、各种多媒体和语音流应用、语音邮件以及其他语音存储系统。驱动力是对于高容量的需要,以及在分组丢失的情况下对稳固的性能的需求。各种当前的语音编码标准化努力是推进研究和发展低速率语音编码算法的另一直接驱动力。低速率语音编码器以每个可允许的应用带宽建立较多的信道或用户,并且与额外的适当的信道编码层耦合的低速率语音编码器能够适合编码器规范的全部比特预算,并在信道差错的条件下提供稳固的性能。以低比特率有效地编码语音的一个有效技术是多模式编码。在转让给本专利技术的受让人并按引用而充分结合于此的,1998年12月21日申请的名为“VARIABLERATE SPEECH CODING”的美国申请序列号09/217,941中描述了一种示例性的多模式编码技术。常规多模式编码器对不同类型的输入语音帧施加不同的模式,或编码-解码算法。将每种模式或编码-解码处理,以最有效的方式定制成最优地表示某一类型的语音段,诸如例如有声语音、无声语音、过渡语音(如有声和无声之间)以及背景噪声(无声或非语音)。在外部,开环模式判定机构检验输入语音帧,并作出关于要把哪种模式施加到该帧的判定。一般通过从输入帧中提取若干参数,按照某些时间和频谱特性来估计所述参数,并以所述估计作为模式判定的基础来进行所述开环模式判定。以大约2.4kbps的速率操作的编码系统一般实际上是参数的本文档来自技高网...

【技术保护点】
一种量化关于语音参数的信息的方法,其特征在于,包括:为至少一个之前处理的语音帧生成参数的至少一个加权值,其中使用的所有权值的总和等于一;从当前处理的语音帧的参数值中减去至少一个加权值以产生差值;以及量化该差值。

【技术特征摘要】
US 2000-4-24 09/557,2821.一种量化关于语音参数的信息的方法,其特征在于,包括为至少一个之前处理的语音帧生成参数的至少一个加权值,其中使用的所有权值的总和等于一;从当前处理的语音帧的参数值中减去至少一个加权值以产生差值;以及量化该差值。2.如权利要求1所述的方法,其特征在于,至少一个加权值包括刚刚处理的语音帧的参数值,该一个值的权值等于一。3.如权利要求1所述的方法,其特征在于,语音是有声语音。4.如权利要求1所述的方法,其特征在于,参数是音调延迟值。5.如权利要求1所述的方法,其特征在于,参数是幅度值。6.如权利要求1所述的方法,其特征在于,进一步包括为当前处理的语音帧计算参数值。7.如权利要求6所述的方法,其特征在于,计算包括从当前处理的语音帧提取音调周期原型,以及获得该音调周期原型的频域表示。8.如权利要求6所述的方法,其特征在于,计算包括计算当前处理的语音帧的短期频域表示。9.如权利要求8所述的方法,其特征在于,进一步包括把短期频域表示分解成幅度矢量和相位矢量。10.一种被配置成量化关于语音参数的信息的语音编码装置,其特征在于,包括用于为至少一个之前处理的语音帧生成参数的至少一个加权值的装置,其中使用的所有权值的总和等于一;用于从当前处理的语音帧的参数值中减去至少一个加权值以产生差值的装置;用于量化该差值的装置。11.一种被配置成量化关于语音参数的信息的基础单元,其特征在于,包括参数生成器,被配置成为至少一个之前处理的语音帧生成参数的至少一个加权值,其中所有使用的权值的总和等于一;耦合至参数生成器的量化器,并被配置成从当前处理的语音帧的参数值中减去至少一个加权值以产生差值,并量化该差值。12.如权利要求11所述的基础单元,其特征在于,至少一个加权值包括刚刚处理的语音帧的参数值,该一个值的权值等于一。13.如权利要求11所述的基础单元,其特征在于,语音是有声语音。14.如权利要求11所述的基础单元,其特征在于,参数是音调延迟值。15.如权利要求11所述的基础单元,其特征在于,参数是幅度值。16.如权利要求11所述的基础单元,其特征在于,参数生成器被进一步配置成为当前处理的语音帧计算参数值。17.如权利要求16所述的基础单元,其特征在于,参数生成器进一步被配置成从当前处理的语音帧提取音调周期原型,以及获得该音调周期原型的频域表示。18.如权利要求16所述的基础单元,其特征在于,参数生成器进一步被配置成计算当前处...

【专利技术属性】
技术研发人员:AK阿南萨帕德曼那伯汉S曼祖那什PJ黄ELT肖依AP德加科
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利