用于编码和解码非话音语音的方法和设备技术

技术编号:3046875 阅读:149 留言:0更新日期:2012-04-11 18:40
一种用于非话音的语音片段的低比特率编码技术。一组增益在由一个线性预测滤波器白化语音信号以后从一个残余信号获得。然后这些增益被量化并被应用到一个随机产生的稀疏的激励上。该激励被滤波,其频谱特性被分析并且和初始的残余信号的频谱特性进行比较。在该分析的基础上选择一个滤波器以成形该激励的频谱特性而达到最佳的性能。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】
背景专利
所揭示的实施例涉及语音处理领域。更具体地说,所揭示的实施例涉及一种新颖的和经改进的非话音语音段的低比特率编码的方法和设备。背景通过数字技术传输话音已经得到广泛应用,尤其是在长距离的和数字的无线电电话应用方面。反过来,它在确定能通过一个信道发送的最少的信息量而同时保持经重新构造的语音的能被感知到的质量方面引起了兴趣。如果语音通过简单的采样和数字化传输,需要每秒64k比特(kbps)数量级的数据速率才能达到常规的模拟电话的语音质量。然而,通过使用语音分析,再跟以适当的编码,传输和在接收器上再综合,数据速率的显著减小是能够达到的。应用通过提取涉及人类语音生成模型的参数而压缩语音的技术的设备被叫做语音编码器。语音编码器把输入的语音信号分成几个时间大块,或分析帧。语音编码器通常包括一个编码器和一个解码器,或者一个编码解码器。编码器分析输入的语音帧以提取一定的相关参数,然后将这些参数量化为两进制的表示,即变为一组比特或一个两进制数据包。数据包通过通信信道传输到接收器和解码器。解码器处理该数据包,将其解量化以产生参数,然后用这些解量化的参数再综合成语音帧。语音编码器的功能是通过去除所有语音内在多余的自然信息而将数字化的语音信号压缩为低比特率的信号。数字化的压缩通过用一组参数表示输入的语音帧以及应用量化来用一组比特表示这些参数而达到。如果该输入的语音帧有一个比特数Ni,以及由语音编码器产生的数据包有一个比特数No,由语音编码器得到的压缩因子Cr=Ni/No。挑战是既要保留经解码的语音的高语音质量,又要达到目标的压缩因子。语音编码器的性能取决于(1)语音模式,或上述分析和综合处理的结合进行得怎样好,和(2)在每帧No比特的目标比特率上参数量化处理进行得怎样好。语音模式的目标是对于每一个帧用一个小的参数组就能够捕获到语音信号的本质或目标语音质量。语音编码器可以被作为时域的编码器实施,它试图通过应用高时间分辨率的处理来捕获时域的语音波形而一次编码一个小的语音片段(通常是5毫秒(ms)的子帧)。对于每一个子帧,来自一个编码本空间的高精确度表示通过在技术上已知的各种算法系统而被找到。或者,语音编码器可以被作为频域的编码器实施,它试图用一组参数(分析)捕获输入语音帧的短期语音频谱以及应用一个相应综合处理从该频谱参数重新创立语音波形。参数量化器根据在A.Gersho & R.M.Gray的著作“矢量量化和信号压缩”(1992)中叙述的已知的量化技术,通过用储存的编码矢量对它们的描绘而保存这些参数。一种众所周知的时域语音编码器是在L.B.Rabiner & R.W.Schafer的著作“语音信号的数字处理”396-453(1978)中叙述的代码激励线性预测(CELP)编码器,该文通过引用而全部被结合在本文中。在CELP编码器中,语音信号的短期相关,或冗余,通过一个线性预测(LP)分析而去除,从中发现一个短期共振峰滤波系数。将短期滤波应用到输入的语音帧产生一个LP残余信号,该信号用长期预测滤波参数和一个后续的随机码本进一步模式化和量化。这样,CELP编码将编码时域的语音波形的任务分解为独立的编码LP短时间滤波系数和编码LP残余的任务。时域编码能以一个固定速率(即对每一个帧用相同的比特数N0)或以一个变化的速率(对不同类型的帧内容用不同的比特率)实行。可变速率编码器试图只用将编码解码参数编码到一个适合于获得目标质量的水平所需要的比特数量。一个示例的可变速率CELP编码器在美国专利号No.5414796中作过叙述,它被转让给本揭示的实施例的受让人并且通过引用而完全结合在本文中。诸如CELP编码器的时域编码器通常依赖于每帧高数量的比特数No来保持时域语音波形的精确度。这样的编码器通常传递由相对大(例如8kbps或以上)的每帧比特数N0提供的优秀的语音质量。然而,在低比特率(4kbps或以下)时由于受到可得到的比特数的限制,时域编码器就不能保持高质量和稳健的性能。在低比特率时,受限制的码本空间降低了常规的时域编码器在高速率商业应用中成功施展的波形匹配能力。通常,CELP方案应用一个短期预测(STP)滤波和一个长期预测(LTP)滤波。一种通过综合的分析(AbS)方法被用在编码器上以发现LTP延时和增益以及最佳的随机码本增益和指数。当前的最新技术编码器诸如增强的可变速率编码器(EVRC)能在大约每秒8k比特的数据速率上达到综合后的语音的优良质量。大家也知道,非话音的语音是不能显示其周期性的。在常规的CELP方案中编码LTP滤波消耗的带宽对于非话音语音是不象语音的周期性强因而LTP滤波才有意义的话音语音那样被有效率地利用。因此,对于非话音语音就需要一种更高效率(即更低的比特率)的编码方案。对于在低比特率上编码,发展了各种语音的频谱的或频域的编码方法,在这些方法中,语音信号被分析作为一个频谱的时间变化的演变。例如参看“语音编码和综合”第四章(M.B.Kleijn & K.K.Paliwal,1995版)中R.J.McAulay& T.F.Quatieri的“正弦编码”。在频谱编码器中,目标将用一组频谱参数来建模或预测每个语音的输入帧的短期语音频谱,而不是去精确地模仿时间变化的语音波形。然后频谱参数被编码,并且语音的一个输出帧被用经解码的参数创立。结果的综合的语音和初始的输入语音波形不匹配,但提供了相似的感觉质量。在技术上众所周知的频域编码器的实例包括多频带激励编码器(MBEs),正弦变换编码器(STCs),以及谐波编码器(HCs)。这样的频域编码器提供了一种高质量的参数模型,该参数模型具有一组能用在低比特率下得到的低比特数精确量化的紧凑的参数。然而,低比特率编码带来了一个有限的编码分辨率或有限的码本空间的重大约束,它限制了单个的编码机制的有效性,使编码器不能在各种背景条件下用相同的精确度描绘各种类型的语音片段。例如,常规的低比特率频域编码器不传递语音帧的相位信息。代之以的是,相位信息要通过用一个随机的人工产生的初始相位值和线性内插法技术重新构成。例如参看在“29电子通信”856-57(1993年5月)中H.Yang等人的“在MBE模型中的对于话音语音综合的二次阶段内插法”。因为相位信息是人工产生的,即使正弦曲线的振幅由量化-非量化处理完全保持,由频域编码器产生的输出语音将和初始的输入语音不对齐(即主要的节奏将不同步)。因此已经证实,在频域编码器中,采用任何闭环性能测试,诸如信-噪比(SNR)或感觉SNR等是困难的。一个在低比特率条件下高效地对语音编码的有效技术是多模式编码。多模式编码技术已经和一种开环模式判决处理相结合而用于进行低速率语音编码。一种这样的多模式编码技术在“语音编码和综合”第七章(M.B.Kleijn &K.K.Paliwal,1995版)中Amitava Das等人的“语音的多模式和可变速率编码”中叙述过。常规的多模式编码器将不同的模式,或编码-解码算法应用到输入语音帧的不同类型。每一个模式,或编码-解码处理都以最有效率的方式定制成描绘一个语音片段的一定的类型,诸如有话音语音,非话音语音,或背景噪声(无话音)。一个外部的开环模式本文档来自技高网...

【技术保护点】
一种编码非话音语音片段的方法,其特征在于,该方法包括:将一个残余信号帧划分成多个子帧;通过为多个子帧中的每一个子帧计算一个码本增益而建立一组子帧增益;将该子帧增益组分解成子帧增益子组;标准化子帧增益子组以产生多个标准化因子, 其中多个标准化因子的每一个因子都和子帧增益的标准化子组之一相关联;将多个标准化因子的每一个因子都转换成指数形式并且将经转换的多个标准化因子量化;将标准化的子帧增益子组量化,以产生多个量化码本增益,其中码本增益的每一个增益都和多个子组 之一的一个码本增益指数相关联;对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号;对多个子帧中的每一个子帧选择一预定百分比的随机噪声信号的最高振幅随机数;对每一个子帧由量化的码本增益按比例缩放经选择的最高振幅随机数以产生一 个按比例缩放的随机噪声信号;带通滤波和成形该按比例缩放的随机噪声信号;分析残余信号帧的能量和按比例缩放的随机信号的能量以产生能量分析;在能量分析的基础上选择第二滤波器并用该选择的滤波器进一步成形按比例缩放的随机噪声信号;以及 产生一个第二滤波器选择指示以识别该选择的滤波器。...

【技术特征摘要】
US 2000-10-17 09/690,9151.一种编码非话音语音片段的方法,其特征在于,该方法包括将一个残余信号帧划分成多个子帧;通过为多个子帧中的每一个子帧计算一个码本增益而建立一组子帧增益;将该子帧增益组分解成子帧增益子组;标准化子帧增益子组以产生多个标准化因子,其中多个标准化因子的每一个因子都和子帧增益的标准化子组之一相关联;将多个标准化因子的每一个因子都转换成指数形式并且将经转换的多个标准化因子量化;将标准化的子帧增益子组量化,以产生多个量化码本增益,其中码本增益的每一个增益都和多个子组之一的一个码本增益指数相关联;对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号;对多个子帧中的每一个子帧选择一预定百分比的随机噪声信号的最高振幅随机数;对每一个子帧由量化的码本增益按比例缩放经选择的最高振幅随机数以产生一个按比例缩放的随机噪声信号;带通滤波和成形该按比例缩放的随机噪声信号;分析残余信号帧的能量和按比例缩放的随机信号的能量以产生能量分析;在能量分析的的基础上选择第二滤波器并用该选择的滤波器进一步成形按比例缩放的随机噪声信号;以及产生一个第二滤波器选择指示以识别该选择的滤波器。2.如权利要求1所述的方法,其特征在于,其中将一个残余信号帧划分成多个子帧的步骤包括将一个残余信号帧划分成10个子帧。3.如权利要求1所述的方法,其特征在于,其中将该子帧增益组分解成子帧增益子组的步骤包括将一组十个子帧增益划分成两组,每组五个子帧增益。4.如权利要求1所述的方法,其特征在于,其中残余信号帧包括以每秒八千赫兹采样20毫秒所得的每帧160个采样。5.如权利要求1所述的方法,其特征在于,其中预定的最高振幅随机数的百分比为百分之二十五。6.如权利要求1所述的方法,其特征在于,其中两个标准化因子是为两个子组产生的,该两个子组每一个都有五个子帧码本增益。7.如权利要求1所述的方法,其特征在于,其中量化子帧增益是用多级矢量量化进行的。8.一种编码非话音语音片段的方法,其特征在于,该方法包括将一个残余信号帧划分成子帧,每一个子帧有一个与其相关的码本增益;量化增益以产生指数;通过与子帧相关联的指数按比例缩放和每一个子帧相关联的某一百分比的随机噪声;对按比例缩放的随机噪声进行一次第一滤波;将经滤波的噪声和残余信号比较;以该比较为基础对随机噪声进行一次第二滤波;产生一个第二滤波器选择指示以识别所进行的第二滤波。9.如权利要求8所述的方法,其特征在于,其中将一个残余信号帧划分成子帧的步骤包括将一个残余信号帧划分成10个子帧。10.如权利要求8所述的方法,其特征在于,其中残余信号帧包括以每秒八千赫兹采样20毫秒所得的每帧160个采样。11.如权利要求8所述的方法,其特征在于,其中随机噪声的百分比为百分之二十五。12.如权利要求8所述的方法,其特征在于,其中量化增益以产生指数是用多级矢量量化进行的。13.一种用于编码非话音语音片段的语音编码器,其特征在于,该编码器包括将一个残余信号帧划分成多个子帧的装置;通过为多个子帧中的每一个子帧计算一个码本增益而建立一组子帧增益的装置;将该子帧增益组分解成子帧增益子组的装置;标准化子帧增益子组以产生多个标准化因子的装置,其中多个标准化因子的每一个因子都和子帧增益的标准化子组之一相关联;将多个标准化因子的每一个因子都转换成指数形式并且将经转换的多个标准化因子量化的装置;将标准化的子帧增益子组量化,以产生多个量化码本增益的装置,其中码本增益的每一个增益都和多个子组之一的一个码本增益指数相关联;对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号的装置;对多个子帧中的每一个子帧选择一预定百分比的随机噪声信号的最高振幅随机数的装置;对每一个子帧由量化的码本增益按比例缩放经选择的最高振幅随机数以产生一个按比例缩放的随机噪声信号的装置;带通滤波和成形该按比例缩放的随机噪声信号的装置;分析残余信号帧的能量和按比例缩放的随机信号的能量以产生能量分析的装置;在能量分析的的基础上选择第二滤波器并用该选择的滤波器进一步成形按比例缩放的随机噪声信号的装置;以及产生一个第二滤波器选择指示以识别该选择的滤波器的装置。14.如权利要求13所述的语音编码器,其特征在于,其中将一个残余信号帧划分成多个子帧的装置包括将一个残余信号帧划分成10个子帧的装置。15.如权利要求13所述的语音编码器,其特征在于,其中将该组子帧增益划分成子组的装置包括将一组十个子帧增益划分成两个组,其中每个组为五个子帧增益的装置。16.如权利要求13所述的语音编码器,其特征在于,其中选择一预定百分比的最高振幅随机数的装置包括选择百分之二十五的最高振幅随机数的装置。17.如权利要求13所述的语音编码器,其特征在于,其中标准化子组的装置包括为两组,每一组为五个子帧码本增益的子组产生两个标准化因子的装置。18.如权利要求13所述的语音编码器,其特征在于,其中量化子帧增益的装置包括进行多级矢量量化的装置。19.一种编码非话音语音片段的语音编码器,其特征在于,该编码器包括将一个残余信号帧划分成子帧的装置,每一个子帧有一个与其相关的码本增益;量化增益以产生指数的装置;通过与子帧相关联的指数按比例缩放和每一个子帧相关联的某一百分比的随机噪声的装置;对按比例缩放的随机噪声进行一次第一滤波的装置;将经滤波的噪声和残余信号比较的装置;以该比较为基础对随机噪声进行一次第二滤波的装置;产生一个第二滤波器选择指示以识别所进行的第二滤波的装置。20.如权利要求19所述的语音编码器,其特征在于,其中将一个残余信号帧划分成子帧的装置包括将一个残余信号帧划分成10个子帧的装置。21.如权利要求19所述的语音编码器,其特征在于,其中按比例缩放某一百分比的随机噪声的装置包括一个按比例缩放百分之二十五的最高振幅随机噪声的装置。22.如权利要求19所述的语音编码器,其特征在于,其中量化增益以产生指数的装置包括进行多级矢量量化的装置。23.一种编码非话音语音片段的语音编码器,其特征在于,该编码器包括一个增益计算部件,该部件配置成将一个残余信号帧划分成多个子帧,通过为多个子帧中的每一个子帧计算一个码本增益建立一组子帧增益,将该组子帧增益划分成子帧增益子组,标准化子帧增益子组以产生多个标准化因子,其中多个标准化因子中的每一个因子都和标准化的子帧增益子组中的一个子组相关联,以及将多个标准化因子中的每一个因子都转换成指数形式;一个增益量化器,该量化器配置成量化经转换的多个标准化因子以产生量化的标准化因子指数,以及量化标准化的子帧增益子组以产生多个量化的码本增益,其中码本增益中的每一个增益都和多个子组中的一个子组的一个码本增益指数相关联;一个随机数产生器,该产生器配置成对多个子帧中的每一个子帧产生一个包括随机数的随机噪声信号;一个随机数选择器,该选择器配置成对多个子帧中的每一个子帧选择一预定百分比的随机噪声信号的最高振幅随机数;一个乘法器,该乘法器配置成为每一个子帧用量化的码本增益按比例缩放经选择的最高振幅随机数,以产生按比例缩放的随机噪声信号;一个用于从按比例缩放的随机噪声信号中消除低端和高端频率的带通滤波器;一个用于感觉滤波按比例缩放的随机噪声信号的第一成形滤波器;一个非按比例缩放的带能分析器,该分析器配置成分析残余信号的能量;一个按比例缩放的带能分析器,该分析器配置成分析按比例缩放的随机信号的能量,以及产生一个和按比例缩放的随机信号的能量相比较的残余信号能量的相关能量分析;一个第二成形滤波器,该滤波器配置成在相关能量分析的基础上选择一个第二滤波器,用该选择的滤波器进一步成形按比例缩放的随机噪声信号,并且产生一个第二滤波器选择指示以识别该选择的滤波器。24.如权利要求23所述的语音编码器,其特征在于,其中带通滤波器和第一成形滤波器是固定的滤波器。25.如权利要求23所述的语音编码器,其特征在于,其中第二成形滤波器用两个固定的成形滤波器配置。26.如权利要求23所述的语音编码器,其特征在于,其中配置成产生一个第二滤波器选择指示以识别该选择的滤波器的第二成形滤波器被进一步配置成产生一个两比特滤波器选择指示。27.如权利要求23所述的语音编码器,其特征在于,其中配置成将一个残余信号帧划分成多个子帧的增益计算部件被进一步配置成将残余信号帧划分成十个子帧。28.如权利要求23所述的语音编码器,其特征在于,其中配置成将该组子帧增益划分成子组的增...

【专利技术属性】
技术研发人员:黄鹏俊
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1