语音编码制造技术

技术编号:3047535 阅读:157 留言:0更新日期:2012-04-11 18:40
一种使用长时预测(LTP)对采样语音信号进行编码的语音编码方法。通过为信号帧确定预定最大和最小延迟之间的自相关函数,可以为语音信号的每一帧确定LTP音调滞后值参数。然后,自相关函数被加权来加强为最近的浊音帧确定的音调滞后值参数邻近区域中的延迟函数。然后会找到加权自相关函数的最大值,并且该值被识别为该帧的音调滞后值参数。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】
该专利技术涉及语音编码,并特别适用于采用长时预测(LTP)参数的语音编码方法和装置。语音编码被用于很多希望压缩音频语音信号以降低将要发送、处理或贮存的数据量的通讯应用中。特别的,语音编码广泛应用于蜂窝电话网络。其中移动电话和通讯控制基站配有所谓音频编解码器,该编解码器对音频信号进行编码和解码。由于最大化网络呼叫容量的需要,必须在蜂窝电话网中对数据进行语音编码压缩。现代的语音编解码器一般通过在称为帧的短片段中处理语音来工作。在被称作GSM(由欧洲通讯标准研究所----ETSI----细则06.60定义)的欧洲数字蜂窝电话系统中,这种帧的长度为20毫秒,对应于8KHZ采样率下160个语音样本。在发送站,由语音编码器来分析每个语音帧以提取一组编码参数用来发送给接收站。在接收站,基于接收的参数,解码器产生合成的语音帧。典型的所提取的编码参数组包括用于信号短时预测的谱参数(已知为LPC参数),和用于信号长时预测(已知为LTP参数)的参数,各种增益参数,激励参数和码书矢量。附图说明图1简要给出了所谓的CELP编解码器中的编码器(在移动站和控制基站中都提供有基本上相同的CELP编解码器)每个接收到的采样语音信号s(n)的帧,其中n表示采样编号,首先被短时预测单元1分析以确定该帧的LPC参数,这些参数被提供给复用器2以组合通过空气接口传送的编码参数。来自短时预测单元1的残留信号r(n),即,除去短时冗余后的语音信号帧,被传送给长时预测单元3来确定LTP参数,这些参数又被提供给复用器2。编码器包括一个LTP合成滤波器4和一个LPC合成滤波器5,分别接收LTP和LPC参数,这些滤波器为信号c(n)引入短时和长时冗余以产生给成的语音信号ss(n),其中的冗余是通过码书6产生的。在比较器7,合成的语音信号与实际的语音信号s(n)一帧一帧的相比,以产生误差信号e(n)。在加权滤波器8对误差信号加权之后(以已知的方法加强信号的共振峰),信号被传送给码书搜索单元9,搜索单元9在码书6中为每一帧进行搜索以识别出与实际语音帧最匹配的码书中的记录(在LPT和LPC滤波,以及在乘法器10中乘以增益g之后),即确定最小化误差信号e(n)的信号c(n),表明最佳匹配记录的矢量被提供给复用器2以便作为语音编码信号t(n)的一部分通过空气接口传送。图2简要给出一种CELP编解码器中的解码器。接收到的编码信号t(n)被解复用器11解复用成单个的编码参数。码书矢量被用于码书12,与编码器中的码书6相同,以提取码书记录c(n)的流,然后再将信号施加给串行放置的LTP合成滤波器14和LPC合成滤波器15之前,信号c(n)在乘法器13中被乘以接收增益g。LTP和LPC滤波器从传输信道接收相关的参数并在信号中重新引入短时和长时冗余以在输出处产生合成的语音信号ss(n)。LTP参数已包括所谓的音调滞后值参数,该参数描述语音信号的基础频率。残留信号当前帧音调滞后值的确定通过两个步骤实现。首先,进行开环搜索,涉及对残留信号相对粗略的搜索,受限于预定的最大和最小延迟,以找到对一部分与当前帧最匹配的信号。然后对已经合成的信号进行闭环搜索。闭环搜索在音调滞后值的开环估计值邻近区域中小范围延迟内进行。重要的是,如果在开环搜索中发生了错误,那么在闭环搜索中不能校正该错误。在早期已知的编解码器中,通过确定残留语音信号中帧的自相关函数,开环LTP分析可以为残留信号的给定帧确定音调滞后值,即R^(d)=Σn=0N-1r(n-d)r(n)---d=dL,...,dH]]>其中d是延迟,r(n)是残留信号,dL和dH是搜索边界,N是帧长度,音调滞后值dpl可以被识别为延迟dmax,该值对应于自相关函数 的最大值,这一点在图3中给予说明。然而在这种编解码器中,存在一种可能是,自相关函数的最大值对应于多个或亚多个(submultiple)音调滞后值值,并且因此估计的音调滞后值将不正确。EP0628947通过对自相关函数 施加一个加权函数w(d)来解决这一问题。即R^w(d)=w(d)Σn=0N-1r(n-d)r(n)]]>其中加权函数具有下述形式w(d)=dlog2K]]>K是一个调整参数,该参数被设置为一个足够低的值以降低在多个音调滞后值上获得 的最大值的可能性,但是同时,该值被设置的足够大以排除亚多个音调滞后值。EP0628947还建议在为当前帧确定音调滞后值时考虑为以前帧确定的音调滞后值。更特别的是,帧被分类为浊音或清音,对于当前帧,会在为最近的浊音帧确定的音调滞后值的邻近区域搜索最大值。如果 的所有最大值都位于该邻近区域之外,并且不超过该邻近区域中最大值的3/2,那么该邻近区域的最大值被识别为对应于该音调滞后值。用这种方法,可以保持音调滞后值估计的连续性,降低音调滞后值中错误变化的可能性。根据该专利技术的第一方面,给出了一种对于信号帧序列中每一帧利用音调滞后值参数对采样信号进行编码的语音编码算法,该方法包括对于每一帧为信号帧确定预定最大延迟和最小延迟之间的自相关函数;对自相关函数加权以加强为以前帧确定的音调滞后值参数邻近区域中的延迟函数;将对应于加权自相关函数最大值的延迟识别为该帧的音调滞后值参数。最好的是,所述的采样信号是通过从音频信号中主要除去短时冗余而从音频信号获得的残留信号,另外可选的是,采样信号可以是一种音频信号。最好的是,所述的加权通过将自相关函数与具有以下形式的加权函数组合来实现w(d)=(|Tprev-d|+dL)log2Knw]]>其中,Tprev是在一个或多个以前帧的基础上确定的音调滞后值参数,dL是所述的最小延迟,Knw是定义邻近区域加权的调整参数。另外,相对于较长的延迟,加权函数可以为较短的延迟来加强自相关函数。在这种情况下,使用了一种修正的加权函数w(d)=(|Tprev-d|+dL)log2Knw·dlog2Kw]]>其中Kw是另一个调整参数。在本专利技术的某种实施方案中,Tprev是一个以前帧的音调滞后值Told。然而,在另一个实施方案中,Tprev是从一些以前帧的音调滞后值中获得。特别的,Tprev可以对应于预定数量的以前帧的音调滞后值的中值。可以使用另一种加权,这种加权与用来确定所述中值的n个音调滞后值的标准偏差成反比。使用后一方法,有可能降低错误音调滞后值对自相关函数加权的影响。最好的是,该方法包括将所述帧划分成浊音和非浊音帧,其中所述的以前帧是最近的浊音帧,非浊音帧可以包括清音帧、包括无声段或背景噪声的帧。更好的是,如果所述的以前帧不是最近的帧,加权作用被削弱。在一个实施方案中,接收到连续的非浊音帧序列,加权作用的削弱基本上与该序列中的帧数成正比。对于在前一段给出的加权函数wn(d),调整参数Knw可以被修正为wd(d)=(|Tprev-d|+dL)log2KnwA·dlog2Kw]]>其中A是另一个调整因子,该因子随着连续非浊音帧序列中每一帧的接收而增长。通过将A返回为最小值,加权值对于下一个浊音帧而言恢复到其最大值。A值同样可以随着浊音帧的接收而增加,这产生一个开环增益,该增益小于预定的阈值增益。根据该发本文档来自技高网...

【技术保护点】
一种利用信号帧序列中每一帧的音调滞后值参数对采样信号进行编码的语音编码方法,对于每一帧,该方法包括: 为信号帧确定预定最大延迟和最小延迟之间的自相关函数; 对自相关函数加权以加强为以前帧确定的音调滞后值参数邻近区域中的延迟函数; 将对应于加权自相关函数最大值的延迟识别为该帧的音调滞后值参数。

【技术特征摘要】
FI 1997-5-7 971976;FI 1998-3-5 9805021.一种利用信号帧序列中每一帧的音调滞后值参数对采样信号进行编码的语音编码方法,对于每一帧,该方法包括为信号帧确定预定最大延迟和最小延迟之间的自相关函数;对自相关函数加权以加强为以前帧确定的音调滞后值参数邻近区域中的延迟函数;将对应于加权自相关函数最大值的延迟识别为该帧的音调滞后值参数。2.根据权利要求1的方法,其中的加权函数具有以下形式wd(d)=(|Told-d+dL)log2Knw]]>其中Told是所述以前帧的音调滞后值,dL是所述的最小延迟,Knw是定义邻近区域加权的调整参数。3.根据权利要求1的方法,其中的自相关函数被加权以为各个以前帧确定的多个音调滞后值中值的邻近区域内的延迟函数。4.根据权利要求3的方法,其中的加权函数具有以下形式wd(d)=(|Tmed-d|+dL)log2Knw]]>其中Tmed为各个以前帧确定的多个音调滞后值的中值,dL是所述的最小延迟,Knw是定义邻近区域加权的调整参数。5.根据权利要求4的方法,其中的加权函数通过与所述多个音调滞后值的标准偏差成反比的因子来修正。6.根据前面任何一个权利要求的方法,其中所述的加权相对于较长...

【专利技术属性】
技术研发人员:A拉卡尼米J瓦伊尼奥P奥亚拉P哈尔维斯托
申请(专利权)人:诺基亚流动电话有限公司
类型:发明
国别省市:FI[芬兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1