语音解码中语音帧差错隐蔽的方法和系统技术方案

技术编号:3046813 阅读:199 留言:0更新日期:2012-04-11 18:40
一种用于在作为解码器中接收到的已编码位流的部分的语音序列中隐蔽一个或多个坏帧中的差错的方法和系统。当语音序列是话音时,在坏帧中的LTP-参数被上一个帧中相应的参数替代。当语音序列是非话音时,在坏帧中的LTP-参数被基于LTP历史值以及有限自适应随机项算得的值替代。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般涉及对来自已编码位流的语音信号的解码,更具体而言,涉及在语音解码期间语音帧中检测到差错时将受损语音参数隐蔽。
技术介绍
语音和声频编码算法在通信,多媒体和存储系统中具有广泛的应用。编码算法的发展是由在保持高质量合成信号的同时节省传输和存储容量的需要所驱动的。编码器的复杂性是由,例如,应用平台的处理能力所限制。在某些应用中,例如,话音存储,编码器可以非常复杂,而解码器应该尽可能简单。现代的语音编码解码器是通过处理被称为帧的短数据段中的语音信号进行工作的。典型的语音编码解码器的帧长度是20ms,假定采样频率为8KHz,这对应于160个语音样本。在宽带的编码解码器中,假定采样频率为16KHz,典型的20ms的帧长度对应于320个语音样本。帧可被进一步划分成许多子帧。对于每个帧,编码器确定一个输入信号的参数表示。这些参数被量化并以数字形式通过一个通信信道发送(或存储在一种存储介质中)。解码器根据接收到的参数产生合成的语音信号,如图1中所示。一个典型的被抽取的编码参数集包括对信号短时间预测中使用的谱参数(如线性预测编码(LPC)参数),对信号长时间预测(LTP)使用的参数,各种增益参数,和激活参数。LTP参数与语音信号的基频紧密相关。这种参数通常被称为所谓的基音-滞后(Pitch-Lag)参数,它用语音样本来描述基本周期,增益参数之一也与基本周期关系密切,所以被称为LTP增益。在使语音尽可能自然方面LTP增益是一个非常重要的参数。以上的编码参数的描述一般地说适合于各种各样的语音编码解码器,包括所谓的代码-激活的线性预测(CELP)编码解码器,它暂时是最成功的语音编码解码器。语音参数被以数字形式通过一个通信信道进行发送。有时通信信道的条件改变,这可能对位流造成差错。这将造成帧差错(坏帧),也就是描述一个特定的语音段(典型情况下是20ms)的某些参数被损坏。有两种帧差错全部受损的帧和部分受损的帧。这些帧有时在解码器中根本没有接收到。在基于分组的传输系统中,如在通常的因特网连接中,当数据分组将不再到达接收机,或者数据分组到达如此之晚,以致由于谈话语音的实时性质不可能被使用时,可能产生这种情况。部分受损的帧是一个这样的帧,它到达接收机并可能仍然包含某些未出差错的参数。这通常是在电路交换连接,如在现有的GSM连接中的情况。典型情况下在部分受损的帧中位差错率(BER)大约是0.5-5%。从以上的描述可以看到,在处理由于丢失语音参数使重建的语音降质方面,两种坏的或受损的帧将需要不同的措施。丢失或出错的语音帧是通信信道不良状况的结果,使得位流出差错。当在接收到的语音帧中检测到差错时,启动差错校正步骤。这种差错校正步骤通常包括置换步骤和静音步骤。在先前技术中,坏帧的语音参数被经衰减或修改的来自前面的好帧的值替代。然而,在受损帧中某些参数(如CELP参数中的激励值)可能仍然被用于解码。图2示出现有技术方法的原理。如图2中所示,一个标记为“参数历史”的缓存器被用于存储上一次好帧的语音参数。当检测到一个坏帧时,坏帧指示器(BFI)被设置为1,并启动差错隐蔽步骤。当BFI未被设置(BFI=0)时,参数历史值被更新,语音参数被用于解码而不进行差错隐蔽。在先前技术系统中,差错隐蔽步骤使用参数历史值以便隐蔽在受损的帧中丢失或出错的参数。从接收到的帧中可以使用某些语音参数,即使该帧被分类为一个坏帧(BFI=1)。例如,在GSM自适应多速率(AMR)语音编码解码器(ETSI技术说明06.91)中,始终使用来自信道的激励向量。当语音帧是完全丢失的帧(例如,在某些基于IP的传输系统中),将不使用来自接收到的坏帧的参数。在某些情况下,将接收不到帧,或者该帧将到达如此之晚,以致不得不被分类为一个丢失的帧。在现有技术系统中,LTP-滞后隐蔽使用上一个良好的LTP-滞后值,其中小部分稍作修改,并且用稍向恒定的平均值推移的上一个良好的参数替代谱参数。通常可用被衰减的上一个良好的值或几个前面的良好值的中值代替增益(LTP和编码簿)。对所有的子帧使用相同的被置换的语音参数,其中某些稍作修改。现有技术LTP隐蔽对于稳态的语音信号可能是合适的,例如,语音或稳态的语音。然而,对于非稳态语音信号,先前技术方法可能引起不愉快的和可听到的人为产物。例如,当语音信号是非话音的或非稳态时,简单地利用上一个良好的滞后值替代坏帧中的滞后值具有在非话音语音脉冲串的中间生成短的话音语音段的效果(见图10)。这种效果,被称为“堆”(bing)的人为产物,可能是令人烦恼的。提供一种用于在语音解码中差错隐蔽以改进语音质量的方法和系统是有益的并且是所希望的。
技术实现思路
本专利技术利用这样的事实,即在语音信号中长时间预测(LTP)参数之间有可辨认的关系。特别是,LTP-滞后与LTP-增益有牢固的相关性。当LTP-增益是高的和合乎情理地稳定时,LTP-滞后在典型情况下是非常稳定的,并且在相邻的滞后值之间的变化很小。在这种情况下,语音参数是话音的语音序列的指示。当LTP-增益是低的或非稳定时,LTP-滞后在典型情况下是非话音的,语音参数是非话音的语音序列的指示。一旦语音序列被分类为稳态的(话音的)或非稳态的(非话音的),在序列中的受损的或坏帧可以不同方式进行处理。因此,本专利技术的第一方面是一种用于隐蔽在指明语音解码器中接收到的语音信号的已编码位流中的差错的方法,其中已编码的位流包括多个排列在语音序列中的语音帧,语音帧包括至少一个受损的帧,在此帧前面有一个或多个未受损的帧,其中受损的帧包括一个第一长时间预测滞后值和一个第一长时间预测增益值,未受损的帧包括第二长时间预测滞后值和第二长时间预测增益值,其中第二长时间预测滞后值包括一个上次的长时间预测滞后值,第二长时间预测增益值包括一个上次的长时间预测增益值,语音序列包括稳态的和非稳态的语音序列,其中受损的帧可以部分地受损或完全地受损。该方法包括以下步骤确定是否第一长时间预测滞后值是在根据第二长时间预测滞后值确定的上限和下限以内还是以外;当第一长时间预测滞后值是在上限和下限以外时,用第三滞后值代替部分受损帧中的第一长时间预测滞后值;和当第一长时间预测滞后值在上限和下限以内时,保持部分受损帧中的第一长时间预测滞后值。另一种方法,该方法包括以下步骤根据第二长时间预测增益值,确定受损帧排列在其间的语音序列是稳态的还是非稳态的;当语音序列是稳态时,用上次的长时间预测滞后值代替受损帧中的第一长时间预测滞后值;和当语音序列是非稳态时,用根据第二长时间预测滞后值和有限自适应的随机滞后抖动确定的第三长时间预测滞后值代替受损帧中的第一长时间预测滞后值,和用根据第二长时间预测增益值和有限自适应的随机增益抖动确定的第三长时间预测增益值代替受损帧中的第一长时间预测增益值。最好,第三长时间预测滞后值至少部分地基于第二长时间预测滞后值的加权中值计算,该有限自适应随机滞后抖动是一个基于第二长时间预测滞后值确定的限值为界限的值。最好,该第三长时间预测增益值至少部分地基于第二长时间预测增益值的加权中值计算,该有限自适应随机增益抖动是一个基于第二长时间预测增益值的为界限的值。另一种方法,该方法包括以下步骤确定是否受损帧是部分受损还是完全受损;如果受损帧是完全地受损,用第三滞本文档来自技高网
...

【技术保护点】
一种用于在语音解码器中指明接收到的语音信号的编码位流中隐蔽差错的方法,其中编码的位流包括多个排列在语音序列中的语音帧,语音帧包括至少一个部分受损的帧,在该帧前面有一个或多个未受损的帧,其中部分受损的帧包括一个第一长时间预测滞后值和一个第一长时间预测增益值,未受损的帧包括第二长时间预测滞后值和第二长时间预测增益值,其中第二长时间预测滞后值包括一个上次的长时间预测滞后值,和第二长时间预测增益值包括一个上次的长时间预测增益值,所述的方法包括以下步骤:    根据第二长时间预测滞后值提供一个上限和一个下限;    确定是否第一长时间预测滞后值是在上限和下限以内或以外;    当第一长时间预测滞后值是在上限和下限之外时,用第三滞后值替代部分受损帧中的第一长时间预测滞后值;和    当第一长时间预测滞后值是在上限和下限以内时,保持部分受损帧中的第一长时间预测滞后值。

【技术特征摘要】
【国外来华专利技术】US 2000-10-31 09/702,5401.一种用于在语音解码器中指明接收到的语音信号的编码位流中隐蔽差错的方法,其中编码的位流包括多个排列在语音序列中的语音帧,语音帧包括至少一个部分受损的帧,在该帧前面有一个或多个未受损的帧,其中部分受损的帧包括一个第一长时间预测滞后值和一个第一长时间预测增益值,未受损的帧包括第二长时间预测滞后值和第二长时间预测增益值,其中第二长时间预测滞后值包括一个上次的长时间预测滞后值,和第二长时间预测增益值包括一个上次的长时间预测增益值,所述的方法包括以下步骤根据第二长时间预测滞后值提供一个上限和一个下限;确定是否第一长时间预测滞后值是在上限和下限以内或以外;当第一长时间预测滞后值是在上限和下限之外时,用第三滞后值替代部分受损帧中的第一长时间预测滞后值;和当第一长时间预测滞后值是在上限和下限以内时,保持部分受损帧中的第一长时间预测滞后值。2.如权利要求1的方法,当第一长时间滞后值是在上限和下限以外时,进一步包括用第三增益值替代部分受损帧中的第一长时间预测增益值。3.如权利要求1的方法,根据第二长时间预测滞后值和由基于第二长时间预测滞后值确定的进一步的限值为界限的有限自适应随机滞后抖动计算第三滞后值。4.如权利要求2的方法,根据第二长时间预测增益值和由基于第二长时间预测增益值确定的限值为界限的有限自适应随机增益抖动计算第三增益值。5.一种用于在语音解码器中指明接收到的语音信号的编码位流中隐蔽差错的方法,其中编码的位流包括多个排列在语音序列中的语音帧,语音帧包括至少一个受损的帧,在该帧前面有一个或多个未受损的帧,其中受损的帧包括一个第一长时间预测滞后值和一个第一长时间预测增益值,未受损的帧包括第二长时间预测滞后值和第二长时间预测增益值,和其中第二长时间预测滞后值包括一个上次的长时间预测滞后值,第二长时间预测增益值包括一个上次的长时间预测增益值,语音序列包括稳态的和非稳态的语音序列,和其中受损的帧可以是完全受损的帧或部分受损的帧,所述的方法包括以下步骤确定是否受损帧是部分受损或完全受损;如果受损帧是完全受损,用第三滞后值替代受损帧中的第一长时间预测滞后值;和如果受缶帧是部分受损,用第四滞后值替代受损帧中的第一长时间预测滞后值。6.如权利要求5的方法,还包括以下步骤确定是否部分受损帧所在的语音序列是稳态的或非稳态的;当所述的语音序列是稳态时,设置第四滞后值等于上次的长时间预测滞后值;和当所述的语音序列是非稳态时,根据从与在受损帧前面的非受损帧有关的自适应编码簿搜索到的被解码的长时间预测滞后值确定第四滞后值。7.如权利要求5的方法,还包括以下步骤确定是否完全受损帧所在的语音序列是稳态的或非稳态的;当所述的语音序列是稳态时,设置第三滞后值等于上次的长时间预测滞后值;和当所述的语音序列是非稳态时,根据第二长时间预测值和有限自适应随机滞后抖动确定第三滞后值。8.如权利要求6的方法,其中第二长时间预测滞后值进一步包括第二个上次的长时间预测滞后值和第三个上次的长时间预测滞后值,第二长时间预测增益值进一步包括第二个上次的长时间预测增益值和第三个上次的长时间预测增益值,所述的方法进一步包括以下步骤确定minLag,它是在第二长时间预测滞后值之间的最小滞后值;确定maxLag,它是在第二长时间预测滞后值之间的最大滞后值;确定meanLag,它是第二长时间预测滞后值的平均值;确定difLag,它是maxLag和minLag的差值;确定minGain,它是在第二长时间预测增益值之间的最小增益值;确定maxGain,它是在第二长时间预测增益值之间的最大增益值;确定meanGain,它是第二长时间增益值的平均值;在其中如果difLag<0和(minLag-5)<第四滞后值<(maxLag+5);或如果上次的长时间预测增益值大于0.5,第二个上次的长时间预测增益值大于0.5,第四个滞后值小于上次的长时间预测值与10之和,第四滞后值与10之和大于上次的长时间预测值;或如果minGain<0.4,上次的长时间预测增益值等于minGain,和第四滞后值大于minLag但小于maxLag;或如果difLag<70,第四滞后值大于minLag但小于maxLag;或如果第四滞后值大于meanLag但小于maxLag;则受损的帧被确定为部分受损。9.如权利要求6的方法,其中当所述的语音序列是非稳态时,所述的方法进一步包括确定语音的帧差错率,使得如果帧差错率达到所确定的值,根据所述的被解码的长时间预测滞后值确定第四滞后值,和如果帧差错率小于所确定的值,第四滞后值被设置为等于上次的长时间预测滞后值。10.如权利要求5的方法,其中稳态的语音序列包括语音的序列,非稳态的语音序列包括非话音序列。11.一种用于将已编码位流中的语音信号编码和将已编码位流解码成合成的语音的的语音信号发射机和接收机系统,其中已编码位流包括多个排列在语音序列中的语音帧,语音帧包括至少一个受损帧,在该帧前面有一个或多个未受损的帧,其中受损帧包括一个第一长时间预测滞后值和一个第一长时间预测增益值,未受损的帧包括第二长时间预测滞后值和第二长时间预测增益值,其中第二长时间预测滞后值包括一个上次的长时间预测滞后值和第二长时间预测增益值包括一个上次的长时间预测增益值,语音序列包括稳态的和非稳态的语音序列,和一个第一信号被用于指明受损帧,所述的系统包括一个第一装置,对第一信号作出响应,用于确定是否受损帧排列在其间的语音序列是稳态的或非稳态的,和用于提供一个第二信号指明所述的确定;一个第二装置,对第二信号作出响应,当所述的语音序列是稳态时,用上次的长时间预测滞后值替代受损帧中第一长时间预测滞后值,当所述的语音序列是非稳态时,用第三滞后值替代受损帧中的第一长时间预测滞后值。12.如权利要求11的系统,其中根据第二长时间预测滞后值和有限自适应随机滞后抖动确定第三滞后值。13.如权利要求11的系统,其中当所述的语音序列是非稳态时,第二装置进一步用第三增益值替代受损帧中的第一长时间预测增益值。14.如权利要求13的系统,其中根据第二长时间预测增益值和有限自适应随机增益抖动确定第三增益值。15.如权利要求11的系统,其中稳态的语音序列包括语音的序列,非稳态的语音序列包括非话音序列。16.一种用于从已编码位流合成语音的解码器,其中已编码位流包括多个排列在语音序列中的语音帧,语音帧包括至少一个受损帧,在该帧前面有一个或多个未受损的帧,其中受损帧包括一个第一长时间预测滞后值和一个第一长时间预测增益值,未受损帧包括第二长时间预测滞后值和第二长时间预测增益值,其中第二长时间预测滞后值包括一个上次的长时间预测增益值,语音序列包括稳态的和非稳态的语音序列,一个第一信号被用于指明受损的帧,所述的解码器包括一个第一装置,对第一信号作出响应,用于确定是否受损帧排列在其间的语音序列是稳态的或非稳态的,并用于提供一个第二信号,指明所述的确定;一个第二装置,对第二信号...

【专利技术属性】
技术研发人员:J梅基宁HJ米科拉J韦尼奥J罗托拉普基拉
申请(专利权)人:诺基亚有限公司
类型:发明
国别省市:FI[芬兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1