自适应带宽扩展方法及其装置制造方法及图纸

技术编号:16646704 阅读:71 留言:0更新日期:2017-11-26 22:01
在本发明专利技术的一项实施例中,一种解码已编码音频比特流和生成频带扩展的方法包括解码所述音频比特流以产生已解码低带音频信号和生成对应于低频带的低带激励频谱。使用参数从所述低频带内选择子带区域,所述参数指示所述已解码低带音频信号的频谱包络的能量信息。通过从所述选择的子带区域复制子频带激励频谱到对应于高频带的高子带区域生成所述高频带的高带激励频谱。使用所述生成的高带激励频谱,通过采用高带频谱包络生成扩展的高带音频信号。将所述扩展的高带音频信号添加到所述已解码低带音频信号以生成具有扩展的频率带宽的音频输出信号。

Adaptive bandwidth expansion method and its device

In one embodiment of the present invention, a method of decoding encoded audio bit streams and generating bandwidth extensions includes decoding the audio bit stream to produce decoded low band audio signals and generating a low band excitation spectrum corresponding to the low frequency band. The subband region is selected from the low frequency band using the parameter, indicating the energy information of the spectrum envelope of the decoded low band audio signal. The high band excitation spectrum of the high frequency band is generated by replicating the subband excitation spectrum from the selected subband region to the high subband region corresponding to the high frequency band. Using the generated high band excitation spectrum, an extended high band audio signal is generated by using a high band spectral envelope. The extended high band audio signal is added to the decoded low band audio signal to generate an audio output signal with an extended frequency bandwidth.

【技术实现步骤摘要】
自适应带宽扩展方法及其装置
本专利技术大体上涉及语音处理领域,尤其涉及自适应带宽扩展方法及其装置。
技术介绍
在现代音频/语音数字信号通信系统中,数字信号在编码器处被压缩,已压缩的信息(比特流)可以打包并且通过通信信道逐帧向解码器发送。编码器和解码器在一起的系统被称为编解码器。语音/音频压缩可以用来减少表示语音/音频信号的比特数,从而降低传输所需的比特率。语音/音频压缩技术大体上可以分类为时域编码和频域编码。时域编码通常用于编码低比特率的语音信号或音频信号。频域编码通常用于编码高比特率的音频信号或语音信号。带宽扩展(BWE)可以是时域编码或频域编码的一部分,用于以非常低的比特率或以零比特率生成高带信号。然而,语音编码器是有损编码器,即,解码得到信号不同于原始信号。因此,语音编码的目标之一是为了使失真(或可感知损失)在给定比特率下最小化,或者使比特率最小化以达到给定的失真。语音编码与其它形式的音频编码的不同之处在于语音是一种比大多数其它音频信号简单地多的信号,而且关于语音特性的统计信息更多。因此,与音频编码相关的一些听觉信息在语音编码上下文中可以是不必要的。在语音编码中,最重要的标准是在传输的数据量受限的情况下保持语音的清晰度和“愉悦度”。语音的清晰度,除了包括实际文字内容,还包括说话者身份、情绪、语调、音色,所有这些对于最佳清晰度都很重要。受损语音的愉悦度是一个较抽象的概念,它不同于清晰度的一个特性,因为退化语音有可能是完全清晰的,但是主观上另听众厌烦。语音波形的冗余与不同类型的语音信号有关,例如浊音和清音语音信号。浊音,例如‘a’、‘b’,基本上是由于声带的振动而产生的,而且是振荡的。因此,在一个较短时间内,通过正弦等周期性信号的叠加可以很好地模拟它们。换言之,浊音语音信号基本上是周期性的。然而,这种周期性在语音片段的持续时间内可能是变化的,而且周期性波的形状通常随着片段而逐渐地变化。低比特率语音编码可以大大受益于研究这种周期性。浊音语音周期还被称为基音(pitch),基音预测通常被称为长期预测(LTP)。相比之下,清音,例如‘s’、‘sh’,更像噪声。这是因为清音语音信号更像一种随机噪声,并且具有更小的可预测性。传统上,所有参数语音编码方法利用语音信号内在的冗余来减少发送的信息量以及在短的间隔内估计信号的语音样本的参数。这种冗余主要是因为语音波形以准周期速率重复,以及语音信号的频谱包络变化缓慢。可以参考若干不同类型的语音信号,例如浊音和清音,考虑语音波形的冗余度。尽管浊音语音信号基本上是周期性的,但是这种周期性在语音片段的持续时间内可能是变化的,而且周期性波的形状通常随着片段而逐渐地变化。低比特率语音编码可以大大受益于研究这种周期性。浊音语音周期还被称为基音,基音预测通常被称为长期预测(LTP)。至于清音语音,信号更像一种随机噪声,并且具有更小的可预测性。在任一情况下,参数编码可以用于通过将语音信号的激励分量与频谱包络分量分离来减少语音片段的冗余。缓慢变化的频谱包络可以通过线性预测编码(LPC),也称为短期预测(STP)表示。低比特率语音编码还可以大大受益于研究此种短期预测。编码的优势来自于参数的缓慢变化。然而,这些参数与在几毫秒内保持的值明显不同是很少见的。相应地,在8kHz、12.8kHz或16kHz的采样速率下,语音编码算法采用的标称帧持续时间的范围在十到三十毫秒内。20毫秒的帧持续时间是最常见的选择。基于滤波器组技术的音频编码被广泛使用,例如在频域编码中。在信号处理中,滤波器组是一组将输入信号分离为多个分量的带通滤波器,每个带通滤波器携带原始信号的单个子频带。由滤波器组执行的解压缩过程被称为分析,而滤波器组分析的输出被称为子带信号,其中子带信号具有和滤波器组中的滤波器个数一样多的子带。重构过程被称为滤波器组合成。在数字信号处理中,术语“滤波器组”通常还应用于接收器组。区别在于接收器还将子带下转换成可以以更低的速率重新采样的低中心频率。有时可以通过对带通子带进行下采样获得相同的结果。滤波器组分析的输出可以采用复合系数形式。每个复合系数包含分别表示滤波器组中每个子带的余弦项和正弦项的实元素和虚元素。在最近的著名标准,例如G.723.1、G.729、G.718、增强型全速率(EFR)、可选择模式声码器(SMV)、自适应多速率(AMR)、可变速率多模式宽带(VMR-WB),或自适应多速率宽带(AMR-WB)中,已经采用了码激励线性预测技术(“CELP”)。CELP通常理解为编码激励、长期预测和短期预测的技术组合。CELP主要利用人类声音特性或人类嗓音发声模型对语音信号进行编码。CELP语音编码在语音压缩领域是一种非常普遍的算法原理,尽管不同编解码器中的CELP细节可能有很大不同。由于它的普遍性,CELP算法已经应用于ITU-T、MPEG、3GPP和3GPP2等各种标准中。CELP的变体包括代数CELP、广义CELP、低时延CELP和矢量和激励线性预测,以及其它。CELP是一类算法的通用术语,而不是针对特定的编解码器。CELP算法基于四个主要观点。第一,使用通过线性预测(LP)的语音生成的源滤波器模型。用于语音生成的源滤波器将语音模拟为声源,例如声带,和线性声滤波器,即声道(和辐射特性)的组合。在语音生成的源滤波器模型的实施方式中,声源或激励信号通常被模拟为浊音语音的周期性脉冲序列,或清音语音的白噪声。第二,将自适应和固定码本用作LP模型的输入(激励)。第三,在“感知加权域”的闭环中执行搜索。第四,使用了矢量量化(VQ)。
技术实现思路
本专利技术实施例描述一种在解码器处对已编码音频比特流进行解码以及生成频带扩展的方法。所述方法包括对所述音频比特流进行解码以产生已解码低带音频信号以及生成对应于低频带的低带激励频谱。使用参数从所述低频带内选择子带区域,所述参数指示所述已解码低带音频信号的频谱包络的能量信息。通过从所述选择的子带区域复制子频带激励频谱到对应于高频带的高子带区域生成所述高频带的高带激励频谱。使用所述生成的高带激励频谱通过采用高带频谱包络生成扩展的高带音频信号。将所述扩展的高带音频信号添加到所述已解码低带音频信号以生成具有扩展的频率带宽的音频输出信号。根据本专利技术的一个替代性实施例,一种用于对已编码音频比特流进行解码和生成频率带宽的解码器包括低带解码单元,用于解码所述音频比特流以产生已解码低带音频信号以及生成对应于低频带的低带激励频谱。所述解码器还包括耦合到所述低带解码单元的带宽扩展单元。所述带宽扩展单元包括子带选择单元和复制单元。所述子带选择单元用于使用指示所述已解码低带音频信号的频谱包络的能量信息的参数从所述低频带内选择子带区域。所述复制单元用于通过从所选择的子带区域复制子带激励频谱到对应于高频带的高子带区域生成所述高频带的高带激励频谱。根据本专利技术的一个替代性实施例,一种用于语音处理的解码器包括处理器和存储由所述处理器执行的程序的计算机可读存储介质。所述程序包括执行以下操作的指令:对所述音频比特流进行解码以产生已解码低带音频信号以及生成对应于低频带的低带激励频谱。所述程序包括执行以下操作的指令:使用参数从所述低频带内选择子带区域,所述参数指示所述已解码低带音频信号的频谱包络的能量信息;以本文档来自技高网
...
自适应带宽扩展方法及其装置

【技术保护点】
一种对已编码音频比特流进行解码和生成频带扩展的方法,其特征在于,所述方法包括:解码所述音频比特流以产生已解码低带音频信号和生成对应于低频带的低带频谱;使用指示所述已解码低带音频信号的频谱包络的能量信息的参数从所述低频带内确定子带区域,其中,确定的所述子带区域的起始点对应于搜索范围内的频谱包络的的能量峰值,所述搜索范围为所述低频带内的一个频率区间;;通过从所述子带区域复制子带频谱到高子带区域以生成高带激励频谱;使用生成的所述高带激励频谱生成扩展的高带音频信号。

【技术特征摘要】
2013.09.10 US 61/875,690;2014.09.05 US 14/478,8391.一种对已编码音频比特流进行解码和生成频带扩展的方法,其特征在于,所述方法包括:解码所述音频比特流以产生已解码低带音频信号和生成对应于低频带的低带频谱;使用指示所述已解码低带音频信号的频谱包络的能量信息的参数从所述低频带内确定子带区域,其中,确定的所述子带区域的起始点对应于搜索范围内的频谱包络的的能量峰值,所述搜索范围为所述低频带内的一个频率区间;;通过从所述子带区域复制子带频谱到高子带区域以生成高带激励频谱;使用生成的所述高带激励频谱生成扩展的高带音频信号。2.根据权利要求1所述的方法,其特征在于,所述指示所述已解码低带音频信号的频谱包络的能量信息的参数为反映所述频谱包络的最高能量或频谱共振峰峰值的参数。3.根据权利要求1或2所述的方法,其特征在于,所述子带区域的起始点是通过搜索所述搜索范围内的频谱包络的最高能量点确定的。4.根据权利要求1至3任一项所述的方法,其特征在于,所述子带区域的位置对应于最高频谱峰值的位置。5.根据权利要求1或2所述的方法,其特征在于,所述从所述低频带内确定所述子带区域包括:从多个候选子带中搜索具有最高能量的子带,并确定所述具有最高能量的子带为所述子带区域。6.根据权利要求1至5任一项所述的方法,其特征在于,所述搜索范围取决于编解码器比特率。7.根据权利要求6所述的方法,其特征在于,所述编解码器比特率越高,则所述搜索范围越小。8.根据权利要求1至7任一项所述的方法,其特征在于,确定的所述子带区域的带宽与所述高子带区域的带宽相同。9.根据权利要求1至8任一项所述的方法,其特征在于,还包括:利用所述扩展的高带音频信号和所述已解码低带音频信号生成具有扩展的频率带宽的音频输出信号。10.根据权利要求1至9任一项所述的方法,其特征在于,所述使用生成的所述高带激励频谱生成扩展的高带音频信号包括:使用表示高带频域包络的预测的高带滤波器对所述高带激励频谱进行滤波,以获得所述扩展的高带音频信号。11.一种解码器,其特征在于,包括:低带解码单元,用于对音频比特流进行解码以产生已解码低带音频信号和生成对应低频带的低频带激励频谱;以及带宽扩展单元,耦合到所述低带解码单元并...

【专利技术属性】
技术研发人员:高扬
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1