自适应带宽扩展方法及其装置制造方法及图纸

技术编号:14801191 阅读:29 留言:0更新日期:2017-03-14 22:27
在本发明专利技术的一项实施例中,一种解码已编码音频比特流和生成频带扩展的方法包括解码所述音频比特流以产生已解码低带音频信号和生成对应于低频带的低带激励频谱。使用参数从所述低频带内选择子带区域,所述参数指示所述已解码低带音频信号的频谱包络的能量信息。通过从所述选择的子带区域复制子频带激励频谱到对应于高频带的高子带区域生成所述高频带的高带激励频谱。使用所述生成的高带激励频谱,通过采用高带频谱包络生成扩展的高带音频信号。将所述扩展的高带音频信号添加到所述已解码低带音频信号以生成具有扩展的频率带宽的音频输出信号。

【技术实现步骤摘要】
【国外来华专利技术】本专利技术要求2014年9月5日递交的专利技术名称为“自适应带宽扩展方法及其装置(AdaptiveBandwidthExtensionandApparatusfortheSame)”的第14/478,839号美国专利申请案的在先申请优先权,该在先申请是2013年9月10日递交的专利技术名称为“基于带宽扩展的频谱能量级的位移频带的自适应选择(AdaptiveSelectionofShiftingBandBasedonSpectralEnergyLevelforBandwidthExtension)”的第61/875,690号美国临时专利申请案的连续申请案,这两个在先申请的内容以引入的方式并入本文本中,如全文再现一般。
本专利技术大体上涉及语音处理领域,尤其涉及自适应带宽扩展方法及其装置。
技术介绍
在现代音频/语音数字信号通信系统中,数字信号在编码器处被压缩,已压缩的信息(比特流)可以打包并且通过通信信道逐帧向解码器发送。编码器和解码器在一起的系统被称为编解码器。语音/音频压缩可以用来减少表示语音/音频信号的比特数,从而降低传输所需的比特率。语音/音频压缩技术大体上可以分类为时域编码和频域编码。时域编码通常用于编码低比特率的语音信号或音频信号。频域编码通常用于编码高比特率的音频信号或语音信号。带宽扩展(BWE)可以是时域编码或频域编码的一部分,用于以非常低的比特率或以零比特率生成高带信号。然而,语音编码器是有损编码器,即,解码得到信号不同于原始信号。因此,语音编码的目标之一是为了使失真(或可感知损失)在给定比特率下最小化,或者使比特率最小化以达到给定的失真。语音编码与其它形式的音频编码的不同之处在于语音是一种比大多数其它音频信号简单地多的信号,而且关于语音特性的统计信息更多。因此,与音频编码相关的一些听觉信息在语音编码上下文中可以是不必要的。在语音编码中,最重要的标准是在传输的数据量受限的情况下保持语音的清晰度和“愉悦度”。语音的清晰度,除了包括实际文字内容,还包括说话者身份、情绪、语调、音色,所有这些对于最佳清晰度都很重要。受损语音的愉悦度是一个较抽象的概念,它不同于清晰度的一个特性,因为退化语音有可能是完全清晰的,但是主观上另听众厌烦。语音波形的冗余与不同类型的语音信号有关,例如浊音和清音语音信号。浊音,例如‘a’、‘b’,基本上是由于声带的振动而产生的,而且是振荡的。因此,在一个较短时间内,通过正弦等周期性信号的叠加可以很好地模拟它们。换言之,浊音语音信号基本上是周期性的。然而,这种周期性在语音片段的持续时间内可能是变化的,而且周期性波的形状通常随着片段而逐渐地变化。低比特率语音编码可以大大受益于研究这种周期性。浊音语音周期还被称为基音(pitch),基音预测通常被称为长期预测(LTP)。相比之下,清音,例如‘s’、‘sh’,更像噪声。这是因为清音语音信号更像一种随机噪声,并且具有更小的可预测性。传统上,所有参数语音编码方法利用语音信号内在的冗余来减少发送的信息量以及在短的间隔内估计信号的语音样本的参数。这种冗余主要是因为语音波形以准周期速率重复,以及语音信号的频谱包络变化缓慢。可以参考若干不同类型的语音信号,例如浊音和清音,考虑语音波形的冗余度。尽管浊音语音信号基本上是周期性的,但是这种周期性在语音片段的持续时间内可能是变化的,而且周期性波的形状通常随着片段而逐渐地变化。低比特率语音编码可以大大受益于研究这种周期性。浊音语音周期还被称为基音,基音预测通常被称为长期预测(LTP)。至于清音语音,信号更像一种随机噪声,并且具有更小的可预测性。在任一情况下,参数编码可以用于通过将语音信号的激励分量与频谱包络分量分离来减少语音片段的冗余。缓慢变化的频谱包络可以通过线性预测编码(LPC),也称为短期预测(STP)表示。低比特率语音编码还可以大大受益于研究此种短期预测。编码的优势来自于参数的缓慢变化。然而,这些参数与在几毫秒内保持的值明显不同是很少见的。相应地,在8kHz、12.8kHz或16kHz的采样速率下,语音编码算法采用的标称帧持续时间的范围在十到三十毫秒内。20毫秒的帧持续时间是最常见的选择。基于滤波器组技术的音频编码被广泛使用,例如在频域编码中。在信号处理中,滤波器组是一组将输入信号分离为多个分量的带通滤波器,每个带通滤波器携带原始信号的单个子频带。由滤波器组执行的解压缩过程被称为分析,而滤波器组分析的输出被称为子带信号,其中子带信号具有和滤波器组中的滤波器个数一样多的子带。重构过程被称为滤波器组合成。在数字信号处理中,术语“滤波器组”通常还应用于接收器组。区别在于接收器还将子带下转换成可以以更低的速率重新采样的低中心频率。有时可以通过对带通子带进行下采样获得相同的结果。滤波器组分析的输出可以采用复合系数形式。每个复合系数包含分别表示滤波器组中每个子带的余弦项和正弦项的实元素和虚元素。在最近的著名标准,例如G.723.1、G.729、G.718、增强型全速率(EFR)、可选择模式声码器(SMV)、自适应多速率(AMR)、可变速率多模式宽带(VMR-WB),或自适应多速率宽带(AMR-WB)中,已经采用了码激励线性预测技术(“CELP”)。CELP通常理解为编码激励、长期预测和短期预测的技术组合。CELP主要利用人类声音特性或人类嗓音发声模型对语音信号进行编码。CELP语音编码在语音压缩领域是一种非常普遍的算法原理,尽管不同编解码器中的CELP细节可能有很大不同。由于它的普遍性,CELP算法已经应用于ITU-T、MPEG、3GPP和3GPP2等各种标准中。CELP的变体包括代数CELP、广义CELP、低时延CELP和矢量和激励线性预测,以及其它。CELP是一类算法的通用术语,而不是针对特定的编解码器。CELP算法基于四个主要观点。第一,使用通过线性预测(LP)的语音生成的源滤波器模型。用于语音生成的源滤波器将语音模拟为声源,例如声带,和线性声滤波器,即声道(和辐射特性)的组合。在语音生成的源滤波器模型的实施方式中,声源或激励信号通常被模拟为浊音语音的周期性脉冲序列,或清音语音的白噪声。第二,将自适应和固定码本用作LP模型的输入(激励)。第三,在“感知加权域”的闭环中执行搜索。第四,使用了矢量量化(VQ)。
技术实现思路
本专利技术实施例描述一种在解码器处对已编码音频比特流进行解码以及生成频带扩展的方法。所本文档来自技高网
...
自适应带宽扩展方法及其装置

【技术保护点】
一种在解码器处对已编码音频比特流进行解码以及生成频带扩展的方法,其特征在于,所述方法包括:对所述音频比特流进行解码以产生已解码低带音频信号以及生成对应于低频带的低带激励频谱;使用参数从所述低频带内选择子带区域,所述参数指示所述已解码低带音频信号的频谱包络的能量信息;通过从所述选择的子带区域复制子带激励频谱到对应于高频带的高子带区域以生成所述高频带的高带激励频谱;使用所述生成的高带激励频谱通过采用高带频谱包络生成扩展的高带音频信号;以及将所述扩展的高带音频信号添加到所述已解码低带音频信号以生成具有扩展的频率带宽的音频输出信号。

【技术特征摘要】
【国外来华专利技术】2013.09.10 US 61/875,690;2014.09.05 US 14/478,8391.一种在解码器处对已编码音频比特流进行解码以及生成频带扩展
的方法,其特征在于,所述方法包括:
对所述音频比特流进行解码以产生已解码低带音频信号以及生成对
应于低频带的低带激励频谱;
使用参数从所述低频带内选择子带区域,所述参数指示所述已解码低
带音频信号的频谱包络的能量信息;
通过从所述选择的子带区域复制子带激励频谱到对应于高频带的高
子带区域以生成所述高频带的高带激励频谱;
使用所述生成的高带激励频谱通过采用高带频谱包络生成扩展的高
带音频信号;以及
将所述扩展的高带音频信号添加到所述已解码低带音频信号以生成
具有扩展的频率带宽的音频输出信号。
2.根据权利要求1所述的方法,其特征在于,使用指示所述频谱包
络的能量信息的所述参数从所述低频带内选择子带区域包括通过搜索所
述频谱包络的最高能量点识别所述低频带内的质量最高的子带以及选择
所述识别的质量最高的子带。
3.根据权利要求1所述的方法,其特征在于,使用指示所述频率包
络的能量信息的所述参数从所述低频带内选择子带区域包括选择对应于
最高频谱包络能量的所述子带区域。
4.根据权利要求1所述的方法,其特征在于,使用指示所述频谱包
络的能量信息的所述参数从所述低频带内选择子带区域包括通过使用反
映所述频谱能量包络的最高能量或频谱共振峰峰值的参数识别所述低频
带内的子带以及选择所述识别的子带。
5.根据权利要求1至4中的任一权利要求所述的方法,其特征在于,
所述解码方法采用带宽扩展技术以生成所述高频带。
6.根据权利要求1至5中的任一权利要求所述的方法,其特征在于,
采用所述高带频谱包络包括采用表示所述高带频谱包络的预测的高带滤
波器。
7.根据权利要求1至6中的任一权利要求所述的方法,其特征在于,
还包括:
通过将所述频域音频频谱反变换为时域以生成所述音频输出信号。
8.根据权利要求1至7中的任一权利要求所述的方法,其特征在于,
从所述选择的子带区域复制所述子带激励频谱到对应于所述高频带的所
述高子带区域包括从滤波器组分析复制输出的低频带系数到高子带区域。
9.根据权利要求1至8中的任一权利要求所述的方法,其特征在于,
所述音频比特流包括浊音语音或谐波音乐。
10.一种对已编码音频比特流进行解码和生成频谱带宽的解码器,
其特征在于,所述解码器包括:
低带解码单元,用于对所述音频比特流进行解码以产生已解码低带音
频信号和生成对应低频带的低频带激励频谱;以及
带宽扩展单元,耦合到所述低带解码单元并且包括子带选择单元和复
制单元,其中所述子带选择单元用于使用参数从所述低频带内选择子带区
域,所述参数指示所述已解码低带音频信号的频谱包络的能量信息,所述
复制单元用于通过从所述选择的子带区域复制子带激励频谱到对应于高
频带的高子带区域以生成所述高频带的高带激励频谱。
11.根据权利要求...

【专利技术属性】
技术研发人员:高扬
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1