用于编码和解码音频样本的音频编码器和解码器制造技术

技术编号:7139150 阅读:286 留言:0更新日期:2012-04-11 18:40
一种用于编码音频样本的音频编码器(100),包括第一时域混叠引入编码器(110),用于在第一编码域中编码音频样本,该第一时域混叠引入编码器(110)具有第一帧化规则、开始窗口和停止窗口。音频编码器(100)进一步包括第二编码器(120),用于在第二编码域中编码样本,该第二编码器(120)具有音频样本的预定帧大小数量,和音频样本的编码暖机期数量,该第二编码器(120)具有不同的第二帧化规则,该第二编码器(120)的帧是一定数量的在时间上连续的音频样本的编码表示,该数量等于音频样本的预定帧大小数量;音频编码器(100)进一步包控制器(130),基于音频样本的特性从第一编码器(110)切换到第二编码器(120),并且响应于从第一编码器(110)到第二编码器(120)的切换来修改第二帧化规则,或修改第一编码器(110)的开始窗口或停止窗口,其中第二帧化规则保持未被修改。

【技术实现步骤摘要】
【国外来华专利技术】用于编码和解码音频样本的音频编码器和解码器本专利技术属于在不同编码域进行音频编码的领域,例如在时域和变换域中。在低比特率音频和语音编码技术的背景中,传统中已采用数个不同编码技术以获 得在给定的比特率下具有可能最佳主观质量的如此低比特率编码信号。一般的音乐/声音 信号的编码器旨在根据使用一种感知模型(“感知音频编码”)估算输入信号而获得的掩蔽 临界曲线以通过塑造量化误差的频谱(及时间)形状来优化主观质量。另一方面,极低比 特率下的语音编码已经显示出在其基于人类语音的产生模式时高效运行,即采用线性预测 编码(LPC)以模型化与残差激发信号的有效编码一起的人类声道的共振效应。作为这两种不同方式的结果,常用音频编码器例如MPEG-ILayer 3(MPEG=运动 图像专家组),或MPEG-2/4先进音频编码(AAC)通常对于非常低数据率下的语音信号执行 的效果不如像专用LPC式语音编码器一样好,由于缺乏对声源模型的利用。相反地,LPC式 语音编码器在被应用于常见音乐信号时,由于其无法根据掩蔽临界曲线灵活地形成编码失 真的频谱包络而通常不能实现令人信服的结果。下面,描述了将LPC式编码和感知式音频 编码二者优点结合进单一架构中的概念,并因此描述了对常见音频和语音信号二者都有效 的统一语音编码。传统地,感知语音编码器使用一种基于滤波器组的方法以根据掩蔽曲线的估算有 效地编码音频信号以及形成量化失真。附图说明图16a示出了一种单声道感知编码系统的基本方框图。分析滤波器组1600被用 于将时域样本映射成子采样频谱分量。基于频谱分量的数量,该系统也被称作子带编码器 (数量小的子频带,例如32)或变换编码器(数量大的频率线,例如512)。感知(心理声 学)模型1602被用来估算实际时间所依的掩蔽阈值。该频谱(“子带”或“频域”)分量被 量化和编码1604,以将量化噪声隐藏在实际传输信号下且在解码后无法察觉的方式。这通 过改变时间及频率上频谱值的量化粒度而实现。量化和熵编码后的频谱系数或子频带值,与边信息一起,输入进提供了适于被 传输和存储的已编码音频信号的比特流格式器1606中。方框1606的输出比特流可被 Internet网传输,或可被存储在任意可机读数据载体上。在解码器端,解码器输入接口 1610接收已编码。方框1610将熵编码后和量化后 的频谱/子频带值从边信息处分离。该已编码的频谱值被输入如霍夫曼解码器的熵解码器 中,其位于1610和1620之间。该熵解码器的输出是量化后的频谱值。这些量化频谱值被 输入到再量化器中,其执行一种如图16a中1620处所示的“反”量化。该方框1620的输出 被输入到合成滤波器组1622中,其执行包括频率/时间变换以及典型地如重叠和相加的时 域混叠消除操作和/或合成端窗口操作的分析滤波,以最后获得该输出音频信号。传统地,有效语音编码已经基于线性预测编码(LPC)以模型化与残差激发信号的 有效编码一起的人类声道的共振效应。LPC和激发参数二者被从编码器传输到解码器。这 一原理如图17a和17b所示。图17a指示了基于线性预测编码的编码/解码系统的编码器端。语音输入被输入 到LPC分析器1701中,其在其输出端提供LPC滤波器系数。基于这些LPC滤波器系数,调整LPC滤波器1703。该LPC滤波器输出了一种频谱白化音频信号,其也被称作“预测误差 信号”。该频谱白化音频信号被输入到产生激发参数的残差/激发编码器1705中。因此, 该语音输入一方面被编码成激发参数,以及另一方面为LPC系数。在图17b中的解码端上,激发参数被输入进激发解码器1707,其产生可被输入到 LPC合成滤波器中的激发信号。使用该被传输的LPC滤波器系数对该LPC合成滤波器进行 调整。因此,该LPC合成滤波器1709产生了一种重建或合成后的语音输出信号。随着时间的推移,已经提出了许多对于如多脉冲激发(MPE)、规则脉冲激发 (RPE),以及码激式线性预测(CELP)的残差(激发)信号的有效和感知上令人信服再现的 方法。线性预测编码试图基于对特定数量的过去值的观察作为对过去观察的线性组合, 以对序列的当前采样值产生估计值。为了减少该输入信号中的冗余,编码器LPC滤波器“白 化”其频谱包络中的输入信号,即,其是该信号的频谱包络的反相的模型。相反地,解码器 LPC合成滤波器是信号的频谱包络的模型。具体地,公知的自回归(AR)线性预测分析已知 是通过全极点接近来对信号的频谱包络模型化。典型地,窄频带语音编码器(即采用8kHz采样率的语音编码器)使用具有8到12 之间的阶数的LPC滤波器。由于该LPC滤波器的性质,相同的频率解析度在全频率范围内 是有效的。这与感知频率标度不相对应。为了将传统LPC/CELP式编码(对于语音信号具有最佳质量)与传统的滤波器组 式感知音频编码方法(对于音乐最佳)的长处相结合,已经提出了一种在这些架构之间的石马。= Adaptive Multi-Rate WideBand) coder B. Bessette, R. Lefebvre, R. Salami, "UNIVERSAL SPEECH/AUDIO CODING USING HYBRID ACELP/TCX TECHNIQUES, ” Proc. IEEE ICASSP 2005,pp. 301-304,2005 中,两交替编码核心操作于 LPC 残差信号上。一个编码核心基于ACELP (ACELP=代数编码激发线性预测)且因此对于语音 信号的编码非常有效。另一个编码核心基于TCX (TCX =变换编码激发),即类似传统音频编 码技术的滤波器组式编码方法,以获得音乐信号的良好质量。基于该输入信号的特性,可选 该两种编码方式之一以在短时间期间传输该LPC残差信号。以这样的方式,80ms持续时间 的帧可被分割为40ms或20ms的子帧,其中在该两种编码模式之间做出决策。参见2005年6月,版本号为6. 3. 0的3GPP (3GPP =第三代伙伴合作计划)技术规 范编号26. 290,该AMR-WB+(AMR-WB+ =扩展自适应多速率宽频编解码器)可在两种本质上 不同的模式ACELP与TCX之间切换。在ACELP模式中,时域信号通过代数编码激发而被编 码。在该TCX模式中,快速傅利叶变换(FFT=快速傅利叶变换)予以使用且LPC加权信号 的频谱值(LPC激发可源于此)基于向量量化而被编码。使用哪一模式的决策,可通过尝试和解码两种选择且比较产生的部分信噪比(SNR =信噪比)来实现。这种情况也被称为闭环决策,因为具有闭合控制环路,分别评估二者的编码性能 或效率,以及随后选择具有较佳SNR的那个。公知的是对于音频和语音编码应用,未开窗口的块变换是不可行的。因而,对于 TCX模式,信号以具有1/8叠加的低叠加窗口予以打开窗口。为了淡出先前块或帧而淡入下 一个以例如抑制由于在后续音频帧中不相关的量化噪声所产生的失真,这个叠加区域是必要的。与非关键取样相比较,额外负担的方式可保持相当低,且对于该闭环决策所必须的解 码以当前帧的样本的至少7/8进行再现。AMR-WB+在TCX模式中引入了 1/8的额外负担,即需编码的频谱值的数量闭输入样 本的数量高本文档来自技高网...

【技术保护点】
一种用于编码音频样本的音频编码器(100),包括:第一时域混叠引入编码器(110),用于在第一编码域中编码音频样本,所述第一时域混叠引入编码器(110)具有第一帧化规则、开始窗口和停止窗口;第二编码器(120),用于在第二编码域中编码样本,所述第二编码器(120)具有音频样本的预定帧大小数量,和音频样本的编码暖机期数量,所述第二编码器(120)具有不同的第二帧化规则,所述第二编码器(120)的帧是一定数量的在时间上连续的音频样本的编码表示,所述在时间上连续的音频样本的数量等于所述音频样本的预定帧大小数量;以及控制器(130),用于响应于所述音频样本的特性从所述第一编码器(110)切换到所述第二编码器(120),以及用于响应于从所述第一编码器(110)到所述第二编码器(120)的切换来修改所述第二帧化规则,或用于修改所述第一编码器(110)的开始窗口或停止窗口,其中所述第二帧化规则保持未被修改。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:杰雷米·勒孔特
申请(专利权)人:弗朗霍夫应用科学研究促进协会
类型:发明
国别省市:DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1