音频解码制造技术

技术编号:3420280 阅读:191 留言:0更新日期:2012-04-11 18:40
提供了对来自基于帧的比特流的音频信号进行解码的系统、方法和技术,及其它。每个帧包括与该帧有关的处理信息以及表示该帧中音频数据的熵编码量化指数。所述处理信息包括:(i)多个码书指数,(ii)码书应用信息,用于指定要将码书应用到的熵编码量化指数范围,以及(iii)窗信息。通过将所识别的码书应用到对应的熵编码量化指数范围,对熵编码量化指数进行解码。通过对所解码的量化指数进行反量化,生成子带采样。基于窗信息,识别出在单个音频数据帧中所应用的一序列多个不同窗函数。通过对子带采样进行逆变换,并且使用由窗信息所指示的所述多个不同窗函数,来获得时域音频数据。

【技术实现步骤摘要】
本申请是2005年9月17日提交的申请号为200510095898.6、名称为“多声道数字音频编码设备及其方法”的分案申请。相关申请本申请要求2004年9月17日申请的美国临时申请60/610,674的优先权。
技术介绍
本专利技术通常涉及用于编码和解码多声道数字音频信号的方法和系统。更确切地说,本专利技术涉及一个低比特率的数字音频编码系统,其在获得透明的音频信号再现的同时大大降低了多声道音频信号的比特率以便进行有效的发送或存储,甚至连听测专家也不能区分在解码器端还原的音频信号与原始信号。 多声道数字音频编码系统通常包括下列元件时间-频率分析滤波器组,其产生输入的PCM(脉冲编码调制)样本的一个频率表示、叫做子带样本或子带信号;心理声学模型,其基于人耳的听觉特性来计算一个掩蔽阈值,而低于该掩蔽阈值的量化噪声不太可能被听见;全局比特分配器,其向每组子带样本分配比特资源,以便得到的量化噪声功率低于掩蔽阈值;多个量化器,其根据被分配的比特来量化子带样本;多个熵编码器,其降低量化指数中的统计冗余性;和最后的多路复用器,其把量化指数的熵编码及其它辅助信息打包成一个完整的比特流。 例如,杜比AC-3用可切换窗口尺寸的高频率分辨率的MDCT(改进的离散余弦变换)滤波器组把输入PCM样本映射到频域中。稳态信号用512点的窗口来分析,而暂态信号与256点的窗口来分析。来自MDCT的子带信号被表示为指数/尾数并随后被量化。采用前向-后向自适应的心理声学模型来优化量化并减少编码比特分配信息所需的比特。为了降低解码器的复杂度而不使用熵编码。最后,量化指数及其它辅助信息被多路复用成一个完整的AC-3比特流。AC-3中配置的自适应MDCT的频率分辨率没有很好地与输入信号特性相匹配,因此它的压缩特性受到很大的限制。熵编码的缺少是限制其压缩特性的另一个因素。 MPEG1&2层III(MP3)使用一个32频带的多相滤波器组,其中的每个子带滤波器都跟随有一个在6和18点之间切换的自适应MDCT。一个高级心理声学模型被用来指导其比特分配和标量非均匀量化。哈夫曼(Huffman)码被用来编码量化指数和大部分的其它辅助信息。混合滤波器组的较差的频率隔离极大地限制了它的压缩特性而且具有很高的算法复杂性。 DTS相干声学采用一个32频带的多相滤波器组以获得输入信号的低分辨率频率表示。为了补偿较差的频率分辨率,ADPCM(自适应差分脉码调制)被选择性地用于每个子带。如果ADPCM产生一个良好的编码增益,则均匀标量量化被直接应用于子带样本或应用于预测残差。矢量量化可以选择性地被应用到高频率的子带。哈夫曼码可以选择性地被应用到标量量化指数及其它辅助信息。因为多相滤波器组+ADPCM的结构根本不能提供良好的时间和频率分辨率,所以它的压缩特性很低。 MPEG 2 AAC和MPEG 4 AAC采用一个自适应MDCT滤波器组,其窗口尺寸可以在256和2048之间切换。心理声学模型产生的掩蔽阈值被用来指导其标量非均匀量化和比特分配。哈夫曼码被用来编码量化指数和大部分的其它辅助信息。诸如TNS(暂时噪声整形)、增益控制(类似于MP3的混合滤波器组)、频谱预测(子带内的线性预测)之类的许多其它的工具被用来进一步增强它的压缩特性,而这以极大地增加了算法复杂性为代价。 因此,仍然需要一个低比特率的音频编码系统,其极大地降低了多声道音频信号的比特率以用于有效发送或存储,而同时也能获得透明的音频信号再现。本专利技术满足了这个需要并提供了其它的相关优点。
技术实现思路
在以下讨论中,术语″分析/合成滤波器组″等指的是执行时间-频率的分析/合成的设备或方法。它可以非限制性地包括如下 ●酉变换; ●临界采样的、均匀的、或非均匀的带通滤波器组时变或非时变组; ●谐波或正弦波的分析器/合成器。 多相滤波器组、DFT(离散傅里叶变换)、DCT(离散余弦变换)以及MDCT是一些被广泛使用的滤波器组。术语″子带信号或子带样本″等指的是出自分析滤波器组和进入合成滤波器组的信号或样本。 本专利技术的一个目的是为多声道音频信号的低比特率编码提供与现有技术同样水平的压缩性能但却降低了算法复杂性。 这由编码器在编码端侧完成,编码器包括 1)成帧器,用于把输入的PCM样本聚类分割成准稳态帧,其大小是分析滤波器组的子带数的整数倍,并且其时间范围是2到50ms。 2)暂态检测器,用于检测该帧中暂态的存在。一个实施例是根据取子带距离测量的阈值,阈值从低频率分辨率模式下的分析滤波器组的子带样本中获得。 3)可变分辨率的分析滤波器组,用于把输入的PCM样本转换成子带样本,它可以用下列之一来执行 a)滤波器组,可以在高、中、低频率分辨率模式之间切换其操作。高频率分辨率模式用于稳态帧,而中、低频率分辨率模式用于具有暂态的帧。在一个暂态帧内,低频率分辨率模式被用于暂态段,而中间分辨率模式被用于该帧的剩余部分,在这个架构之下存在三类帧 i)滤波器组只以高频率分辨率模式操作来处理的稳态帧; ii)滤波器组以中、高时间分辨率模式操作来处理的暂态帧; iii)滤波器组只以中间分辨率模式操作处理的慢暂态帧; 两个优选实施例被给出如下 i)DCT实现,其中,三个级别的分辨率对应于三个DCT块长度; ii)MDCT实现,其中,三个级别的分辨率对应于三个MDCT块长度或窗口长度。定义多个窗口类型以桥接这些窗口之间的转换。 b)混合滤波器组,其基于一个可以在高、低分辨率模式之间切换其操作的滤波器组; i)在当前帧中不存在暂态时,它切换到高频率分辨率模式以确保稳态段的高压缩性能; ii)在当前帧中存在暂态时,它切换到低频率分辨率/高时间分辨率模式以避免前向回声效应。这个低频率分辨率模式还跟随有一个暂态聚类分割级,其把子带样本分成稳态段,然后可选地在每个子带中后跟一个任意分辨率的滤波器组或ADPCM,如果被选择的话,可用于向每个稳态段提供适合的频率分辨率。 给出两个实施例,其中,一个基于DCT而另一个基于MDCT。给出两个暂态段的实施例出,其中,一个基于取阈值而另一个基于k均值算法,两个实施例都使用子带距离测量。 2)计算掩蔽阈值的心理声学模型。 3)可选的和/差编码器,其把左右声道对中的子带样本转换成和/差声道对。 4)可选的联合强度编码器,其对比源声道来提取联合声道的强度比例因子(引导向量),将联合声道合并到源声道中,并丢弃联合声道中的各个子带样本。 5)全局比特分配器,其把比特资源分配给多组子带样本,以便它们的量化噪声功率低于掩蔽阈值。 6)标量量化器,其用比特分配器提供的步长来量化所有的子带样本。 7)可选的交错器,当帧中存在暂态时,其被选择性地用来重新排列量化指数以便于降低比特总数。 8)熵编码器,其基于量化指数的局部统计特征把最佳的码书从码书库分配给多组量化指数,包括下列步骤 a)把最佳码书分配给每个量化指数,因此实质上把量化指数转换成码书指数。 b)把这些码书指数分成很大的段,段边界定义了码书的应用范围。 一个优选实施例是 c)把量化指数分块为区组(granule),每个区组包括固定数目的量化指数。 d)确定每个区组的最大码书需求。 e)把最小码书分配给一个能本文档来自技高网
...

【技术保护点】
一种用于对音频信号进行解码的方法,包括:    (a)获得包括多个帧的比特流,每个帧包括与该帧有关的处理信息以及表示该帧中音频数据的熵编码量化指数,所述处理信息包括:    (i)多个码书指数,每个码书指数识别一个码书,    (ii)码书应用信息,用于指定要应用码书的熵编码量化指数范围,以及    (iii)窗信息;    (b)通过将由码书指数所识别的码书应用到由码书应用信息所指定的熵编码量化指数范围,对熵编码量化指数进行解码;    (c)通过对所解码的量化指数进行反量化,生成子带采样;    (d)基于窗信息,识别出在单个音频数据帧中所应用的一序列多个不同窗函数;以及    (e)通过对子带采样进行逆变换,并且在所述单个音频数据帧中使用由窗信息所指示的所述多个不同窗函数,来获得时域音频数据。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:游余立
申请(专利权)人:广州广晟数码技术有限公司
类型:发明
国别省市:81[中国|广州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1