多声道数字音频编码设备及其方法技术

技术编号:3420076 阅读:174 留言:0更新日期:2012-04-11 18:40
一种低比特率的数字音频编码系统,包括一个编码器,基于量化指数的局部特性而把码书分配到多组量化指数,从而使码书应用范围与量化边界无关。本发明专利技术还包括一个分辨率滤波器组或三模式分辨率滤波器组,如当在一帧中检测到暂态时,其可有选择地在高、低频率分辨率模式或高、低和中模式之间切换。这样得到的多声道音频信号具有极大地降低的比特率,用于有效的发送或存储。解码器实质上是编码器的逆向结构和方法,产生一个听觉上不能与原始信号区分开的被还原的音频信号。

【技术实现步骤摘要】
本申请是2005年9月7日递交的申请号为200510095898.6的分案申请。 相关申请本申请要求2004年9月17日申请的美国临时申请60/610,674优先权。
技术介绍
本专利技术通常涉及用于编码和解码多声道数字音频信号的方法和系统。 更确切地说,本专利技术涉及一个低比特率的数字音频编码系统,其在获得透 明的音频信号再现的同时大大降低了多声道音频信号的比特率以便进行 有效的发送或存储,甚至连听测专家也不能区分在解码器端还原的音频信 号与原始信号。多声道数字音频编码系统通常包括下列元件时间-频率分析滤波器 组,其产生输入的PCM(脉冲编码调制)样本的一个频率表示、叫做子带样本或子带信号;心理声学模型,其基于人耳的听觉特性来计算一个掩蔽阈 值,而低于该掩蔽阈值的量化噪声不太可能被听见;全局比特分配器,其 向每组子带样本分配比特资源,以便得到的量化噪声功率低于掩蔽阈值; 多个量化器,其根据被分配的比特来量化子带样本;多个熵编码器,其降 低量化指数中的统计冗余性;和最后的多路复用器,其把量化指数的熵编 码及其它辅助信息打包成一个完整的比特流。例如,杜比AC-3用可切换窗口尺寸的高频率分辨率的MDCT(改进的入PCM样本映射到频域中。稳态信号用512 点的窗口来分析,而暂态信号与256点的窗口来分析。来自MDCT的子带 信号被表示为指数/尾数并随后被量化。釆用前向-后向自适应的心理声学 模型来优化量化并减少编码比特分配信息所需的比特。为了降低解码器的 复杂度而不使用熵编码。最后,量化指数及其它辅助信息被多路复用成一 个完整的AC-3比特流。AC-3中配置的自适应MDCT的频率分辨率没有很 好地与输入信号特性相匹配,因此它的压縮特性受到很大的限制。熵编码 的缺少是限制其压縮特性的另一个因素。MPEG1&2层III(MP3)使用一个32频带的多相滤波器组,其中的每个 子带滤波器都跟随有一个在6和18点之间切换的自适应MDCT。 一个高级 心理声学模型被用来指导其比特分配和标量非均匀量化。哈夫曼(Huffman)码被用来编码量化指数和大部分的其它辅助信息。混合滤波器 组的较差的频率隔离极大地限制了它的压縮特性而且具有很高的算法复 杂性。DTS相干声学采用一个32频带的多相滤波器组以获得输入信号的低 分辨率频率表示。为了补偿较差的频率分辨率,ADPCM(自适应差分脉码 调制)被选择性地用于每个子带。如果ADPCM产生一个良好的编码增益, 则均匀标量量化被直接应用于子带样本或应用于预测残差。矢量量化可以 选择性地被应用到高频率的子带。哈夫曼码可以选择性地被应用到标量量 化指数及其它辅助信息。因为多相滤波器组+ADPCM的结构根本不能提 供良好的时间和频率分辨率,所以它的压縮特性很低。MPEG 2 AAC和MPEG 4 AAC采用一个自适应MDCT滤波器组,其 窗口尺寸可以在256和2048之间切换。心理声学模型产生的掩蔽阈值被用 来指导其标量非均匀量化和比特分配。哈夫曼码被用来编码量化指数和大 部分的其它辅助信息。诸如TNS(暂时噪声整形)、增益控制(类似于MP3 的混合滤波器组)、频谱预测(子带内的线性预测)之类的许多其它的工具被 用来进一步增强它的压縮特性,而这以极大地增加了算法复杂性为代价。因此,仍然需要一个低比特率的音频编码系统,其极大地降低了多声 道音频信号的比特率以用于有效发送或存储,而同时也能获得透明的音频 信号再现。本专利技术满足了这个需要并提供了其它的相关优点。
技术实现思路
在以下讨论中,术语"分析/合成滤波器组"等指的是执行时间-频率的分析/合成的设备或方法。它可以非限制性地包括如下 酉变换; 临界采样的、均匀的、或非均匀的带通滤波器组时变或非时变组; 谐波或正弦波的分析器/合成器。多相滤波器组、DFT(离散傅里叶变换)、DCT(离散余弦变换)以及 MDCT是一些被广泛使用的滤波器组。术语"子带信号或子带样本"等指的 是出自分析滤波器组和进入合成滤波器组的信号或样本。本专利技术的一个目的是为多声道音频信号的低比特率编码提供与现有 技术同样水平的压縮性能但却降低了算法复杂性。这由编码器在编码端侧完成,编码器包括-1) 成帧器,用于把输入的PCM样本聚类分割成准稳态帧,其大小是 分析滤波器组的子带数的整数倍,并且其时间范围是2到50ms。2) 暂态检测器,用于检测该帧中暂态的存在。 一个实施例是根据取子 带距离测量的阈值,阈值从低频率分辨率模式下的分析滤波器组的子带样 本中获得。3) 可变分辨率的分析滤波器组,用于把输入的PCM样本转换成子带 样本,它可以用下列之一来执行a)滤波器组,可以在高、中、低频率分辨率模式之间切换其操作。 高频率分辨率模式用于稳态帧,而中、低频率分辨率模式用于具有暂 态的帧。在一个暂态帧内,低频率分辨率模式被用于暂态段,而中间 分辨率模式被用于该帧的剩余部分,在这个架构之下存在三类帧i) 滤波器组只以高频率分辨率模式操作来处理的稳态帧;ii) 滤波器组以中、高时间分辨率模式操作来处理的暂态帧;iii) 滤波器组只以中间分辨率模式操作处理的慢暂态帧; 两个优选实施例被给出如下i) DCT实现,其中,三个级别的分辨率对应于三个DCT块长度;ii) MDCT实现,其中,三个级别的分辨率对应于三个MDCT块 长度或窗口长度。定义多个窗口类型以桥接这些窗口之间的转换。b)混合滤波器组,其基于一个可以在高、低分辨率模式之间切换 其操作的滤波器组;i) 在当前帧中不存在暂态时,它切换到高频率分辨率模式以确保稳态段的高压縮性能;ii) 在当前帧中存在暂态时,它切换到低频率分辨率/高时间分辨率模式以避免前向回声效应。这个低频率分辨率模式还跟随有 一个暂态聚类分割级,其把子带样本分成稳态段,然后可选地在每个子带中后跟一个任意分辨率的滤波器组或ADPCM,如果被选 择的话,可用于向每个稳态段提供适合的频率分辨率。给出两个实施例,其中, 一个基于DCT而另一个基于MDCT。给 出两个暂态段的实施例出,其中, 一个基于取阈值而另一个基于k均 值算法,两个实施例都使用子带距离测量。2) 计算掩蔽阈值的心理声学模型。3) 可选的和/差编码器,其把左右声道对中的子带样本转换成和/差声 道对。4) 可选的联合强度编码器,其对比源声道来提取联合声道的强度比例 因子(引导向量),将联合声道合并到源声道中,并丢弃联合声道中的各个 子带样本。5) 全局比特分配器,其把比特资源分配给多组子带样本,以便它们的 量化噪声功率低于掩蔽阈值。6) 标量量化器,其用比特分配器提供的步长来量化所有的子带样本。7) 可选的交错器,当帧中存在暂态时,其被选择性地用来从新排列量化指数以便于降低比特总数。8) 熵编码器,其基于量化指数的局部统计特征把最佳的码书从码书库分配给多组量化指数,包括下列步骤a) 把最佳码书分配给每个量化指数,因此实质上把量化指数转换成码书指数。b) 把这些码书指数分成很大的段,段边界定义了码书的应用范围。一个优选实施例是c) 把量化指数分块为区组(granule),每个区组包括固定数目的量 化指数。d) 确定每个区组的最大码书需求。e) 把最小码书分配给一个能容纳其最大码书需求的区组f) 清除那些码书指数本文档来自技高网
...

【技术保护点】
一个用于解码经编码的音频比特数据流的方法,包括下列步骤:接收编码音频数据流并解包该数据流;从数据流中解码量化指数;从被解码的量化指数中重建子带样本;和通过使用一个可在低、中、和高频率分辨率模式之间切换的可变分辨率的合成滤波器组,从重建的子带样本中重建音频脉冲编码调制(PCM)样本;其中,当数据流指示当前帧是用高频率分辨率模式的可切换分辨率的分析滤波器组来编码时,可变分辨率的合成滤波器组以高频率分辨率模式操作;和其中,当数据流指示当前帧被聚类分割并且这些段是用低或中频率的分辨率模式的可切换分辨率的分析滤波器组来编码时,对于该帧的每一段,可变分辨率的合成滤波器组相应地以低或中频率分辨率模式操作。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:游余立
申请(专利权)人:广州广晟数码技术有限公司
类型:发明
国别省市:81[中国|广州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利