自适应块长、常数变换音频解码方法技术

技术编号:3421390 阅读:209 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种用于从压缩音频码流中提供音频信号的方法,包括如下步骤:对码流进行解格式化,以提取变换系数和每块的变换系数的数目;将获得的变换系数分块成具有这样的块长的块:该块长等于2的幂,并且比解格式化的每块的变换系数的数目的两倍还长;使用常数长度的反离散变换来对分块后的变换系数进行反变换,用于获得反变换后的采样的缓冲;从获得的反变换后的采样的缓冲中提取时域采样;通过合成窗对提取的时域采样的块进行窗变换,随后交叠窗变换后的块,并将交叠结果相加。其中,接收的变换系数的数目可以各块互不相同。

【技术实现步骤摘要】

本专利技术涉及压缩音频信号的解码,其中压缩方案采用基于改进离散余弦变换(MDCT)的方法,也称为时域混叠(aliasing)消除。更具体地说,本专利技术涉及通过改变块长对压缩音频流进行解码,其中给出块长作为压缩音频流中的辅助信息。本专利技术提供了一种用于使用自适应改变块长的音频块的常数长度反变换的方法。这样的方法有时在专用集成电路(ASIC)、现场可编程门阵列(FPGA)或可编程逻辑器件(PLD)的使用中是必需的。
技术介绍
在音频编码中,压缩用于存储音频数据的空间是一个焦点。目前用于高质量音频的最新方法采用感觉编码来进行压缩。通常,这是通过将信号划分成频率带并且根据频带之间的掩蔽(masking)进行量化而完成的。音频信号划分成频率带可以通过不同的方法来完成,由此当前的技术通常采用变换编码。变换编码是一种采用离散变换来将音频信号转化成频域表示的方法。通常通过下面的步骤来描述感觉编码器-信号窗变换-将窗变换后的块变换成频谱表示-对时域和频域掩蔽模型参数的估计。这确定了不使感觉音频质量下降而可引入的最大编码误差。-基于掩蔽模型参数对频谱表示的量化。这样用信号来掩蔽量化噪声。-量化频谱参数和其他辅助信息的格式化。解码器反转这个处理流程,以重构尽可能接近原始信号的信号。到频谱表示的变换可以是任意已知的离散变换,诸如离散傅立叶变换(DFT)、离散余弦变换(DCT)或者改进离散余弦变换(MDCT)。这些变换在能量压缩、混叠特性和计算量要求等方面具有不同的特性。离散变换通常假设块长是无限的并且由于这在实际中是不可能的,在切断的块长中会引入误差。这个误差被称作频谱泄露,可以通过在对块变换前应用分析窗、在反变换后应用合成窗来降低误差。如果窗选择得合适,可以在滤波器的常数过渡频带陡度获得增加的阻带衰减。分析-合成窗必须具有这样的特性当在定义的交叠长度上交叠时,分析和合成窗的结果必须对每个采样为常数。如果这个标准不满足,就将引入失真。窗变换过程在音频编码中具有另一、甚至更重要的正面效果。如果没有使用任何窗、或者使用了矩形窗,就会由于量化而引入窗之间边界上脉冲幅度的改变。通过在边界上采用取值接近0的平滑窗,将会避免这样的突然幅度变化。关于窗的讨论和对其特性的描述可参见Harris,“On the use of windows for harmonic analysiswith the discrete Fourier transform”,IEEE Proc.,Vol.66,No 1,Jan.1978。当通过交叠窗而使用DFT时,信号将会过采样,比信号的时域表示需要更多的比特。Princen(Princen,Bradly,“Analysis/Synthesis FilterBank Design Based on Time Domain Aliasing Cancellation”,IEEE,volASSP-34,Oct 1986,pp.1153-1161)描述了一种余弦调制滤波器组,其在频域欠采样。这个欠采样不可避免地导致了混叠,但是这个特定的滤波器组可以通过合适的交叠相加(overlap-add)消除混叠信号。通过欠采样而获得临界采样的滤波器组。这意味着,当使用50%交叠的块时,频率系数的数目等于时域采样的数目。在对频谱系数块进行反变换之后,在时域信号中有混叠。通过合适选择时域相位参数,并且通过使用交叠相加方法,可以完全地消除混叠。这个原理称为时域混叠消除(TDAC)或者重叠变换(Lapped Transform,LT),所使用的离散变换通常称为改进离散余弦变换(MDCT)。Princen没有教导在保持混叠消除的变换特性的同时怎样选取块长、窗长或者变换长度。长的块长为伪稳态音频信号增加了编码增益和频率解析度。另一方面,长的变换长度导致较少的时域解析度、更长的等待时间和可能引入的所谓的预瞬时噪声。针对该双边问题,提出了若干的解决方案。在较早的编解码器中,在设计期间定义了一个固定块长。这可导致预瞬时噪声。在采样块开始包含低能量、在信号的稍后部分有瞬时冲击的情况下会出现预瞬时噪声。当使用上述变换之一将信号变换到频域并进行量化后,将删除某些信息。根据感觉理论,这些丢失的信息理想地应该是听不见的,但是当块包含瞬时声音时,量化噪声会在时域上在整个块中扩散。较早前包含具有低幅度信号的部分在反量化和反变换之后将也会包含量化噪声,某些环境中,在这个部分高噪声的能量可能比信号自身的能量还高。对于通常具有陡峭瞬变的声音来说,例如钟声,预瞬时噪声通常可以听成是幅度的缓慢增加。有证据表明,块长越短,具有诸如预瞬时噪声的边效应的危险就越低。在图1、2和3中可以看到,块长对预瞬时噪声具有很重要的影响,足够短的块长可以支持量化噪声的掩蔽。图1说明了这样的信号,最初具有低能量,而后是一个瞬变。X轴表示采样号,从0开始,Y轴表示幅度,归一化为-1到+1之间的值。图2说明了量化MDCT系数后重构所引入的预瞬时噪声。可以看出,这里引入的预瞬时噪声延伸了超过350个采样的长度,其在44,100采样每秒的采样率下对应于几乎8ms的长度。在这个特定的例子中,预瞬时噪声没有被人类听觉系统所掩蔽。本例中所采用的块长是512个采样,采样率为44,100采样每秒。图3说明了在使用256个采样的块长时引入的量化噪声。预瞬时噪声现在减小到小于采用512个采样的块长时所引入噪声的三分之一。在所示的瞬变中,刚好约2ms的预瞬时长度通常是听不到的。为了避免预瞬时噪声,Elder(Elder,“Coding of Audio Signal withOverlapping Block Transform and Adaptive Window Function”,Frequenz,vol.43,No.9,1989,pp.252-256)描述了一种随着输入信号特性的改变而自适应改变TDAC块长和变换长度的方法。他通过以特殊方式设计窗而显示出,窗长可以自适应改变而不会引入混叠。Elder还描述了一种用于分析信号以检测瞬变以及一旦检测到瞬变该怎样改变块长的方法。但是,Elder的方法没有告诉我们在自适应改变块长的同时怎样使用常数变换长度。Sugiyama(Sugiyama,Hazu,Iwadare,Nishitani,“Adaptive TransformCoding with an Adaptive Block Size(ATC-ABS)”,ICASSP,Apr.1990,pp.1093-1096)描述了怎样自适应改变块长。在使用离散余弦变换(DCT)作为变换方法的编解码器中显示该方法。Sugiyama等描述了用于该自适应块长变化的前馈和反馈系统,但是在自适应块长的同时都没有采用常数长度的变换。Sugiyama等提出,TDAC的相似方法具有增强其所述算法的优越性的可能性,但是没有提出任何进一步的详细说明。Davidson(中国专利申请No.91102167)采纳了在MDCT块长之间变化时的变换。Davidson描述了一种用于选取块长以及可怎样修改相位项来确保不同长度块间的混叠消除的方法。Davidson的方法使用不同长度块之间的频谱过渡窗或者使用短块之间的零交叠长度。他还讨论了诸本文档来自技高网...

【技术保护点】
一种用于从压缩音频码流中提供音频信号的方法,所述方法包括如下步骤:对所述码流进行解格式化,以提取变换系数和每块的变换系数的数目;将所述获得的变换系数分块成具有这样的块长的块;该块长等于2的幂,并且比所述解格式化的每块的变换系数的数目的两倍还长;使用常数长度的反离散变换来对所述分块后的变换系数进行反变换,用于获得反变换后的采样的缓冲;从所述获得的反变换后的采样的缓冲中提取时域采样;通过合成窗对所述提取的时域采样的块进行窗变换,随后交叠所述窗变换后的块,并将交叠结果相加,其中,所述接收的变换系数的数目可以各块互不相同。

【技术特征摘要】

【专利技术属性】
技术研发人员:亚当伦德奎斯特斯蒂安阿格达尔
申请(专利权)人:尼禄股份公司
类型:发明
国别省市:DE[德国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利