用于缩减解码的方法和音频解码器技术

技术编号:32859915 阅读:13 留言:0更新日期:2022-03-30 19:37
本申请提供用于缩减解码的方法和音频解码器。如果用于缩减音频解码的合成窗口是在非缩减音频解码过程中涉及的参考合成窗口的如下下采样版本,则可以更有效地和/或以改善的兼容性维护实现音频解码过程的缩减版本,其中所述下采样版本是按照下采样因子进行下采样并且使用以帧长的1/4为分段的分段内插获得的,以及所述下采样因子表示下采样的采样率和原始采样率的偏离。原始采样率的偏离。原始采样率的偏离。

【技术实现步骤摘要】
用于缩减解码的方法和音频解码器
[0001]本申请是申请日为2016年6月10日的PCT国际申请PCT/EP2016/063371进入中国国家阶段的题为“缩减编码”的专利技术专利申请No.201680047160.9的分案申请。


[0002]本申请涉及缩减(downscaled)解码构思。

技术介绍

[0003]MPEG

4增强型低延迟AAC(AAC

ELD)通常以高达48kHz的采样率操作,导致15ms的算法延迟。对于某些应用,例如音频的唇音同步(lip

sync)传输,期望更低的延迟。AAC

ELD已经通过以更高的采样率(例如,96kHz)操作来提供这样的选择,从而提供具有更低延迟(例如,7.5毫秒)的操作模式。但是,这种操作模式由于采样率高而带来不必要的高复杂度。
[0004]该问题的解决方案是应用滤波器组的缩减版本,并且从而以较低的采样率(例如,48kHz,而不是96kHz)来渲染音频信号。缩减操作已经是AAC

ELD的一部分,因为它是从作为AAC

ELD基础的MPEG

4AAC

LD编解码器继承而来的。
[0005]但是,仍然存在的问题是如何找到特定滤波器组的缩减版本。也就是说,唯一的不确定因素是在支持对AAC

ELD解码器的缩减操作模式的清楚的一致性测试的同时推导窗系数的方式。
[0006]在下文中,描述AAC

(E)LD编解码器的缩减操作模式的原理。
[0007]在ISO/IEC 14496

3:2009的第4.6.17.2.7节“对采用较低采样率的系统的适配”中描述了针对AAC

LD的缩减操作模式或AAC

LD,描述如下:
[0008]“在某些应用中,可能有必要将低延迟解码器集成到以较低采样率(例如16kHz)运行但比特流有效载荷的标称采样率要高得多(例如48kHz,对应于算法编解码器延迟约20毫秒)的音频系统中。在这种情况下,有利的是直接以目标采样率解码低延迟编解码器的输出,而不是在解码之后使用附加采样率转换操作。
[0009]这可以通过将帧尺寸和采样率两者适当地按照整数因子(例如2、3)缩减来近似,从而得到编解码器的相同的时闾/频率分辨率。例如,通过在合成滤波器组之前仅保留频谱系数的最低三分之一(即480/3=160),并且将逆变换大小减小到三分之一(即窗口大小为960/3=320),可以以16kHz采样率而不是标称48kHz来生成编解码器输出。
[0010]因此,较低采样率的解码降低了对存储器的要求和对计算的要求,但是可能不能产生与通过全带宽解码再接着进行频带限制和采样率转换得到的输出完全相同的输出。
[0011]请注意,如上所述,以较低采样率进行解码不会影响对等级的解释,所述等级是指AAC低延迟比特流有效载荷的标称采样率。”[0012]请注意,AAC

LD使用标准的MDCT框架和两个窗口形状,即正弦窗口和低重叠窗口。这两个窗口都完全用公式来描述,因此可以确定任意变换长度的窗系数。
[0013]与AAC

LD相比,AAC

ELD编解码器显示出两个主要区别:
[0014]·
低延迟MDCT窗口(LD

MDCT)
[0015]·
利用低延迟SBR工具的可能性
[0016]在[1]中的4.6.20.2中描述了使用低延迟MDCT窗口的IMDCT算法,这与使用例如正弦窗口的标准IMDCT版本的非常类似。低延迟MDCT窗口(480和512个采样的帧大小)的系数在[1]中的表4.A.15和4.A.16中给出。请注意,由于系数是优化算法的结果,系数不能由公式确定。图9示出了帧大小为512的窗口形状的图。
[0017]在低延迟SBR(LD

SBR)工具与AAC

ELD编码器结合使用的情况下,LD

SBR模块的滤波器组也被缩减。这确保了SBR模块以相同的频率分辨率工作,因此不需要更多的适配。
[0018]因此,上面的描述揭示了需要对解码操作进行缩减,例如对AAC

ELD处的解码进行缩减。重新找出缩减的合成窗口函数的系数是可行的,但是这是一个繁琐的任务,需要额外的存储空间来存储缩减版本,并且在非缩减的解码与缩减的解码之间的一致性检查更为复杂,或者从另一个角度来看,例如不符合AAC

ELD所要求的缩减方式。取决于缩减比率,即原始采样率和缩减的采样率之间的比率,可以简单地通过下采样(即,从原始合成窗口函数的每两个、三个...窗系数中抽取出一个)来导出缩减的合成窗口函数,但是这个过程不会相应产生非缩减解码和缩减解码之间的充分一致性。使用应用于合成窗口函数的更复杂的抽取过程,导致不可接受的与原始合成窗口函数形状的偏离。因此,本领域需要一种改进的缩减解码构思。

技术实现思路

[0019]因此,本专利技术的一个目的在于提供一种实现这种改进的缩减解码的音频解码方案。
[0020]该目的是通过独立权利要求的主题来实现的。
[0021]本专利技术基于下述发现:如果用于缩减音频解码的合成窗口是在非缩减音频解码过程中涉及的参考合成窗口的下述下采样版本,则可以更有效地和/或以改善的兼容性维护实现音频解码过程的缩减版本,其中所述下采样版本是按照下采样因子进行下采样并且使用以帧长的1/4为分段的分段内插获得的,以及所述下采样因子表示下采样的采样率和原始采样率的偏离。
附图说明
[0022]本申请的有利方面是从属权利要求的主题。以下参照附图描述本申请的优选实施例,其中:
[0023]图1是示出了为了保持完美重建在缩减解码时需要遵循的完美重建要求的示意图;
[0024]图2示出了根据实施例的用于缩减解码的音频解码器的框图;
[0025]图3示出了如下示意图,其在上半部分中示出了音频信号已经以原始采样率编码进数据流的方式,在通过水平虚线与上半部分分开的下半部分中示出了用于以降低或缩减的采样率从数据流重建音频信号的缩减解码操作,以便说明图2的音频解码器的操作模式;
[0026]图4示出了图2的加窗器和时域混叠消除器的协作的示意图;
[0027]图5示出了使用对经频谱

时间调制的时间部分的零加权部分的特殊处理来实现根据图4的重建的可能实现;
[0028]图6示出了用于获得下采样的合成窗口的下采样的示意图;
[0029]图7示出了包括低延迟SBR工具的AAC

ELD的缩减操作的框图;
[0030]图8示出了根据实施例的用于缩减解码的音频解码器的框图,其中调制器、加窗器和消除器是根据提升本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频解码器(10),被配置为以第一采样率从数据流(24)解码音频信号(22),所述音频信号(22)是以第二采样率变换编码到所述数据流中的,所述第一采样率是所述第二采样率的1/F,所述音频解码器(10)包括:接收器(12),被配置为接收所述音频信号的每帧的N个频谱系数(28),其中帧的长度为N;抓取器(14),被配置为针对每个帧从所述N个频谱系数(28)中抓取长度为N/F的低频分量;频谱

时间调制器(16),被配置为针对每个帧(36),使所述低频分量经过逆变换以获得长度为(E+2)
·
N/F的时间部分,其中所述逆变换具有在时间上在相应帧以及E+1个先前帧上延伸的长度为(E+2)
·
N/F的调制函数;加窗器(18),被配置为针对每个帧(36)使用长度为(E+2)
·
N/F的合成窗口为所述时间部分加窗,所述合成窗口包括在其前端的长度为1/4
·
N/F的零部分,并且在所述合成窗口的一时间间隔内具有峰值,所述时间间隔在所述零部分之后并且具有长度7/4
·
N/F,使得所述加窗器获得长度为(E+2)
·
N/F的经加窗的时间部分;以及时域混叠消除器(20),被配置为使所述帧的经加窗的时间部分经过重叠相加处理,使得当前帧的经加窗的时间部分的长度为(E+1)/(E+2)的尾端分量与前一帧的经加窗的时间部分的长度为(E+1)/(E+2)的前端重叠,其中所述逆变换是逆MDCT或逆MDST,以及其中所述合成窗口是对长度为(E+2)
·
N的参考合成窗口按照因子F进行下采样且按照长度为1/4
·
N的分段进行分段内插获得的下采样版本,其中,所述音频解码器(10)被配置为以如下方式执行所述内插:所述合成窗口的系数中的大部分取决于所述参考合成窗口的不止两个系数,并且所述合成窗口的每个系数不取决于所述参考合成窗口的属于与该系数所在的分段不同的分段的系数。2.根据权利要求1所述的音频解码器(10),其中所述逆变换是逆MDCT。3.根据权利要求1所述的音频解码器(10),其中,所述合成窗口的大小的80%以上被包括在所述零部分之后并且具有长度7/4
·
N/F的所述时间间隔内。4.根据权利要求1所述的音频解码器(10),其中,所述音频解码器(10)被配置为执行所述内插或者从存储器导出所述合成窗口。5.根据权利要求1所述的音频解码器(10),其中,所述音频解码器(10)被配置为支持F的不同值。6.根据权利要求1所述的音频解码器(10),其中F在1.5和10之间,且包括1.5和10。7.根据权利要求1所述的音频解码器(10),其中,所述参考合成窗口是单峰的。8.根据权利要求1所述的音频解码器(10),其中,所述音频解码器(10)被配置为以如下方式执行所述内插:所述合成窗口的被多于来自分段边界的两个系数所分隔的每个系数取决于所述参考合成窗口的系数中的两个。9.根据权利要求1所述的音频解码器(1...

【专利技术属性】
技术研发人员:马库斯
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1