使用针对多声道音频信号的声道的缩放参数的联合编码的音频解码器、音频编码器以及相关方法技术

技术编号:36978515 阅读:12 留言:0更新日期:2023-03-25 17:58
一种音频编解码器,包括用于对多声道音频信号进行解码的解码器,该多声道音频信号包括音频数据和关于联合编码缩放参数的信息,该解码器包括:缩放参数解码器(220),用于对该信息进行解码以获得第一缩放参数和第二缩放参数;以及信号处理器(210),用于将第一缩放参数和第二缩放参数应用于从数据中导出的第一声道表示和第二声道表示,以获得解码的音频信号的第一声道和第二声道,其中缩放参数包括关于第一组缩放参数和第二组缩放参数的信息,缩放参数解码器(220)被配置成使用第一组合规则来组合第一组缩放参数和第二组缩放参数,以获得第一缩放参数集合,并且使用不同于第一组合规则的第二组合规则来组合第一组缩放参数和第二组缩放参数以获得第二缩放参数集合。组缩放参数以获得第二缩放参数集合。组缩放参数以获得第二缩放参数集合。

【技术实现步骤摘要】
【国外来华专利技术】使用针对多声道音频信号的声道的缩放参数的联合编码的音频解码器、音频编码器以及相关方法


[0001]规范和优选实施例
[0002]本专利技术涉及例如可以应用于例如IVAS的MDCT立体声处理的音频信号处理。
[0003]此外,本专利技术可以应用于立体声频谱噪声整形参数的联合编码。

技术介绍

[0004]频谱噪声整形在频域中对量化噪声进行整形,使得量化噪声被人耳感知得最少,因此,可以最大化解码输出信号的感知质量。
[0005]频谱噪声整形是在最先进的基于变换的音频编解码器中使用的技术。
[0006]高级音频编码(AAC)
[0007]在这种方法[1][2]中,MDCT频谱被分区为多个非均匀缩放因子频带。例如,在48kHz下,MDCT具有1024个系数,并被分区为49个缩放因子频带。在每个频带中,缩放因子用于缩放该频带的MDCT系数。然后采用具有恒定步长的标量量化器来量化缩放的MDCT系数。在解码器侧,在每个频带中执行逆缩放,从而对由标量量化器引入的量化噪声进行整形。
[0008]49个缩放因子作为辅助信息被编码到比特流中。由于相对较大数量的缩放因子和所需的高精度,因此通常需要非常大量的比特来对缩放因子进行编码。这在低比特率和/或低延迟时可能成为问题。
[0009]基于MDCT的TCX
[0010]在基于MDCT的TCX(MPEG

D USAC[3]和3GPP EVS[4]标准中使用的基于变换的音频编解码器)中,在基于LPC的感知滤波器(如最近基于ACELP的语音编解码器(例如,AMR

WB)中使用的类似感知滤波器)的帮助下执行频谱噪声整形。
[0011]在该方法中,首先在预加重的输入信号上估计16个线性预测系数(LPC)的集合。然后对LPC进行加权和量化。然后在64个均匀间隔的频带中计算所加权和量化的LPC的频率响应。然后使用所计算的频率响应在每个频带中缩放MDCT系数。然后使用具有由全局增益控制的步长的标量量化器对缩放的MDCT系数进行量化。在解码器侧,在64个频带的每个中执行逆缩放,从而对由标量量化器引入的量化噪声进行整形。
[0012]该方法与AAC方法比具有明显的优点:它仅需要编码16(LPC)+1(全局增益)个参数作为辅助信息(与AAC中的49个参数相比)。此外,通过采用LSF表示和矢量量化器,可以用少量比特来高效地编码16个LPC。因此,基于MDCT的TCX的方法比AAC方法需要更少的辅助信息比特,这在低比特率和/或低延迟时可以产生显著差异。
[0013]改进的基于MDCT的TCX(心理声学LPC)
[0014]改进的基于MDCT的TCX系统在[5]中公布。在该新方法中,自相关(用于估计LPC)不再在时域中执行,而是使用MDCT系数能量的逆变换在MDCT域中进行计算。这允许通过简单地将MDCT系数分组为64个非均匀频带并计算每个频带的能量来使用非均匀频率缩放。它还降低了计算自相关所需的复杂度。
[0015]新的频谱噪声整形(SNS)
[0016]在[6]中描述并在低复杂度通信编解码器(LC3/LC3 plus)中实现的用于频谱噪声整形的改进技术中,可以通过在编码器侧使用更大数量的缩放因子进行缩放以及通过将编码器侧的缩放参数下采样为16个缩放参数(SNS参数)的第二集合来获得低比特率而不造成质量的实质性损失。因此,一方面获得了低比特率辅助信息,然而另一方面获得了由于精细缩放而导致的音频信号频谱的高质量频谱处理。
[0017]立体声线性预测(SLP)
[0018]在[7]中描述的论文中,通过不仅考虑帧间预测,而且还考虑从一个声道到另一声道的预测来计算线性预测系数集合。然后使用与用于单声道LP的技术类似的技术对所计算的二维系数集合进行量化和编码,但在论文的上下文中没有考虑残余项目的量化。然而,所描述的实施方式具有高延迟和显著复杂度,因此,它相当不适合于需要低延迟的实时应用,例如通信系统。
[0019]在[8]中描述的立体声系统(如基于MDCT的系统)中,执行离散L R声道信号的预处理,以便使用频域噪声整形将频谱缩放到“白化域”。然后,执行联合立体声处理,以最佳方式对白化的频谱进行量化和编码。
[0020]之前描述的频谱噪声整形技术的缩放参数是针对每个声道独立量化编码的。这导致辅助信息的双比特率需要通过比特流被发送给解码器。

技术实现思路

[0021]本专利技术的目的是提供改进的或更高效的编码/解码概念。
[0022]该目的是通过权利要求1所述的音频解码器、权利要求17所述的音频编码器、权利要求35所述的解码方法、权利要求36所述的编码方法或权利要求37所述的计算机程序来实现的。
[0023]本专利技术基于以下发现:对于多声道信号的L、R信号或通常两个或更多个声道相关的情况可以获得比特率节省。在这种情况下,两个声道的提取参数非常相似。因此,应用参数的联合量化编码,从而导致比特率的显著节省。该比特率的节省可以用于若干个不同的方向。一个方向可以是将节省的比特率用于核心信号的编码,从而改善立体声或多声道信号的整体感知质量。另一方向是在核心信号的编码未被改善并因此整体感知质量未被改善但保持相同质量的情况下达到较低的整体比特率。
[0024]在优选实施例中,根据第一方面,音频编码器包括:缩放参数计算器,用于针对多声道音频信号的第一声道的第一缩放参数集合以及针对多声道音频信号的第二声道的第二缩放参数集合计算第一组联合编码缩放参数和第二组联合编码缩放参数。音频编码器还包括:信号处理器,用于将第一缩放参数集合应用于多声道音频信号的第一声道并且将第二缩放参数集合应用于多声道音频信号的第二声道。信号处理器附加地从分别通过应用第一缩放参数集合和第二缩放参数集合而获得的第一声道数据和第二声道数据中导出多声道音频数据。音频编码器附加地具有:编码信号形成器,用于使用多声道音频数据和关于第一组联合编码缩放参数的信息以及关于第二组联合编码缩放参数的信息来获得编码多声道音频信号。
[0025]优选地,缩放参数计算器被配置为自适应的,使得针对多声道音频信号的每个帧
或子帧,确定是要执行对缩放参数进行联合编码还是对缩放参数进行单独编码。在另一实施例中,该确定基于所考虑的多声道音频信号的声道之间的相似度分析。具体地,通过计算联合编码参数的能量,并且具体地,计算第一组联合编码缩放参数和第二组联合编码缩放参数中的一个缩放参数集合的能量,来进行相似度分析。具体地,缩放参数计算器将第一组计算为对应的第一缩放参数和第二缩放参数之间的和,并将第二组计算为对应的第一缩放参数和第二缩放参数之间的差值。具体地,第二组并且优选地表示差值的缩放参数用于相似度度量的确定,以便决定是对缩放参数进行联合编码还是对缩放参数进行单独编码。该情况可以经由立体声或多声道标志用信号通知。
[0026]此外,优选地用两级量化过程具体地对缩放参数进行量化。第一级矢量量化器对多个缩放参数或一般而言对音频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于对编码音频信号进行解码的音频解码器,所述编码音频信号包括多声道音频数据和关于联合编码缩放参数的信息,所述多声道音频数据包括针对两个或更多个音频声道的数据,所述音频解码器包括:缩放参数解码器(220),用于对所述关于联合编码缩放参数的信息进行解码,以获得解码音频信号的第一声道的第一缩放参数集合和所述解码音频信号的第二声道的第二缩放参数集合;以及信号处理器(210、212、230),用于将所述第一缩放参数集合应用于从所述多声道音频数据中导出的第一声道表示,并且用于将所述第二缩放参数集合应用于从所述多声道音频数据中导出的第二声道表示,以获得所述解码音频信号的第一声道和第二声道,其中,所述联合编码缩放参数包括关于第一组联合编码缩放参数的信息和关于第二组联合编码缩放参数的信息,以及其中,所述缩放参数解码器(220)被配置为:使用第一组合规则组合所述第一组中的联合编码缩放参数和所述第二组中的联合编码缩放参数以获得所述第一缩放参数集合中的缩放参数,并且使用不同于所述第一组合规则的第二组合规则组合所述第一组中的联合编码缩放参数和所述第二组中的联合编码缩放参数以获得所述第二缩放参数集合中的缩放参数。2.根据权利要求1所述的音频解码器,其中,所述第一组联合编码缩放参数包括中间缩放参数,并且所述第二组联合编码缩放参数包括辅助缩放参数,并且其中,所述缩放参数解码器(220)被配置为:在所述第一组合规则中使用加法,并且在所述第二组合规则中使用减法。3.根据权利要求1或2所述的音频解码器,其中,所述编码音频信号被组织成帧的序列,其中,第一帧包括所述多声道音频数据和所述关于联合编码缩放参数的信息,并且其中,第二帧包括单独编码缩放参数信息,以及其中,所述缩放参数解码器(220)被配置为:检测所述第二帧包括单独编码缩放参数信息,并计算所述第一缩放参数集合和所述第二缩放参数集合。4.根据权利要求3所述的音频解码器,其中,所述第一帧和所述第二帧各自包括状态辅助信息,所述状态辅助信息在第一状态中指示所述第一帧包括关于联合编码缩放参数的信息,并且所述状态辅助信息在第二状态中指示所述第二帧包括单独编码缩放参数信息,并且其中,所述缩放参数解码器(220)被配置为读取所述第二帧的状态辅助信息,基于所读取的状态辅助信息检测所述第二帧包括单独编码缩放参数信息,或者读取所述第一帧的状态辅助信息,并且使用所读取的状态辅助信息来检测所述第一帧包括关于联合编码缩放参数的信息。5.根据前述权利要求之一所述的音频解码器,其中,所述信号处理器(210、212、230)被配置为对所述多声道音频数据进行解码以导出所述第一声道表示和所述第二声道表示,其中,所述第一声道表示和所述第二声道表示是具有频谱采样值的谱域表示,以及其中,所述信号处理器(210、212、230)被配置为:将所述第一集合和所述第二集合的每个缩放参数应用于对应的多个所述频谱采样值以获得所述第一声道的整形频谱表示和所
述第二声道的整形频谱表示。6.根据权利要求5所述的音频解码器,其中,所述信号处理器(210、212、230)被配置为:将所述第一声道的整形频谱表示和所述第二声道的整形频谱表示转换到时域以获得所述解码音频信号的所述第一声道的时域表示和所述第二声道的时域表示。7.根据前述权利要求之一所述的音频解码器,其中,所述第一声道表示包括第一数量的频带,其中,所述第一缩放参数集合包括第二数量的缩放参数,所述第二数量小于所述第一数量,以及其中,所述信号处理器(210、212、230)被配置为对所述第二数量的缩放参数进行插值以获得数量大于或等于所述第一数量的频带的多个插值的缩放参数,并且其中,所述信号处理器(210、212、230)被配置为使用所述插值的缩放参数来缩放所述第一声道表示,或者其中,所述第一声道表示包括第一数量的频带,其中,所述关于第一组联合编码缩放参数的信息包括第二数量的联合编码缩放参数,所述第二数量小于所述第一数量,其中,所述缩放参数解码器(220)被配置为:对所述第二数量的联合编码缩放参数进行插值以获得数量大于或等于所述第一数量的频带的多个插值的联合编码缩放参数,以及其中,所述缩放参数解码器(220)被配置为:处理所述插值的联合编码缩放参数以确定所述第一缩放参数集合和所述第二缩放参数集合。8.根据前述权利要求之一所述的音频解码器,其中,所述编码音频信号被组织成帧的序列,其中,所述关于第二组联合编码缩放参数的信息包括特定帧中的零辅助信息,其中,所述缩放参数解码器(220)被配置为检测零辅助信息以确定所述第二组联合编码缩放参数针对所述特定帧全部为零,以及其中,所述缩放参数解码器(220)被配置为:仅从所述第一组联合编码缩放参数中导出所述第一缩放参数集合和所述第二缩放参数集合中的缩放参数,或者在组合所述第一组中的联合编码缩放参数和所述第二组中的联合编码缩放参数中设置为零值或小于噪声阈值的值。9.根据前述权利要求之一所述的音频解码器,其中,所述缩放参数解码器(220)被配置为:使用第一去量化模式对所述关于第一组联合编码缩放参数的信息进行去量化,并且使用第二去量化模式对所述关于第二组联合编码缩放参数的信息进行去量化,所述第二去量化模式不同于所述第一去量化模式。10.根据权利要求9所述的音频解码器,其中,所述缩放参数解码器(220)被配置为使用具有关联的比所述第一去量化模式低或高的量化精度的所述第二去量化模式。11.根据权利要求9或10所述的音频解码器,其中,所述缩放参数解码器(220)被配置为使用第一去量化级(2220)和第二去量化级(2260)和组合器(2240)作为所述第一去量化模式,所述组合器(2240)接收所述第一去量化级(2220)的结果和所述第二去量化级(2260)的结果作为输入,以及使用所述第一去量化模式的所述第二去量化级(2220)作为所述第二去量化模式,接收所述关于第二组联合编码缩放参数的信息作为输入。12.根据权利要求11所述的音频解码器,其中,所述第一去量化级(2220)是矢量去量化
级,并且其中,所述第二去量化级(2260)是代数矢量去量化级,或者其中,所述第一去量化级(2220)是固定速率去量化级,并且其中,所述第二去量化级(2260)是可变速率去量化级。13.根据权利要求11或12所述的音频解码器,其中,针对所述编码音频信号的帧,所述关于第一组联合编码缩放参数的信息包括两个或更多个索引,并且其中,所述关于第二组联合编码缩放参数的信息包括单个索引或较少数量的索引或包括与第一组相同数量的索引,以及其中,所述缩放参数解码器(220)被配置为:在所述第一去量化级(2220)中,例如针对所述两个或更多个索引中的每个索引,确定所述第一组的中间联合编码缩放参数,并且其中,所述缩放参数解码器(220)被配置为:在所述第二去量化级(2260)中,例如根据所述单个或较少数量或与所述关于第一组联合编码缩放参数的信息相同数量的索引来计算所述第一组的残余联合编码缩放参数,并由所述组合器(2240)根据所述第一组的中间联合编码缩放参数和所述第一组的残余联合编码缩放参数来计算所述第一组联合编码缩放参数。14.根据权利要求11至13之一所述的音频解码器,其中,所述第一去量化级(2220)包括使用具有第一数量的条目的第一码本的索引或使用表示第一精度的索引,其中,所述第二去量化级(2260)包括使用具有第二数量的条目的第二码本的索引或使用表示第二精度的索引,并且其中,所述第二数量低于或高于所述第一数量或者所述第二精度低于或高于所述第一精度。15.根据前述权利要求之一所述的音频解码器,其中,所述关于第二组联合编码缩放参数的信息指示所述第二组联合编码缩放参数针对所述编码音频信号的帧全部为零或处于特定值,并且其中,所述缩放参数解码器(220)被配置为:在使用所述第一规则或所述第二规则进行组合时,使用为零或处于所述特定值或者是合成的联合编码缩放参数的联合编码缩放参数,或其中,针对包括全零或特定值信息的所述帧,所述缩放参数解码器(220)被配置为仅使用所述第一组联合编码缩放参数而不进行组合操作来确定所述第二缩放参数集合。16.根据权利要求9或10之一所述的音频解码器,其中,所述缩放参数解码器(220)被配置为使用第一去量化级(2220)和第二去量化级(2260)和组合器(2240)作为所述第一去量化模式,所述组合器(2240)接收所述第一去量化级(2220)的结果和所述第二去量化级(2260)的结果作为输入,并使用所述第一去量化模式的所述第一去量化级(2220)作为所述第二去量化模式。17.一种用于对包括两个或更多个声道的多声道音频信号进行编码的音频编码器,包括:缩放参数计算器(140),用于根据所述多声道音频信号的第一声道的第一缩放参数集合以及根据所述多声道音频信号的第二声道的第二缩放参数集合来计算第一组联合编码缩放参数和第二组联合编码缩放参数;信号处理器(120),用于将所述第一缩放参数集合应用于所述多声道音频信号的第一声道,并用于将所述第二缩放参数集合应用于所述多声道音频信号的第二声道,以及用于导出多声道频道音频数据;以及编码信号形成器(1480、1500),用于使用所述多声道音频数据和关于第一组联合编码缩放参数的信息以及关于第二组联合编码缩放参数的信息来获得编码多声道音频信号。
18.根据权利要求17所述的音频编码器,其中,所述信号处理器(120)被配置为:在所述应用的操作中,对所述第一组联合编码缩放参数和所述第二组联合编码缩放参数进行编码,以获得所述关于第一组联合编码缩放参数的信息和所述关于第二组联合编码缩放参数的信息,对所述关于第一组联合编码缩放参数的信息和所述关于第二组联合编码缩放参数的信息进行本地解码,以获得本地解码的第一缩放参数集合和本地解码的第二缩放参数集合,以及使用本地解码的第一缩放参数集合来缩放所述第一声道以及使用本地解码的第二缩放参数集合来缩放所述第二声道,或者其中,所述信号处理器(120)被配置为:在所述应用的操作中,量化所述第一组联合编码缩放参数和所述第二组联合编码缩放参数,以获得量化的第一组联合编码缩放参数和量化的第二组联合编码缩放参数,对所述量化的第一组联合编码缩放参数和所述量化的第二组联合编码缩放参数进行本地解码,以获得本地解码的第一缩放参数集合和本地解码的第二缩放参数集合,以及使用本地解码的第一缩放参数集合来缩放所述第一声道以及使用本地解码的第二缩放参数集合来缩放所述第二声道。19.根据权利要求17或18所述的音频编码器,其中,所述缩放参数计算器(140)被配置为:使用第一组合规则组合所述第一缩放参数集合中的缩放参数和所述第二缩放参数集合中的缩放参数以获得所述第...

【专利技术属性】
技术研发人员:以马利
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1