用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置制造方法及图纸

技术编号:23774820 阅读:39 留言:0更新日期:2020-04-12 03:40
一种用于对已编码的多声道信号进行解码的装置,包括:基础声道解码器(700),用于对已编码的基础声道进行解码以获得已解码的基础声道;去相关滤波器(800),用于对已解码的基础声道的至少一部分进行滤波以获得填充信号;以及多声道处理器(900),用于使用已解码的基础声道的频谱表示和填充信号的频谱表示来执行多声道处理,其中去相关滤波器(800)是宽频带滤波器,且多声道处理器(900)被配置为将窄频带处理施加到已解码的基础声道的频谱表示和填充信号的频谱表示。

A device for encoding or decoding a coded multichannel signal using a fill signal generated by a broadband filter

【技术实现步骤摘要】
【国外来华专利技术】用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置
本专利技术涉及音频处理,具体而言,涉及在用于对已编码的多声道信号进行解码的装置或方法内的多声道音频处理。
技术介绍
用于以低比特率对立体声信号进行参数化编译(coding)的现有技术的编解码器为MPEG编解码器xHE-AAC。其特征在于基于在子频带中估计的单声道降混和立体声参数声道间电平差(ILD)和声道间干扰(ICC)的完全参数化立体声编译模式。输出通过在每个子频带中使子频带降混信号和该子频带降混信号的去相关版本(其是通过在QMF滤波器组内应用子频带滤波器而获得的)矩阵化而由单声道降混合成。存在与用于编译语音项目的xHE-AAC相关的一些缺陷。生成了合成第二信号的滤波器产生输入信号的极大混响形式,这需要避免。因此,处理随时间推移会严重破坏输入信号的频谱形状。这对于许多信号类型效果良好,但对于频谱包络快速改变的语音信号,造成不自然的音调变化和听觉伪声,诸如双重通话或重音(ghostvoice)。另外,滤波器取决于基础QMF滤波器组的时间分辨率,其随采样率而改变。因此,输出信号对于不同采样率并不一致。除此之外,3GPP编解码器AMR-WB+的特征在于支持7至48kbit/s的比特率的半参数化立体声模式。其是基于左输入声道与右输入声道的中间/边带变换。在低频率范围中,通过中间信号m预测边带信号s以获得平衡增益,且m和预测残差两者均被编码且连同预测系数一起被传输给解码器。在中间频率范围中,仅对降混信号m进行编译,且使用低阶FIR滤波器根据m预测缺失信号s,缺失信号s是在编码器处进行计算的。这与两个声道的带宽扩展相组合。对于语音,编解码器通常生成比xHE-AAC更自然的声音,但面临若干问题。如果输入声道仅弱相关,如同例如回音语音信号或双重通话的情况,则通过低阶FIR滤波器由m预测s的过程效果并不非常好。而且,编解码器不能处理异相信号,这可能导致质量的大量损失,且可观察到,已解码的输出的立体声图像通常高度压缩。另外,该方法并非完全参数化的,且因此在比特率方面并不高效。通常,完全参数化方法可能会由于以下事实而导致音频质量恶化:由于参数化编码并不在解码器侧被重构,而导致任何信号部分损失。一方面,诸如中间/边带编译等的波形保持过程并不允许如可从参数化多声道编译器获得的实质性比特率节省。
技术实现思路
本专利技术的目标在于提供用于对已编码的多声道信号进行解码的改善构思。此目标通过用于对已编码的多声道信号进行解码的装置、根据权利要求37的对已编码的多声道信号进行解码的方法、根据权利要求38的计算机程序和根据权利要求39的音频信号去相关器、根据权利要求49的对音频输入信号进行去相关的方法或根据权利要求50的计算机程序来实现。本专利技术基于以下发现:混合方法对于对已编码的多声道信号进行解码是有用的。此混合方法依赖于使用通过去相关滤波器生成的填充信号,且此填充信号然后由诸如参数化之类的多声道处理器或其他多声道处理器用于生成已解码的多声道信号。具体而言,该去相关滤波器是宽频带滤波器,且该多声道处理器被配置为将窄频带处理应用于频谱表示。因此,填充信号优选地通过例如全通滤波器过程在时域中生成,且多声道处理使用已解码的基础声道的频谱表示且额外地使用从在时域中计算的填充信号生成的填充信号的频谱表示在谱域中进行。因此,频域多声道处理(一方面)和时域去相关(另一方面)的优点以有用的方式被组合以获得具有高音频质量的已解码的多声道信号。尽管如此,由于已编码的多声道信号通常并非波形保持的编码格式但例如是参数化多声道编译格式的事实,用于传输已编码的多声道信号的比特率保持尽可能低。因此,为了生成填充信号,仅使用诸如已解码的基础声道之类的解码器可用数据,且在某些实施例中,使用本领域已知的附加立体声参数,诸如增益参数或预测参数或者替代地ILD、ICC或任何其他立体声参数。随后,论述若干优选实施例。对立体声信号进行编译的最高效的方式是使用诸如双耳线索编译或参数化立体声之类的参数化方法。其旨在通过恢复子频带中的若干空间线索来根据单声道降混重构空间印象,且由此是基于心理声学的。存在考虑参数化方法的另一种方式:简单地尝试以参数化方式逐声道模型化,尝试利用声道间冗余。以此方式,可以从主级声道恢复次级声道的部分,但通常留有残差分量。忽略此分量通常导致已解码的输出的不稳定立体声图像。因此,有必要填充这种残差分量的合适替换。因为这种替换是盲目的,因此最安全的是从与降混信号具有类似时间和频谱属性的第二信号取得这样的部分。因此,本专利技术的实施例特别适用于参数化音频编译器,具体而言参数化音频解码器的上下文,其中缺失残差部分的替换是从由解码器侧的去相关滤波器生成的人工信号提取的。其他实施例涉及用于生成人工信号的过程。实施例涉及生成从中提取缺失残差部分的替换的人工第二声道的方法及其在被称为增强型立体声填充的全参数化立体声编译器中的使用。该信号比xHE-AAC信号更适合于编译语音信号,这是因为其频谱形状在时间上更接近输入信号。其是通过应用特殊滤波器结构而在时域中生成的,因此独立于执行立体声升混的滤波器组。其因此可用于不同的升混过程中。例如,其可用于xHE-AAC中以在变换到QMF域之后替换人工信号,此将改善语音的性能,以及可用于AMR-WB+的中频段中以替代中间/边带预测中的残差,这将改善弱相关输入声道的性能且改善立体声图像。这尤其可用于特征在于不同立体声模式(诸如,时域和频域立体声处理)的编解码器。在优选实施例中,去相关滤波器包括至少一个全通滤波器单元,该至少一个全通滤波器单元包括嵌套至第三施罗德全通滤波器中的两个施罗德全通滤波器单元,和/或该全通滤波器包括至少一个全通滤波器单元,该全通滤波器单元包括两个级联的施罗德全通滤波器,其中到第一级联的施罗德全通滤波器的输入和来自级联的第二施罗德全通滤波器的输出在信号流的方向上在第三施罗德全通滤波器的延迟级之前被连接。在又一实施例中,包括三个嵌套的施罗德全通滤波器的若干这种全通滤波器单元被级联以便获得用于立体声或多声道解码目的的具有良好脉冲响应的特别有用的全通滤波器。此处应强调,尽管关于根据单声道基础声道、左升混声道和右升混声道的立体声解码生成论述了本专利技术的若干方面,但本专利技术也适用于多声道解码,其中使用两个基础声道对例如四个声道的信号进行编码,其中前两个升混声道是从第一基础声道生成的,第三升混声道和第四升混声道是从第二基础声道生成的。在其他替代方案中,本专利技术亦适用于始终优选地使用相同的填充信号从单个基础声道生成三个或更多个升混声道。然而,在所有这种过程中,以宽频带方式,即优选地在时域中,生成填充信号,且在频域中进行用于从已解码的基础声道生成两个或更多个升混声道的多声道处理。去相关滤波器优选地完全在时域中操作。然而,其他混合方法也适用,其中例如通过(一方面)对低频带部分和(另一方面)高频带部分进行去相关来执行去相关,同时例如以高得多的频谱分辨率执行多声道处理。因此,示例性地,多声道处理的频本文档来自技高网
...

【技术保护点】
1.一种用于对已编码的多声道信号进行解码的装置,包括:/n基础声道解码器(700),用于对已编码的基础声道进行解码以获得已解码的基础声道;/n去相关滤波器(800),用于对所述已解码的基础声道的至少一部分进行滤波以获得填充信号;以及/n多声道处理器(900),用于使用所述已解码的基础声道的频谱表示和所述填充信号的频谱表示来执行多声道处理,/n其中,所述去相关滤波器(800)是宽频带滤波器,且所述多声道处理器(900)被配置为将窄频带处理施加到所述已解码的基础声道的频谱表示和所述填充信号的频谱表示。/n

【技术特征摘要】
【国外来华专利技术】20170728 EP 17183841.01.一种用于对已编码的多声道信号进行解码的装置,包括:
基础声道解码器(700),用于对已编码的基础声道进行解码以获得已解码的基础声道;
去相关滤波器(800),用于对所述已解码的基础声道的至少一部分进行滤波以获得填充信号;以及
多声道处理器(900),用于使用所述已解码的基础声道的频谱表示和所述填充信号的频谱表示来执行多声道处理,
其中,所述去相关滤波器(800)是宽频带滤波器,且所述多声道处理器(900)被配置为将窄频带处理施加到所述已解码的基础声道的频谱表示和所述填充信号的频谱表示。


2.根据权利要求1所述的装置,
其中,所述去相关滤波器(800)的滤波器特性被选择为使得所述滤波器特性的恒定幅度的区域大于所述已解码的基础声道的频谱表示的频谱粒度和所述填充信号的频谱表示的频谱粒度。


3.根据权利要求1或2所述的装置,其中,所述去相关滤波器包括:
滤波器级(802),用于对所述已解码的基础声道进行滤波以获得宽频带或时域填充信号;以及
频谱转换器(804),用于将所述宽频带或时域填充信号转换为所述填充信号的频谱表示。


4.根据前述权利要求中任一项所述的装置,
还包括基础声道频谱转换器(902),用于将所述已解码的基础声道转换为所述已解码的基础声道的频谱表示。


5.根据前述权利要求中任一项所述的装置,
其中,所述去相关滤波器(800)包括全通时域滤波器(802)或至少一个施罗德全通滤波器(802)。


6.根据前述权利要求中任一项所述的装置,
其中,所述去相关滤波器(800)包括至少一个施罗德全通滤波器,所述至少一个施罗德全通滤波器具有第一加法器(411)、延迟级(423)、第二加法器(416)、具有前向增益的前向馈送(443)和具有反向增益的反向馈送(433)。


7.根据权利要求5或6所述的装置,
其中,所述全通滤波器(802)包括至少一个全通滤波器单元,所述至少一个全通滤波器单元包括嵌套至第三施罗德全通滤波器(403)中的两个施罗德全通滤波器(401、402),或者
其中,所述全通滤波器包括至少一个全通滤波器单元(403),所述至少一个全通滤波器单元包括两个级联的施罗德全通滤波器(401、402),其中,到第一级联的施罗德全通滤波器中的输入与来自级联的第二施罗德全通滤波器的输出在信号流的方向上在所述第三施罗德全通滤波器的延迟级(423)之前被连接。


8.根据权利要求5至7中任一项所述的装置,其中,所述全通滤波器包括:
第一加法器(411)、第二加法器(412)、第三加法器(413)、第四加法器(414)、第五加法器(415)和第六加法器(416);
第一延迟级(421)、第二延迟级(422)和第三延迟级(423);
具有第一前向增益的第一前向馈送(431)、具有第一反向增益的第一反向馈送(441),
具有第二前向增益的第二前向馈送(442)和具有第二反向增益的第二反向馈送(432);以及
具有第三前向增益的第三前向馈送(443)和具有第三反向增益的第三反向馈送(433)。


9.根据权利要求8所述的装置,
其中,到所述第一加法器(411)中的输入表示到所述全通滤波器(802)中的输入,其中,到所述第一加法器(411)中的第二输入被连接到所述第三延迟级(423)的输出,且包括具有第三反向增益的所述第三反向馈送(433),
其中,所述第一加法器(411)的输出被连接到至所述第二加法器(412)中的输入且经由具有所述第三前向增益的所述第三前向馈送被连接到所述第六加法器的输入,
其中,到所述第二加法器(412)中的另一输入经由具有所述第一反向增益的第一反向馈送(441)被连接到所述第一延迟级(421),
其中,所述第二加法器(412)的输出被连接到所述第一延迟级(421)的输入且经由具有所述第一前向增益的所述第一前向馈送(431)被连接到所述第三加法器(413)的输入,
其中,所述第一延迟级(421)的输出被连接到所述第三加法器(413)的另一输入,
其中,所述第三加法器(413)的输出被连接到所述第四加法器(414)的输入,
其中,到所述第四加法器(414)中的另一输入经由具有所述第二反向增益的所述第二反向馈送(432)被连接到所述第二延迟级(422)的输出,
其中,所述第四加法器(414)的输出被连接到至所述第二延迟级(422)中的输入且经由具有所述第二前向增益的所述第二前向馈送(442)被连接到至所述第五加法器(415)中的输入,
其中,所述第二延迟级(421)的输出被连接到至所述第五加法器(415)中的另一输入,
其中,所述第五加法器(415)的输出被连接到所述第三延迟级(423)的输入,
其中,所述第三延迟级(423)的输出被连接到至所述第六加法器(416)中的输入,
其中,到所述第六加法器(416)中的另一输入经由具有所述第三前向增益的所述第三前向馈送(443)被连接到所述第一加法器(411)的输出,并且
其中,所述第六加法器(416)的输出表示所述全通滤波器(802)的输出。


10.根据权利要求7至9中任一项所述的装置,
其中,所述全通滤波器(802)包括两个或更多个全通滤波器单元(401、402、403、502、504、506、508、510),其中,所述全通滤波器单元的延迟的延迟值是互质的。


11.根据权利要求5至10中任一项所述的装置,
其中,施罗德全通滤波器的前向增益和反向增益相等或彼此相差小于所述前向增益和所述反向增益中的较大增益值的10%。


12.根据权利要求5至11中任一项所述的装置,
其中,所述去相关滤波器(800)包括两个或更多个全通滤波器单元,
其中,所述全通滤波器单元中的一个全通滤波器单元具有两个正增益和一个负增益,且所述全通滤波器单元中的另一个全通滤波器单元具有一个正增益和两个负增益。


13.根据权利要求5至12中任一项所述的装置,
其中,第一延迟级(421)的延迟值低于第二延迟级(422)的延迟值,并且其中,所述第二延迟级(422)的延迟值低于包括三个施罗德全通滤波器的全通滤波器单元的第三延迟级(423)的延迟值,或者
其中,第一延迟级(421)的延迟值和第二延迟级(422)的延迟值的总和小于包括三个施罗德全通滤波器的全通滤波器单元(502、504、506、508、510)的所述第三延迟级(423)的延迟值。


14.根据权利要求5至13中任一项所述的装置,
其中,所述全通滤波器(802)包括处于级联中的至少两个全通滤波器单元(502、504、506、508、510),其中,在所述级联中较靠后的全通滤波器的最小延迟值小于在所述级联中较靠前的全通滤波器单元的最高延迟值或次高延迟值。


15.根据权利要求5至14中任一项所述的装置,
其中,所述全通滤波器包括处于级联中的至少两个全通滤波器单元(502、504、506、508、510),
其中,每个全通滤波器单元(502、504、506、508、510)具有第一前向增益或第一反向增益、第二前向增益或第二反向增益和第三前向增益或第三反向增益、第一延迟级、第二延迟级和第三延迟级,
其中,所述增益和所述延迟的值被设定在下表中指示的值的±20%的容差范围内:



其中,B1(z)是所述级联中的第一全通滤波器单元(502),
其中,B2(z)是所述级联中的第二全通滤波器单元(504),
其中,B3(z)是所述级联中的第三全通滤波器单元(506),
其中,B4(z)是所述级联中的第四全通滤波器单元(508),并且
其中,B5(z)是所述级联中的第五全通滤波器单元(510),
其中,所述级联仅包括由B1至B5组成的全通滤波器单元组中的所述第一全通滤波器单元B1和所述第二全通滤波器单元B2或任何其他两个全通滤波器单元,或者
其中,所述级联包括从五个全通滤波器单元B1至B5的组中选择的三个全通滤波器单元,或者
其中,所述级联包括从由B1至B5组成的全通滤波器单元的组中选择的四个全通滤波器单元,或者
其中,所述级联包括所有五个全通滤波器单元B1至B5,
其中,g1表示所述全通滤波器单元的所述第一前向增益或所述第一反向增益,其中,g2表示所述全通滤波器单元的第二反向增益或第二前向增益,并且其中,g3表示所述全通滤波器单元的所述第三前向增益或所述第三反向增益,其中,d1表示所述全通滤波器单元的所述第一延迟级的延迟,其中,d2表示所述全通滤波器单元的所述第二延迟级的延迟,并且其中,d3表示所述全通滤波器单元的第三延迟级的延迟,或者
其中,g1表示所述全通滤波器单元的所述第二前向增益或所述第二反向增益,其中,g2表示所述全通滤波器单元的第一反向增益或第一前向增益,并且其中,g3表示所述全通滤波器单元的所述第三前向增益或所述第三反向增益,其中,d1表示所述全通滤波器单元的所述第二延迟级的延迟,其中,d2表示所述全通滤波器单元的所述第一延迟级的延迟,并且其中,d3表示所述全通滤波器单元的第三延迟级的延迟。


16.根据前述权利要求中任一项所述的装置,
其中,所述多声道处理器(900)被配置为使用所述已解码的基础声道的频谱带和所述填充信号的对应频谱带的不同加权组合来确定(946)第一升混声道和第二升混声道,所述不同加权组合取决于使用所述已解码的基础声道的频谱带和所述填充信号的对应频谱带计算的预测因子和/或增益因子和/或包络或能量归一化因子。


17.根据权利要求16所述的装置,
其中,所述多声道处理器被配置为对所述能量归一化因子进行压缩(945)并使用已压缩能量归一化因子来计算所述不同加权组合。


18.根据权利要求17所述的装置,其中,所述能量归一化因子使用以下操作来压缩:
计算(921)所述能量归一化因子的对数;
对所述对数应用(922)非线性函数;以及
计算(923)所述非线性函数的结果的取幂结果。


19.根据权利要求18所述的装置,
其中,所述非线性函数基于定义,
其中,所述函数c基于0≤c(t)≤1,
其中,t是实数,并且其中,τ是积分变量。


20.根据权利要求16或18所述的装置,
其中,所述多声道处理器(900、924、925)被配置为对所述能量归一化因子进行压缩(921)并且使用已压缩能量归一化因子并使用非线性函数来计算所述不同加权组合,
其中,所述非线性函数基于f(t)=t-max{min{a,t},-α}定义,
其中,α是预定边界值,并且其中,t是介于-α与+α之间的值。


21.根据前述权利要求中任一项所述的装置,
其中,所述多声道处理器(900)被配置为计算(904)低频带第一升混声道和低频带第二升混声道,并且
其中,所述装置还包括用于扩展所述低频带第一升混声道和所述低频带第二升混声道或低频带基础声道的时域带宽扩展器(960),
其中,所述多声道处理器(904)被配置为使用所述已解码的基础声道的频谱带和所述填充信号的对应频谱带的不同加权组合来确定(946)第一升混声道和第二升混声道,所述不同加权组合取决于使用所述已解码的基础声道的频谱带和所述填充信号的频谱带的能量所计算(945)的能量归一化因子,
其中,所述能量归一化因子是使用根据加窗高频带信号的能量导出(961)的能量估计来计算的。


22.根据权利要求21所述的装置,
其中,所述时域带宽扩展器(960)被配置为在没有用于计算所述能量归一化因子的所述加窗运算的情况下使用所述高频带信号。


23.根据前述权利要求中任一项所述的装置,
其中,所述基础声道解码器(700、705)被配置为提供已解码的主级基础声道和已解码的次级基础声道,
其中,所述去相关滤波器(800)被配置用于对所述已解码的主级基础声道进行滤波以获得所述填充信号,
其中,所述多声道处理器(900)被配置用于通过使用所述填充信号在多声道处理中合成一个或多个残差部分来执行多声道处理,或者
其中,整形滤波器(930)被应用于所述填充信号。


24.根据权利要求23所述的装置,
其中,所述主级基础声道和所述次级基础声道是原始输入声道的变换的结果,所述变换是例如中间/边带变换或卡忽南-拉维(KL)变换,并且其中,所述已解码的次级基础声道被限于较小带宽,
其中,所述多声道处理器被配置用于对所述填充信号进行高通滤波(930)并且用于使用高通滤波的填充信号作为不包括在所述带宽受限已解码的次级基础声道中的带宽的次级声道。


25.根据前述权利要求中任一项所述的装置,
其中,所述多声道处理器(900)被配置用于执行不同立体声处理方法(904a、904b、904c),并且
其中,所述多声道处理器(900)还被配置为同时,例如按带宽分离,或排他性地,例如频域相对于时域处理且连接到切换决策,执行所述不同多声道处理方法,并且
其中,所述多声道处理器(900)被配置为在所有多声道处理方法(904a、904b、904c)中使用相同填充信号。


26.根据前述权利要求中任一项所述的装置,
其中,所述去相关滤波器(800)包括时域滤波器(802),所述时域滤波器具有介于20ms与40ms之间的时域滤波器脉冲响应的最佳峰值区域。


27.根据前述权利要求中任一项所述的装置,
其中,所述去相关滤波器(800)被配置用于将所述已解码的基础声道再采样(811、812)至预定义或输入相关的目标采样率,
其中,所述去相关滤波器(800)被配置为使用去相关滤波器(802)级对再采样的已解码的基础声道进行滤波,并且
其中,所述多声道处理器(900)被配置为将用于其他时间部分的已解码的基础声道转换(710)至相同采样率,使得所述多声道处理器(900)使用基于相同采样率的所述已解码的基础声道和所述填充信号的频谱表示进行操作,而不管所述已解码...

【专利技术属性】
技术研发人员:扬·比特弗伦茨·罗伊特尔胡贝尔萨沙·迪施纪尧姆·福克斯马库斯·马特拉斯拉尔夫·盖格尔
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1