使用频谱域重新取样来编码或解码音频多通道信号的装置及方法制造方法及图纸

技术编号:17310271 阅读:52 留言:0更新日期:2018-02-19 10:14
用于将至少两个通道的样本值的块的序列转换成频谱值的块的序列的装置,其中取样值的块具有输入取样率,多通道处理器(1010)用于将联合多通道处理应用于块的序列或块的重新取样序列,以获得频谱值的块的至少一个结果序列;频谱域重新取样器(1020)用于对结果序列的块重新取样或用于对频谱值的块的序列重新取样,以获得频谱值的块的重新取样序列,其中块的重新取样序列的块具有高达不同于最大输入频率(1211)的最大输出频率(1231,1221)的频谱值;频谱时间转换器用于将块的重新取样序列或块的结果序列转换成时域表示;以及核心编码器(1040)用于编码块的输出序列。

A device and method for coding or decoding audio multichannel signals using spectral domain resampling

Device for the spectral values of the sequence block conversion sequence block at least two channel sample value, the sampling value block with the input sampling rate, multi channel processor (1010) for sequence or block re sampling sequence combined multichannel processing in the block, with at least one results the value of the frequency spectrum block sequence; frequency domain sampler (1020) used to re sequence results in block re sampling or sequence for block of spectrum value of re sampling, re sampling sequence to obtain the spectral value of the block, the re sampling sequence block of the block with high is different from the maximum input frequency (1211) the maximum output frequency (12311221) of the value of the frequency spectrum; spectral time for converter block or block the re sampling sequence sequence into time domain representation; and (1040) the core encoder for encoding block. Out of the sequence.

【技术实现步骤摘要】
【国外来华专利技术】使用频谱域重新取样来编码或解码音频多通道信号的装置及方法
本申请关于立体声处理或一般而言多通道处理,其中多通道信号具有两个通道(诸如,在立体声信号的情况下,左通道及右通道)或多于两个的通道(诸如,三个、四个、五个或任何其他数目个通道)。
技术介绍
立体声语音且特别的会话式立体声语音已受到比立体声音乐的存储及广播少得多的关注。实际上,在语音通信中,现如今仍然主要使用单声道传输。然而,随着网络带宽及容量增大,设想基于立体声技术的通信将变得愈加流行且带来较佳收听体验。为了高效存储或广播,在音乐的感知音频编码中已对立体声音频材料的高效编码进行长时间研究。在波形保持至关重要的高比特率下,已长时间使用已知为中间/边(M/S)立体声的总和-差立体声。对于低比特率,已引入强度立体声及近年来的参数立体声编码。在不同标准中采用最新技术,如HeAACv2及MpegUSAC。最新技术产生两通道信号的降混且关联紧密空间边信息。联合立体声编码通常相对于高频分辨率(即,低时间分辨率,信号的时间频率变换)来建置,且因而与大部分语音编码器中所执行的低延迟及时域处理不兼容。此外,产生的比特率通常是高的。另一方面,参数立体声采用额外滤波器组,其作为预处理器定位于编码器的前端中且作为后处理器定位于解码器的后端中。因此,参数立体声可与如ACELP的常规语音编码器一起使用,如在MPEGUSAC中进行的。此外,听觉场景的参数化可用最小量的边信息达成,此适合于低比特率。然而,如例如在MPEGUSAC中,参数立体声未针对低延迟特定设计且并不针对不同会话式情境传递不变质量。在空间场景的常规参数表示中,立体声影像的宽度通过应用于两个合成通道的去相关器而人工再现且由通过编码器计算以及传输的通道间相干性(IC)参数来控制。对于大部分立体声语音,加宽立体声影像的此方式并不适合于重建是完美直接声音的语音的自然环境,因为其是由位于空间中的特定位置处的单一源产生的(有时具有来自房间的一些混响)。相比之下,乐器具有比语音大得多的自然宽度,此可通过使通道去相关来较好地模仿。问题还在用非重合麦克风记录语音时出现,如在麦克风彼此远离时成A-B配置,或针对双耳记录或呈现。可设想那些情境以用于在电话会议中捕获语音或用于在多点控制单元(MCU)中用远距离扬声器建立虚拟听觉场景。信号的到达时间因而在一个通道与另一通道之间不同,不同于用重合麦克风进行的记录,如X-Y(强度录音)或M-S(中间边录音)。这种非时间对准的两个通道的相干性的计算接着可被错误地估计,此使得人工环境合成失败。与立体声处理相关的现有技术参考为美国专利5,434,948或美国专利8,811,621。文件WO2006/089570A1公开近透明或透明的多通道编码器/解码器方案。多通道编码器/解码器方案额外产生波形型残余信号。此残余信号与一个或多个多通道参数一起传输至解码器。与纯粹的参数多通道解码器相比,增强型解码器由于额外残余信号而产生具有经改良输出质量的多通道输出信号。在编码器侧,左通道及右通道均通过分析滤波器组被滤波。因而,对于每个子频带信号,针对子频带计算对准值及增益值。此对准因而在进一步处理之前执行。在解码器侧,执行去对准及增益处理,且接着通过合成滤波器组来合成对应信号以便产生经解码左信号及经解码右信号。另一方面,参数立体声采用额外滤波器组,其作为预处理器定位于编码器的前端中且作为后处理器定位于解码器的后端中。因此,参数立体声可与如ACELP的常规语音编码器一起使用,如在MPEGUSAC中进行的。此外,听觉场景的参数化可用最小量的边信息达成,此适合于低比特率。然而,如例如在MPEGUSAC中,参数立体声未针对低延迟特定设计,且整个系统示出非常高的算法延迟。
技术实现思路
本专利技术的目标为提供针对多通道编码/解码的经改良概念,其高效且在位置中以获得低延迟。此目标通过根据权利要求1的用于编码多通道信号的装置、根据权利要求24的用于编码多通道信号的方法、根据权利要求25的用于解码经编码多通道信号的装置、根据权利要求42的用于解码经编码多通道信号的方法或根据权利要求43的计算机程序而达成。本专利技术基于如下发现:多通道处理(即,联合多通道处理)的至少一部分且优选地所有部分在频谱域中执行。具体地,优选在频谱域中执行联合多通道处理的降混操作,且额外地,时间及相位对准操作或甚至用于分析联合立体声/联合多通道处理的参数的程序。另外,频谱域重新取样在多通道处理之后或甚至在多通道处理之前执行,以便提供来自另外频谱时间转换器的输出信号,其已经处于随后连接的核心编码器所需的输出取样率下。在解码器侧,优选地再次执行用于在频谱域中从降混信号产生第一通道信号及第二通道信号的至少操作,且优选地,甚至在频谱域中执行完整的逆多通道处理。此外,提供时间频谱转换器以用于将经核心解码信号转换成频谱域表示,且在频域内,执行逆多通道处理。频谱域重新取样在多通道逆处理之前执行或在多通道逆处理之后执行,以此方式使得在最后,频谱时间转换器将频谱重新取样信号以意欲用于时域输出信号的输出取样率转换至时域中。因此,本专利技术允许完全避免任何计算密集型时域重新取样操作。相反,多通道处理与重新取样组合。在优选实施例中,频谱域重新取样在减少取样的情况下通过截短频谱而执行,或在增加取样的情况下通过对频谱进行零填补而执行。这些简单操作(即,一方面截短频谱或另一方面对频谱进行零填补,及优选的额外缩放,以便考虑诸如DFT或FFT算法的频谱域/时域转换算法中所执行的某些归一化操作)使频谱域重新取样操作以非常高效且低延迟的方式完成。此外,已发现编码器侧上的至少一部分或甚至整个联合立体声处理/联合多通道处理及解码器侧上的对应逆多通道处理适合于在频域中执行。此并不仅仅对于作为编码器侧上的最小联合多通道处理的降混操作或作为解码器侧上的最小逆多通道处理的升混处理有效。相反,甚至编码器侧上的立体声场景分析及时间/相位对准或解码器侧上的相位及时间去对准也可在频谱域中执行。上述情况适用于优选地执行的编码器侧上的边通道编码或解码器侧上的用于产生两个经解码输出通道的边通道合成及使用。因此,本专利技术的优点为提供了比现有立体声编码方案更加适合于立体声语音的转换的新立体声编码方案。本专利技术的实施例提供用于实现低延迟立体声编解码器及在切换式音频编解码器内集成针对语音核心编码器及基于MDCT的核心编码器的在频域中执行的共同立体声工具的新架构。本专利技术的实施例关于对来自常规M/S立体声或参数立体声的元素进行混频的混合式方法。实施例使用来自联合立体声编码的一些方面及工具以及来自参数立体声的其他方面及工具。更特别地,实施例采用在编码器的前端以及在解码器的后端进行的额外时间频率分析及合成。时间频率分解及逆变换通过采用具有复数值的滤波器组或块变换来达成。来自两个通道或多通道输入,立体声或多通道处理组合且修改输入通道,以输出称为中间及边信号(MS)的通道。本专利技术的实施例提供用于减小由立体声模块引入且特别地来自其滤波器组的成帧(framing)及开窗的算法延迟的解决方案。所述解决方案提供多速率逆变换,其用于通过以不同取样率产生相同立体声处理信号而对如3GPPEVS的切换式编码器或在语音编码器(如ACELP)与一般音频编码器(如TC本文档来自技高网
...
使用频谱域重新取样来编码或解码音频多通道信号的装置及方法

【技术保护点】
一种用于编码包含至少两个通道的多通道信号的装置,包括:时间频谱转换器(1000),用于将所述至少两个通道的样本值的块的序列转换成具有所述至少两个通道的频谱值的块的序列的频域表示,其中取样值的块具有相关联的输入取样率,且频谱值的块的序列的频谱值的块具有高达与所述输入取样率相关的最大输入频率(1211)的频谱值;多通道处理器(1010),用于将联合多通道处理应用于频谱值的块的序列或频谱值的块的重新取样序列,以获得包含与所述至少两个通道相关的信息的频谱值的块的至少一个结果序列;频谱域重新取样器(1020),用于在频域中对所述结果序列的块重新取样或用于在频域中对所述至少两个通道的频谱值的块的序列重新取样,以获得频谱值的块的重新取样序列,其中频谱值的块的重新取样序列的块具有高达不同于所述最大输入频率(1211)的最大输出频率(1231,1221)的频谱值;频谱时间转换器(1030),用于将频谱值的块的重新取样序列转换成时域表示,或用于将频谱值的块的结果序列转换成包含取样值的块的输出序列的时域表示,所述取样值的块具有不同于所述输入取样率的相关联的输出取样率;以及核心编码器(1040),用于编码取样值的块的输出序列,以获得经编码多通道信号(1510)。...

【技术特征摘要】
【国外来华专利技术】2016.01.22 EP 16152450.9;2016.01.22 EP 16152453.31.一种用于编码包含至少两个通道的多通道信号的装置,包括:时间频谱转换器(1000),用于将所述至少两个通道的样本值的块的序列转换成具有所述至少两个通道的频谱值的块的序列的频域表示,其中取样值的块具有相关联的输入取样率,且频谱值的块的序列的频谱值的块具有高达与所述输入取样率相关的最大输入频率(1211)的频谱值;多通道处理器(1010),用于将联合多通道处理应用于频谱值的块的序列或频谱值的块的重新取样序列,以获得包含与所述至少两个通道相关的信息的频谱值的块的至少一个结果序列;频谱域重新取样器(1020),用于在频域中对所述结果序列的块重新取样或用于在频域中对所述至少两个通道的频谱值的块的序列重新取样,以获得频谱值的块的重新取样序列,其中频谱值的块的重新取样序列的块具有高达不同于所述最大输入频率(1211)的最大输出频率(1231,1221)的频谱值;频谱时间转换器(1030),用于将频谱值的块的重新取样序列转换成时域表示,或用于将频谱值的块的结果序列转换成包含取样值的块的输出序列的时域表示,所述取样值的块具有不同于所述输入取样率的相关联的输出取样率;以及核心编码器(1040),用于编码取样值的块的输出序列,以获得经编码多通道信号(1510)。2.如权利要求1所述的装置,其中所述频谱域重新取样器(1020)被配置用于出于减少取样的目的而截短所述块或出于增加取样的目的而对所述块进行零填补。3.如权利要求1或2所述的装置,其中所述频谱域重新取样器(1020)被配置用于取决于所述最大输入频率及取决于所述最大输出频率而使用缩放因子对块的结果序列的块的频谱值进行缩放(1322)。4.如权利要求3所述的装置,其中所述缩放因子大于增加取样情况下的缩放因子,其中所述输出取样率大于所述输入取样率,或其中所述缩放因子低于减少取样情况下的缩放因子,其中所述输出取样率低于所述输入取样率,或其中所述时间频谱转换器(1000)被配置为不使用关于频谱值的块的频谱值的总数的归一化而执行时间频率变换算法(1311),且其中所述缩放因子等于所述重新取样序列的块的频谱值的数目与所述重新取样之前的频谱值的块的频谱值的数目之间的商,且其中所述频谱时间转换器被配置为基于所述最大输出频率而应用归一化(1331)。5.如前述权利要求中任一项所述的装置,其中所述时间频谱转换器(1000)被配置为执行离散傅立叶变换算法,或其中所述频谱时间转换器(1030)被配置为执行逆离散傅立叶变换算法。6.如权利要求1所述的装置,其中所述多通道处理器(1010)被配置为获得频谱值的块的另外结果序列,以及其中所述频谱时间转换器(1030)被配置用于将频谱值的另外结果序列转换成包含取样值的块的另外输出序列的另外时域表示(1032),所述取样值的块具有等于所述输入取样率的相关联的输出取样率。7.如前述权利要求中任一项所述的装置,其中所述多通道处理器(1010)被配置为提供频谱值的块的再另外结果序列,其中所述频谱域重新取样器(1020)被配置用于在频域中对所述再另外结果序列的块重新取样,以获得频谱值的块的另外重新取样序列,其中所述另外重新取样序列的块具有高达不同于所述最大输出频率或不同于所述最大输入频率的另外最大输出频率的频谱值,以及其中所述频谱时间转换器(1030)被配置用于将频谱值的块的另外重新取样序列转换成包含取样值的块的再另外输出序列的再另外时域表示,所述取样值的块具有不同于所述输出取样率或所述输入取样率的相关联的另外输出取样率。8.如前述权利要求中任一项所述的装置,其中所述多通道处理器(1010)被配置为仅使用降混操作而产生中间信号作为频谱值的块的至少一个结果序列,或产生额外边信号作为频谱值的块的另外结果序列。9.如前述权利要求中任一项所述的装置,其中所述多通道处理器(1010)被配置为产生中间信号以作为所述至少一个结果序列,其中所述频谱域重新取样器(1020)被配置为将所述中间信号重新取样至具有不同于所述最大输入频率的两个不同最大输出频率的两个独立序列,其中所述频谱时间转换器(1030)被配置为将两个重新取样序列转换为具有不同取样率的两个输出序列,以及其中所述核心编码器(1030)包括用于以第一取样率对第一输出序列进行预处理的第一预处理器(1430c),或用于以第二取样率对第二输出序列进行预处理的第二预处理器(1430d),以及其中所述核心编码器被配置为对第一经预处理信号或第二经预处理信号进行核心编码,或其中所述多通道处理器被配置为产生边信号作为所述至少一个结果序列,其中所述频谱域重新取样器(1020)被配置为将所述边信号重新取样至具有不同于所述最大输入频率的两个不同最大输出频率的两个重新取样序列,其中所述频谱时间转换器(1030)被配置为将所述两个重新取样序列转换为具有不同取样率的两个输出序列,以及其中所述核心编码器包括用于对第一输出序列及第二输出序列进行预处理的第一预处理器(1430c)及第二预处理器(1430d);以及其中所述核心编码器(1040)被配置为对第一经预处理序列或第二经预处理序列进行核心编码(1430a,1430b)。10.如前述权利要求中任一项所述的装置,其中所述频谱时间转换器(1030)被配置为不用任何频谱域重新取样而将所述至少一个结果序列转换成时域表示,以及其中所述核心编码器(1040)被配置为对未重新取样输出序列进行核心编码(1430a),以获得经编码多通道信号,或其中所述频谱时间转换器(1030)被配置为在无所述边信号情况下不用任何频谱域重新取样而将所述至少一个结果序列转换成时域表示,以及其中所述核心编码器(1040)被配置为对所述边信号的未重新取样输出序列进行核心编码(1430a),以获得经编码多通道信号,或其中所述装置进一步包括特定频谱域边信号编码器(1430e)。11.如前述权利要求中任一项所述的装置,其中所述输入取样率为包含8kHz、16kHz、32kHz的取样率的群组中的至少一个取样率,或其中所述输出取样率为包含8kHz、12.8kHz、16kHz、25.6kHz以及32kHz的取样率的群组中的至少一个取样率。12.如前述权利要求中任一项所述的装置,其中所述频谱时间转换器被配置为应用分析窗口,其中所述频谱时间转换器(1030)被配置为应用合成窗口,其中所述分析窗口的时间长度等于所述合成窗口的时间长度或为所述合成窗口的时间长度的整数倍数或整数分数,或其中所述分析窗口及所述合成窗口各自在其初始部分或结束部分处具有零填补部分,或其中由所述时间频谱转换器(1000)使用的分析窗口或由所述频谱时间转换器(1030)使用的合成窗口各自具有递增的重叠部分及递减的重叠部分,其中所述核心编码器(1040)包括具有前瞻(1905)的时域编码器或具有核心窗口的重叠部分的频域编码器,且其中所述分析窗口或所述合成窗口的重叠部分小于或等于所述核心编码器的所述前瞻部分(1905)或所述核心窗口的重叠部分,或其中所述分析窗口及所述合成窗口使得针对包含12.8kHz、16kHz、26.6kHz、32kHz、48kHz的取样率的群组的至少两个取样率,窗口大小、重叠区域大小以及零填补大小各自包含整数数目个样本,或其中以分裂基数实施的数字傅里叶变换的最大基数低于或等于7,或其中时间分辨率固定至低于或等于所述核心编码器的帧速率的值。13.如前述权利要求中任一项所述的装置,其中所述核心编码器(1040)被配置为根据第一帧控制而操作以提供帧的序列,其中帧以开始帧边界(1901)及结束帧边界(1902)为界,以及其中所述时间频谱转换器(1000)或所述频谱时间转换器(1030)被配置为根据与所述第一帧控制同步的第二帧控制而操作,其中帧的序列中的每个帧的所述开始帧边界(1901)或所述结束帧边界(1902)与由所述时间频谱转换器(1000)针对取样值的块的序列的每个块使用的或由所述频谱时间转换器(1030)针对取样值的块输出序列的每个块使用的窗口的重叠部分的开始瞬时或结束瞬时呈预定关系。14.如前述权利要求中任一项所述的装置,其中所述核心编码器(1040)被配置为在对从具有相关联的输出取样率的取样值的块的输出序列获得的帧进行核心编码时使用前瞻部分(1905),所述前瞻部分(1905)在时间上位于所述帧之后,其中所述时间频谱转换器(1000)被配置为使用分析窗口(1904),所述分析窗口(1904)具有时间长度低于或等于所述前瞻部分(1905)的时间长度的重叠部分,其中所述分析窗口的重叠部分用于产生经开窗前瞻部分(1905)。15.如权利要求14所述的装置,其中所述频谱时间转换器(1030)被配置为使用纠正函数(1922)来处理对应于所述经开窗前瞻部分的输出前瞻部分,其中所述纠正函数被配置为使得所述分析窗口的所述重叠部分的影响减小或消除。16.如权利要求15所述的装置,其中所述纠正函数与定义所述分析窗口的所述重叠部分的函数相逆。17.如权利要求15或16所述的装置,其中所述重叠部分与正弦函数的平方根成比例,其中所述纠正函数与所述正弦函数的平方根的倒数成比例,以及其中所述频谱时间转换器(1030)被配置为使用与(sin)1.5函数成比例的重叠部分。18.如前述权利要求中任一项所述的装置,其中所述频谱时间转换器(1030)被配置为使用合成窗口产生第一输出块且使用所述合成窗口产生第二输出块,其中所述第二输出块的第二部分为输出前瞻部分(1905),其中所述频谱时间转换器(1030)被配置为使用所述第一输出块与排除所述输出前瞻部分(1905)的所述第二输出块的部分之间的重叠加法操作而产生帧的取样值,其中所述核心编码器(1040)被配置为将前瞻操作应用于所述输出前瞻部分(1905),以便确定用于对所述帧进行核心编码的编码信息,以及其中所述核心编码器(1040)被配置为使用所述前瞻操作的结果对所述帧进行核心编码。19.如权利要求18所述的装置,其中所述频谱时间转换器(1030)被配置为使用所述合成窗口产生在所述第二输出块之后的第三输出块,其中所述频谱时间转换器被配置为使所述第三输出块的第一重叠部分与使用所述合成窗口开窗的所述第二输出块的所述第二部分重叠,以获得在时间上在所述帧之后的另外帧的样本。20.如权利要求18及19所述的装置,其中所述频谱时间转换器(1030)被配置为在产生所述帧的所述第二输出块时不对所述输出前瞻部分开窗,或纠正(1922)所述输出前瞻部分,用于至少部分地撤销由所述时间频谱转换器(1000)使用的分析窗口的影响,以及其中所述频谱时间转换器(1030)被配置为针对所述另外帧执行所述第二输出块与所述第三输出块之间的重叠加法操作(1924)以及用所述合成窗口对所述输出前瞻部分开窗(1920)。21.如权利要求13至20中任一项所述的装置,其中所述频谱时间转换器(1030)被配置为,使用合成窗口产生输出样本的第一块及输出样本的第二块,对所述第一块的第二部分与所述第二块的第一部分进行重叠加法,以产生输出样本的部分,其中所述核心编码器(1040)被配置为将前瞻操作应用于所述输出样本的所述部分以用于对在时间上位于所述输出样本的所述部分之前的所述输出样本进行核心编码,其中所述前瞻部分不包括所述第二块的样本的第二部分。22.如权利要求13所述的装置,其中所述频谱时间转换器(1030)被配置为使用提供高于核心编码器帧的长度的两倍的时间分辨率的合成窗口,其中所述频谱时间转换器(1030)被配置为使用所述合成窗口以用于产生输出样本的块以及执行重叠加法操作,其中所述核心编码器的前瞻部分中的所有样本使用所述重叠加法操作被计算,或其中所述频谱时间转换器(1030)被配置为将前瞻操作应用于所述输出样本以用于对时间上位于所述部分之前的输出样本进行核心编码,其中所述前瞻部分不包括所述第二块的样本的第二部分。23.如前述权利要求中任一项所述的装置,其中所述多通道处理器(1010)被配置为处理块的序列以使用宽带时间对准参数(12)获得时间对准以及使用多个窄带相位对准参数(14)获得窄带相位对准,以及使用对准序列计算中间信号及边信号以作为所述结果序列。24.一种用于...

【专利技术属性】
技术研发人员:吉约姆·福克斯伊曼纽尔·拉维利马库斯·缪特拉斯马库斯·施奈尔斯蒂芬·多拉马丁·迪茨格兰·马尔科维奇埃伦妮·福托波罗斯特凡·拜尔沃尔夫冈·耶格斯
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:德国,DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1