用于处理多声道音频信号的装置和方法制造方法及图纸

技术编号:20499932 阅读:40 留言:0更新日期:2019-03-03 03:36
提供了一种用于处理多声道音频信号(100)的装置(1),所述信号包括多个声道信号(x1,x2)。该装置执行对多声道音频信号(100)的时标调制,并包括相位适配器(5)和分离器(6)。相位适配器(5)通过基于声道信号(x1,x2)的组合修改信号(Xs,Xd)的相位来提供经处理的信号(Ys,Yd)。分离器(6)基于经处理的信号(Ys,Yd)提供分离的信号(Y1,Y2)。还提供了相应的方法。

Devices and methods for processing multichannel audio signals

A device (1) is provided for processing a multichannel audio signal (100), which comprises a plurality of channel signals (x1, x2). The device performs time-scaling modulation of a multichannel audio signal (100) and includes a phase adapter (5) and a separator (6). The phase adapter (5) provides the processed signal (Ys, Yd) by modifying the phase of the signal (Xs, Xd) based on the combination of the channel signals (x1, x2). Separator (6) provides separated signals (Y1, Y2) based on processed signals (Ys, Yd). The corresponding methods are also provided.

【技术实现步骤摘要】
【国外来华专利技术】用于处理多声道音频信号的装置和方法
本专利技术涉及一种用于处理多声道音频信号的装置。多声道音频信号包括多个(即,至少两个)声道信号。所述装置执行对多声道音频信号的时标(timescale)调制。本专利技术还涉及对应的方法和计算机程序。
技术介绍
时标修改(TSM)是指用于在不影响音调的情况下减慢或加速音频信号的回放的处理。TSM与采样率转换相结合,还可以在不改变速度的情况下改变音调。TSM的挑战是保持音频信号的所有其他特性(速度或音调除外),特别是音质。处理不应产生可听见的伪音。对于单声道输入信号,主要的重要特性是音色。对于具有多于一个声道的信号,还需要保持空间特性。空间特性包括直接声源的位置和宽度以及环境声音的漫射。它们可以通过声道间电平差(ICLD)、声道间时间差(ICTD)、声道间相位差(ICPD)或声道间相干性(ICC)来量化。存在两种完全不同的时标修改方法。一种应用在时域中,而另一种应用在频域中。时域中的处理使用同步重叠相加(SOLA)方案。将信号切割成重叠的帧,并将这些帧进行移位和组合以拉伸或收缩信号。通常通过使相似性(例如,信号帧与其移位后副本之间的相关性)的度量达最大化来计算移位位置。时域中的这种方法具有低计算复杂度。对于单音(与复音相对)信号(例如,语音或长笛音),它产生良好的结果,因为可以将移位偏移量确定为基频周期的整数倍,以避免输出信号中的不连续性和相消干涉。换句话说,移位后的信号帧以相位相干方式相加。对于包含多个具有不同基频的音调的复音输入,无法确定移位使得对于所有音调(声调)满足波形相似性。对于许多音乐信号,通过在频域中应用处理,在音质方面获得了更好结果。例如,该方法使用如图1所示的方框图中所示的相位声码器方案[1],其将在下面简要说明。使用短时傅立叶变换(STFT)将输入音频信号x(n)变换到频域。等效地,可以使用其他类型的滤波器组或变换,其中可以以足够小的重建误差应用逆处理。在所提到的实施例中,将输入信号x(n)切割成重叠帧,并且根据以下等式(1)针对每个帧计算离散傅立叶变换(DFT),从而根据以下等式(1)产生信号的短时傅立叶变换(STFT)表示,也称为STFT系数(或频谱系数):时间帧索引以m表示,k是离散频率索引,其中0≤k≤N-1,wa是窗口函数。归一化角频率Ωk由Ωk=2πk/N给出。DFT的大小为N,Ra是分析跳(hop)大小。为简洁起见,在可能的情况下在描述中省略时间和频率的索引。输出时域信号y(n)是通过STFT的逆根据合成级中的输出频谱系数Y(m,k)计算的,其以两个步骤来执行:首先,根据下式,针对M个帧中的每一帧,计算逆离散傅里叶变换:其次,根据下式,应用重叠相加过程:其中可选的合成窗口为ws(n),合成跳大小为Rs。通过将合成跳大小Rs和分析跳大小Ra设置为不同的值来实现时标修改:如果Ra<Rs,则信号在时间上拉伸,如果Ra>Rs,则信号在时间上收缩。选择分析窗口wa和合成窗口ws,使得如果Ra=Rs且Y(m,k)=X(m,k),则输入信号和输出信号是相同的。用于实值输入信号(这里考虑的音频信号的情况)的短时傅里叶变换系数X(m,k)是复数值,其可以通过其大小|X|和相位Φx以极坐标表示为:X=|X|exp(jΦx),(4)Φx=argX,(5)其中,j=√-1。如果两个跳的大小Ra和Rs不同,即,如果Ra≠Rs,则需要修改Y(m,k)的相位,使得实现“水平相位相干”。这意味着对于恒定频率的正弦波,连续帧相干地叠加,没有不连续点或相位抵消(相消干涉)。相位声码器方法适用于复音输入,例如音乐录音。其缺点在于:相位的修改会产生称为“瞬态拖尾”的伪音,即,信号的时间包络被修改,使得音符冲击被感知为具有较少的打击并且声音较少敲击感。可以对输出相位应用附加处理以减轻瞬态拖尾,例如,通过应用一种称为“锁相”的方法[2]或通过重置静默时段期间的相位[3]来实现。在合适的修改相位的过程之后,获得输出。输出的频谱系数可以用极坐标写为Y=|Y|exp(jΦy),其中Φy表示修改后的相位。计算相位Φy的处理在下文中称为相位适配(PA)。处理双声道音频输入信号的各种方法是已知的:一种选择是将多声道信号混缩成单声道信号,即,将所有声道的缩放版本进行相加,并处理单声道(单一声道)信号。处理输入信号的单声道混缩具有以下缺点:立体声信息丢失,从而声音质量降低。另一种选择是独立地处理分离的输入声道信号。分开处理每个声道信号的主要缺点是引入了声道之间的任意去相关(decorrelation),这使得立体声图像失真。因为时标修改的相位适配是信号相关处理,所以当相应的声道信号不同时,不保留各个声道的相位之间的关系。空间信息的失真可以被感知为直接声源(例如,歌手或独奏者)的立体声图像的模糊或加宽。
技术实现思路
本专利技术的一个目的在于:针对的空间特性(例如,立体声图像)的质量经处理的信号,改进现有时标修改方法。该目的通过装置以及方法来实现。该目的通过一种用于处理多声道音频信号的装置来实现。多声道音频信号包括多个(或者至少两个)声道信号。该装置被配置为:执行对多声道音频信号的时标调制,即,多声道音频信号被减速或加速而不影响其音调。该装置包括相位适配器和分离器。相位适配器被配置为:通过基于声道信号的组合来修改信号的相位,从而提供至少一个经处理的信号。分离器被配置为:基于所述至少一个经处理的信号,提供分离的信号。本专利技术对处理信号(尤其是音频或语音信号)进行了改进。特别解决了处理具有两个或更多个声道的立体声输入信号的问题。本专利技术的一个优点是:保留了输入音频信号的空间特性,使得感知的立体声图像不会失真。特别地,声源的位置和扩散性不因为TSM处理而发生改变。因此,本专利技术解决了现有技术中输出信号的空间特性严重失真的问题,该问题在收听移动到立体声图像中心的声源时最为显著。该装置通过执行相位适配来执行对多声道音频信号的时标修改。在现有技术中,修改相位的不同过程(包括锁相和其他手段)是已知的。用于修改相位的一个实施例包括:修改相位,使得在合成跳大小Rs的情况下相邻帧之间的相位传播与输入信号在分析跳大小Ra的情况下的相位传播相同。这确保了水平相位相干性(即,每个频率仓(bin)中的相位的时间演变)得以保持。这是通过在给定当前时间帧和前一时间帧的输入相位以及分析跳大小Ra和STFT(短时傅里叶变换)参数的情况下计算时间帧m处的瞬时频率来实现的。使用瞬时频率和合成跳大小Rs计算期望的相位传播。在另外的实施例中,通过包括“锁相”在内的方法来增强前述方法。锁相旨在改善垂直相位相干性,即,保持每帧中相邻频率仓之间的相位关系。这改善了声音质量,例如这在处理包含瞬变或打击乐音符的音乐信号时是显著的。相位适配器被配置为适配多声道音频信号所包括的声道信号的至少一个组合的相位。为此,要由相位适配器处理的信号通过大小和相位以极坐标来给出。相位适配器之后的分离器基于经处理的信号(即,基于具有修改后的相位的信号)提供分离的信号。分离器反转信号的组合,并提取或产生分离的信号。因此,该装置修改至少一个声道信号组合的相位,并通过将经相位适配的声道信号组合分成分离的信号来提供各个修改后的信号。本专利技术的相位适配最适合作为使用相位声码器(即,在频域中本文档来自技高网
...

【技术保护点】
1.一种用于处理多声道音频信号(100)的装置(1),所述多声道音频信号包括多个声道信号(x1,x2),其中,所述装置(1)被配置为执行对多声道音频信号(100)的时标调制,以及其中,所述装置(1)包括:相位适配器(5),其中所述相位适配器(5)被配置为通过基于声道信号(x1,x2)的组合修改信号(Xs,Xd)的相位来提供至少一个经处理的信号(Ys,Yd),以及分离器(6),其中所述分离器(6)被配置为基于所述至少一个经处理的信号(Ys,Yd)来提供分离的信号(Y1,Y2)。

【技术特征摘要】
【国外来华专利技术】2016.05.20 EP 16170723.7;2016.07.14 EP 16179531.51.一种用于处理多声道音频信号(100)的装置(1),所述多声道音频信号包括多个声道信号(x1,x2),其中,所述装置(1)被配置为执行对多声道音频信号(100)的时标调制,以及其中,所述装置(1)包括:相位适配器(5),其中所述相位适配器(5)被配置为通过基于声道信号(x1,x2)的组合修改信号(Xs,Xd)的相位来提供至少一个经处理的信号(Ys,Yd),以及分离器(6),其中所述分离器(6)被配置为基于所述至少一个经处理的信号(Ys,Yd)来提供分离的信号(Y1,Y2)。2.根据权利要求1所述的装置(1),其中所述相位适配器(5)被配置为:通过基于N个声道信号(x1,x2)的组合修改N个信号(Xs,Xd)的相位来提供N个经处理的信号(Ys,Yd),其中所述分离器(6)被配置为基于所述经处理的信号(Ys,Yd)来提供N个分离的信号(Y1,Y2),以及其中N是多声道音频信号(100)所包括的声道信号(x1、x2)的数量。3.根据权利要求2所述的装置(1),其中所述声道信号(x1,x2)的N个组合是所述声道信号(x1,x2)的线性组合。4.根据权利要求1至3中的任何一个所述的装置(1),其中所述装置(1)包括变换器(3),以及其中所述变换器(3)被配置为通过将信号从时域变换到频域来提供变换信号(X1,X2)。5.根据权利要求4所述的装置(1),其中所述变换器(3)被配置为应用短时傅里叶变换。6.根据权利要求1至5中的任何一个所述的装置(1),其中所述装置(1)包括组合器(4),其中所述组合器(4)被配置为基于声道信号(x1,x2)提供组合信号(Xs,Xd),以及其中所述变换器(3)被配置为通过应用变换来基于组合信号提供变换信号。7.根据权利要求4或5所述的装置(1),其中所述装置(1)包括组合器(4),以及其中所述组合器(4)被配置为基于由变换器(3)提供的变换信号(X1,X2)来提供组合信号(Xs,Xd)。8.根据权利要求7所述的装置(1),其中所述组合器(4)被配置为通过计算两个变换信号(X1,X2)的和来提供和信号(Xs)。9.根据权利要求7或8所述的装置(1),其中所述组合器(4)被配置为通过计算两个变换信号(X1,X2)之间的差来提供差信号(Xd)。10.根据权利要求7所述的装置(1),其中所述组合器(4)被配置为:通过将N乘N维的混合矩阵(g)应用于基于属于多声道音频信号(100)的N个声道信号(x1,x2)的N个变换信号(X1,X2)来提供组合信号(Xs,Xd),以及其中N是多声道音频信号(100)所包括的声道信号(x1、x2)的数量。11.根据权利要求1至10中的任何...

【专利技术属性】
技术研发人员:克里斯丁·乌勒迈克尔·克拉茨保罗·克洛斯蒂莫西·伦纳德安德烈·卢维佐托塞巴斯蒂安·沙勒
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:德国,DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1