用于重合立体声捕获的声道间时差（ITD）估计器的提高的稳定性制造技术

技术编号：40314993 阅读：8 留言：0更新日期：2024-02-07 20:56

提供了一种在编码器或解码器中识别重合麦克风配置CC并且适配声道间时差ITD搜索的方法和装置(110，120，1000，1006)。该方法包括：对于多声道音频信号的每个帧m：生成多声道音频信号的声道对的互相关性；基于该互相关性，确定第一ITD估计；确定多声道音频信号是否是CC信号；以及响应于确定多声道音频信号是CC信号，将ITD搜索偏置为偏向接近零的ITD以获得最终ITD。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开一般地涉及通信，并且更具体地，涉及支持音频编码和解码的方法以及相关的编码器和解码器。

技术介绍

1、空间或3d音频是表示各种多声道音频信号的通用表述。取决于捕获和呈现方法，音频场景由空间音频格式表示。由捕获方法(麦克风)定义的典型空间音频格式例如被表示为立体声、双耳、立体混响等。空间音频呈现系统(耳机或扬声器)能够使用立体声(左声道和右声道2.0)或更高级的多声道音频信号(2.1、5.1、7.1等)来呈现空间音频场景。

2、用于传输和操纵这种音频信号的最新技术允许最终用户具有空间质量更高的增强音频体验，这通常导致更好的可懂度以及增强现实。空间音频编码技术(例如mpegsurround或mpeg-h 3d audio)生成空间音频信号的紧凑表示，其与数据速率约束应用(例如通过互联网的流式发送)兼容。但是，当数据速率约束较强时，空间音频信号的传输受到限制，并且因此解码后的音频声道的后处理也被用于增强空间音频播放。常用的技术例如能够将解码后的单声道或立体声信号盲目上混成多声道音频(5.1声道或更多声道)。

3、为了有效地呈现空间音频场景，空间音频编码和处理技术利用多声道音频信号的空间特性。特别地，空间音频捕获的声道之间的时差和声级差被用于近似表征我们在空间中对定向声音的感知的耳间线索。因为声道间时差和声级差仅是听觉系统能够检测到的内容的近似(即，耳朵入口的耳间时差和声级差)，所以声道间时差从感知方面相关是非常重要的。声道间时差和声级差(ictd和icld)通常被用于对多声道音频信号的定向分量进行建模，而声

4、注意，与空间听觉感知相关的双耳线索被称为耳间声级差(ild)、耳间时差(itd)以及耳间相干性或相关性(ic或iacc)。当考虑一般多声道信号时，与声道相关的对应线索是声道间声级差(icld)、声道间时差(ictd)以及声道间相干性或相关性(icc)。因为空间音频处理主要在所捕获的音频声道上进行操作，所以有时省略“c”，并且当提及音频声道时还使用术语itd、ild和ic。

5、图1示出了采用参数空间音频分析的常规设置。立体声信号对被输入到立体声编码器110。空间分析器112辅助下混频器114，下混频器114产生两个输入声道的单个声道表示。下混频过程旨在补偿声道在时间、相关性和相位上的差异，从而最大化下混频信号的能量。这实现了对立体声信号的有效编码。下混频后的信号被转发到下混频编码器116。来自空间分析的参数由参数编码器118编码，并且与编码后的下混频一起被发送到解码器。通常，一些立体声参数以感知频率标度(例如等效矩形带宽(erb)标度)上的频谱子带来表示。立体声解码器120基于来自下混频解码器124的信号和来自参数解码器122的参数，在空间合成器126中执行立体声合成。立体声合成操作旨在恢复声道在时间、声级、相关性和相位上的差异，从而产生类似于所输入的音频信号的立体声图像。

6、因为编码后的参数被用于针对人类听觉系统呈现空间音频，所以可以借助感知考虑对声道间参数进行提取和编码以最大化感知质量。

7、立体声和多声道音频信号是可能难以建模的复杂信号，尤其是当环境嘈杂或混响时，或者是当混合声中的各种音频分量在时间和频率上重叠时，即，嘈杂的语音、音乐中的语音或同时说话者等。

8、当涉及估计ictd时，常规参数方法依赖于互相关函数(ccf)rxy，其是两个波形x(n)和y(n)之间的相似性的度量，并且通常在时域中被定义为：

9、rxy(n，τ)＝e[x(n)y(n+τ)]

10、其中τ是时滞参数，e[·]是期望算子。对于长度为n的信号帧，互相关性通常被估计为：

11、

12、通常，icc被获得为ccf的最大值，其根据以下公式通过信号能量被规范化：

13、

14、对应于icc的时滞τ被确定为声道x与y之间的ictd。ccf还可以使用离散傅立叶变换被计算为：

15、rxy(τ)＝dft-1(x(k)y*(k))

16、其中x[k]是时域信号x[n]的离散傅立叶变换(dft)，y*[k]是时域信号y[n]的离散傅立叶变换(dft)的复共轭，即：

17、

18、

19、并且dft-1(·)或idft(·)表示逆离散傅立叶变换。但是应当注意，dft将分析帧复制到周期信号中，从而产生x(n)和y(n)的循环卷积。基于此，分析帧通常被用零填充以匹配真正的互相关性。

20、对于y(n)纯粹是x(n)的延迟版本的情况，互相关函数由以下公式提供

21、

22、其中*表示卷积，δ(τ-τ0)是克罗内克增量(kronecker delta)函数，即，在τ0时等于1，否则等于0。这意味着x与y之间的互相关函数是通过与rxx(τ)卷积而扩展的函数，rxx(τ)是x(n)的自相关函数。对于具有多个延迟分量(例如多个说话者)的信号帧，在信号之间存在的每个延迟处将具有峰值，并且互相关性变为：

23、rxy(τ)＝rxx(τ)*∑iδ(τ-τi)。

24、然后，这些增量函数可能扩展到彼此中，并且使得识别信号帧内的多个延迟变得困难。但是，广义互相关(gcc)函数没有这种扩展。gcc通常被定义为：

25、

26、其中ψ[k]是频率加权。对于空间音频，相位变换(phat)因其在低噪声环境中对混响的稳健性而已得到了应用。相位变换基本上是每个频率系数的绝对值，即：

27、

28、由此，这种加权将使交叉频谱(cross-spectrum)变白，以使得每个分量的功率变得相等。在信号x[n]和y[n]中具有纯延迟和不相关噪声的情况下，相位变换后的gcc(gcc-phat)恰好变成克罗内克增量函数δ(τ-τ0)，即：

29、

30、图2示出了纯延迟情况下具有声道间时差的信号对、它们的互相关性以及具有相位变换分析的广义互相关性。

31、在分析所记录的立体声信号的真实场景中，声道不只是在延迟方面不同，而是例如将具有不同的噪声、麦克风和记录设备的频率响应的变化、以及可能具有不同的混响模式。在这种情况下，通常通过查找gcc-phat的最大值来找到时滞τ。在这种情况下，分析还可能显示帧与帧之间的变化。这是短期傅立叶分析中的典型特性，但也是因为源信号的级别和频谱含量可能变化，例如对于语音记录是这种情况。为此，在时滞的最终分析中应用稳定化是有益的。这可以通过以下方式实现：当信号能量相对于背景噪声低时，减慢或阻止时滞的更新。

32、在美国申请公开号2020/0194013a1中，通过应用gcc-phat的自适应低通滤波器来稳定itd选择。通过对连续帧的互相关性进行自适应滤波，对互相关性应用低通滤波。低通滤波器还本文档来自技高网...

【技术保护点】

1.一种在编码器(110，1000)或解码器(120，1006)中识别重合麦克风配置CC并且适配声道间时差ITD搜索的方法，所述方法包括：

2.根据权利要求1所述的方法，还包括：

3.根据权利要求2所述的方法，其中，当所述多声道音频信号不是CC信号时获得所述最终ITD包括：通过将所述最终ITD设置为所述第一ITD估计，获得所述最终ITD。

4.根据权利要求1-2中任一项所述的方法，还包括：向ITD应用稳定化以获得所述最终ITD。

5.根据权利要求4所述的方法，其中，应用稳定化进一步包括：生成至少一个ITD候选。

6.根据权利要求1-5中任一项所述的方法，其中，将所述ITD搜索偏置为偏向接近零的ITD以获得所述最终ITD包括：通过选择具有最小绝对值的ITD，获得所述最终ITD。

7.根据权利要求6所述的方法，其中，选择具有所述最小绝对值的所述ITD包括：根据以下公式，选择所述ITD作为所述最终ITD：

8.根据权利要求1-7中任一项所述的方法，其中，将所述ITD搜索偏置为偏向接近零的ITD包括：从在

9.根据权利要求1-3中任一项所述的方法，其中，将所述ITD搜索偏置为偏向接近零的ITD以获得所述最终ITD包括：应用互相关性的加权以将更大的权重分配给接近零的所述互相关性的值。

10.根据权利要求1-9中任一项所述的方法，其中，确定所述第一ITD估计包括：将所述第一ITD估计确定为所述互相关性的绝对最大值。

11.根据权利要求10所述的方法，其中，将所述第一ITD估计确定为所述互相关性的所述绝对最大值包括：根据以下公式，确定所述绝对最大值：

12.根据前述权利要求中任一项所述的方法，其中，所述互相关性是具有相位变换的广义互相关性GCC-PHAT。

13.根据权利要求1-12中任一项所述的方法，其中，确定所述多声道音频信号是否是CC信号包括：

14.根据权利要求13所述的方法，其中，检测所述分量中的所述反对称模式包括：根据以下公式，检测所述反对称模式：

15.根据权利要求13所述的方法，其中，检测所述互相关性中的反对称模式和对称模式中的所述一个模式包括：根据以下中的至少一项，检测所述反对称模式：

16.根据权利要求1-12中任一项所述的方法，其中，确定所述多声道音频信号是否是CC信号包括：

17.根据权利要求16所述的方法，其中，确定所述CC检测变量是否高于所述阈值包括：确定所述CC检测变量的绝对值是否高于所述阈值。

18.根据权利要求14-17中任一项所述的方法，还包括：使用低通滤波对所述CC检测变量进行滤波以稳定所述CC检测。

19.根据权利要求18所述的方法，其中，对所述CC检测变量的所述低通滤波是自适应的，至少取决于活动检测器的输出A(m)。

20.根据权利要求19所述的方法，其中，使用低通滤波对所述CC检测变量进行滤波包括：根据以下公式，使用自适应低通滤波进行滤波：

21.一种装置(110，120，1000，1006)，包括：

22.根据权利要求21所述的装置(110，120，1000，1006)，其中，所述存储器包括其他指令，所述其他指令在由所述处理电路执行时使得所述装置：

23.根据权利要求22所述的装置(110，120，1000，1006)，其中，当所述多声道音频信号不是CC信号时获得所述最终ITD包括：通过将所述最终ITD设置为所述第一ITD估计，获得所述最终ITD。

24.根据权利要求21-22中任一项所述的装置(110，120，1000，1006)，其中，所述存储器包括其他指令，所述其他指令在由所述处理电路执行时使得所述装置：向ITD应用稳定化以获得所述最终ITD。

25.根据权利要求24所述的装置(110，120，1000，1006)，其中，应用稳定化进一步包括：生成至少一个ITD候选。

26.根据权利要求21-25中任一项所述的装置(110，120，1000，1006)，其中，将所述ITD搜索偏置为偏向接近零的ITD以获得所述最终ITD包括：通过选择具有最小绝对值的ITD，获得所述最终ITD。

27.根据权利要求26所述的装置(110，120，1000，1006)，其中，选择具有所述最小绝对值的所述ITD包括：根据以下公式，选择所述ITD作为所述最终ITD：

28.根据权利要求21-27中任一项所述的装置(110，120，1000，...

【技术特征摘要】
【国外来华专利技术】

1.一种在编码器(110，1000)或解码器(120，1006)中识别重合麦克风配置cc并且适配声道间时差itd搜索的方法，所述方法包括：

2.根据权利要求1所述的方法，还包括：

3.根据权利要求2所述的方法，其中，当所述多声道音频信号不是cc信号时获得所述最终itd包括：通过将所述最终itd设置为所述第一itd估计，获得所述最终itd。

4.根据权利要求1-2中任一项所述的方法，还包括：向itd应用稳定化以获得所述最终itd。

5.根据权利要求4所述的方法，其中，应用稳定化进一步包括：生成至少一个itd候选。

6.根据权利要求1-5中任一项所述的方法，其中，将所述itd搜索偏置为偏向接近零的itd以获得所述最终itd包括：通过选择具有最小绝对值的itd，获得所述最终itd。

7.根据权利要求6所述的方法，其中，选择具有所述最小绝对值的所述itd包括：根据以下公式，选择所述itd作为所述最终itd：

8.根据权利要求1-7中任一项所述的方法，其中，将所述itd搜索偏置为偏向接近零的itd包括：从在零周围的有限范围内的itd候选中选择所述最终itd。

9.根据权利要求1-3中任一项所述的方法，其中，将所述itd搜索偏置为偏向接近零的itd以获得所述最终itd包括：应用互相关性的加权以将更大的权重分配给接近零的所述互相关性的值。

10.根据权利要求1-9中任一项所述的方法，其中，确定所述第一itd估计包括：将所述第一itd估计确定为所述互相关性的绝对最大值。

11.根据权利要求10所述的方法，其中，将所述第一itd估计确定为所述互相关性的所述绝对最大值包括：根据以下公式，确定所述绝对最大值：

12.根据前述权利要求中任一项所述的方法，其中，所述互相关性是具有相位变换的广义互相关性gcc-phat。

13.根据权利要求1-12中任一项所述的方法，其中，确定所述多声道音频信号是否是cc信号包括：

14.根据权利要求13所述的方法，其中，检测所述分量中的所述反对称模式包括：根据以下公式，检测所述反对称模式：

16.根据权利要求1-12中任一项所述的方法，其中，确定所述多声道音频信号是否是cc信号包括：

17.根据权利要求16所述的方法，其中，确定所述cc检测变量是否高于所述阈值包括：确定所述cc检测变量的绝对值是否高于所述阈值。

18.根据权利要求14-17中任一项所述的方法，还包括：使用低通滤波对所述cc检测变量进行滤波以稳定所述cc检测。

19.根据权利要求18所述的方法，其中，对所述cc检测变量的所述低通滤波是自适应的，至少取决于活动检测器的输出a(m)。

20.根据权利要求19所述的方法，其中，使用低通滤波对所述cc检测变量进行滤波包括：根据以下公式，使用自适应低通滤波进行滤波：

21.一种装置(110，120，1000，1006)，包括：

22.根据权利要求21所述的装置(110，120，1000，1006)，其中，所述存储器包括其他指令，所述其他指令在由所述处理电路执行时使得所述装置：

23.根据权利要求22所述的装置(110，120，1000，1006)，其中，当所述多声道音频信号不是cc信号时获得所述最终itd包括：通过将所述最终itd设置为所述第一itd估计，获得所述最终itd。

24.根据权利要求21-22中任一项所述的装置(110，120，1000，1006)，其中，所述存储器包括其他指令，所述其他指令在由所述处理电路执行时使得所述装置：向itd应用稳定化以获得所述最终itd。

25.根据权利要求24所述的装置(110，120，1000，1006)，其中，应用稳定化进一步包括：生成至少一个itd候选。

26.根据权利要求21-25中任一项所述的装置(110，120，1000，1006)，其中，将所述itd搜索偏置为偏向接近零的itd以获得所述最终itd包括：通过选择具...

【专利技术属性】
技术研发人员：E·诺维尔，T·简森托夫加德，
申请(专利权)人：瑞典爱立信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人