音频源分离制造技术

技术编号:19879150 阅读:26 留言:0更新日期:2018-12-22 18:16
本文献描述一种用于从音频信道(302)提取音频源(301)的方法(100)。所述方法(100)包含基于来自源矩阵的混合矩阵并基于所述音频源(301)的幂矩阵更新(102)维纳滤波器矩阵。此外,所述方法(100)包含基于所述经更新维纳滤波器矩阵并基于所述音频信道(302)的自协方差矩阵来更新(103)所述音频信道(302)及所述音频源(301)的互协方差矩阵及所述音频信道(301)的自协方差矩阵。另外,所述方法(100)包含基于所述音频信道(302)及所述音频源(301)的所述经更新互协方差矩阵及/或基于所述音频源(301)的所述经更新自协方差矩阵来更新(104)所述混合矩阵及所述幂矩阵。

【技术实现步骤摘要】
【国外来华专利技术】音频源分离
本文献涉及一或多个音频源与多信道音频信号的分离。
技术介绍
音频信号的混合,特别是例如立体声,5.1或7.1音频信号的多信道音频信号,通常通过在演播室中混合不同的音频源来创建,或通过在真实环境中同时记录声学信号来产生。多信道音频信号的不同音频信道可被描述为多个音频源的不同总和。源分离的任务是识别导致不同音频信道的混合参数,并且可能反转混合参数以获得基础音频源的估计。当没有关于多信道音频信号中涉及的音频源的先验信息可用时,源分离的过程可被称为盲源分离(BSS)。在空间音频捕获的情况下,BSS包含以下步骤:将多信道音频信号分解成不同的源信号,并提供关于音频源的起始位置与一或多个接收麦克风之间的混合参数、空间位置及/或声学信道响应的信息。盲源分离及/或知情源分离的问题在各种不同的应用领域中是相关的,例如具有多个麦克风的语音增强,多信道通信中的串扰消除,多径信道识别及均衡,传感器阵列中的到达方向(DOA)估计,对用于音频及被动声纳的波束形成麦克风的改进,电影音频向上混合及重新创作,音乐重新创作,转录及/或基于对象的编码。实时在线处理针对许多上述应用通常是重要的,例如用于通信及用于重新创作的应用等。因此,所属领域需要一种用于实时分离音频源的解决方案,这提出关于针对源分离系统的低系统延迟及低分析延迟的要求。低系统延迟要求系统支持循序实时处理(剪辑入/剪辑出),而不需要大量的先行数据。低分析延迟要求算法的复杂性足够低以允许在给定实际计算资源的情况下进行实时处理。本文献解决提供针对源分离的实时方法的技术问题。应注意,本文献中描述的方法适用于盲源分离,以及半监督或监督源分离,其中关于源及/或关于噪声的信息是可用的。
技术实现思路
根据方面,描述一种用于从I个音频信道提取J个音频源的方法,其中I,J>1。音频信道可例如由麦克风捕获,或可对应于多信道音频信号的信道。音频信道包含多个剪辑,每一剪辑包含N个帧,其中N>1。换句话说,音频信道可被细分为剪辑,其中每一剪辑包含多个帧。音频信道的帧通常对应于音频信号的摘录(例如,对应于20ms的摘录),并且通常包含样本序列。I个音频信道可表示为频域中的信道矩阵,并且J个音频源可表示为频域中的源矩阵。特定来说,可使用时域到频域变换(例如短期傅立叶变换)将音频信道从时域变换为频域。所述方法包含(针对当前剪辑的帧n,针对至少一个频率仓f,并且针对当前迭代)基于混合矩阵并且基于J个音频源的幂矩阵更新维纳滤波器矩阵,所述混合矩阵适于提供来自源矩阵的信道矩阵的估计,所述J个音频源的幂矩阵指示J个音频源的频谱幂。特定来说,所述方法可针对确定针对当前剪辑的所有帧n以及针对所有频率仓f或针对频域的所有频带的维纳滤波器矩阵。针对每一帧n及针对每一频率仓f或频带意味着针对每一时间-频率块,可使用具有多个迭代的迭代过程来确定维纳滤波器矩阵,借此迭代地细化维纳滤波器矩阵的精度。维纳滤波器矩阵适于提供来自信道矩阵的源矩阵的估计。特定来说,可将针对当前剪辑的帧n及针对频率仓f的源矩阵Sfn的估计确定为Sfn=ΩfnXfn,其中Ωfn是针对当前剪辑的帧n及针对频率仓f的维纳滤波器矩阵,且其中Xfn是针对当前剪辑的帧n及针对频率仓f的信道矩阵。因此,在用于确定针对帧n及针对频率仓f的维纳滤波器矩阵的迭代过程之后,可使用维纳滤波器矩阵来估计源矩阵。此外,使用逆变换,源矩阵可从频域变换到时域以提供J个源信号,特别是提供J个源信号的帧。此外,所述方法包含,作为迭代过程的部分,基于经更新维纳滤波器矩阵并基于I个音频信道的自协方差矩阵,更新I个音频信道及J个音频源的互协方差矩阵并更新J个音频源的自协方差矩阵。针对当前剪辑的帧n的I个音频信道的自协方差矩阵可从当前剪辑的帧及从一或多个先前剪辑的帧及从一或多个未来剪辑的帧来确定。为此目的,可提供包含针对音频信道的历史缓冲器及先行缓冲器的缓冲器。可限制未来剪辑的数目(例如,限于一个未来剪辑),借此限制源分离方法的处理延迟。另外,所述方法包含基于I个音频信道及J个音频源的经更新互协方差矩阵及/或基于J个音频源的经更新自协方差矩阵来更新混合矩阵及幂矩阵。可重复或迭代更新步骤以确定维纳滤波器矩阵,直到达到最大迭代次数或直到已经满足关于混合矩阵的收敛准则。作为此迭代过程的结果,可确定精确维纳滤波器矩阵,借此提供不同音频源之间的精确分离。频域可细分为F个频率仓。另一方面,F个频率仓可分组或绑定到个频带,其中可在频带、频率仓上执行处理,或以部分在频带上及部分在频率仓上的混合方式执行处理。通过实例的方式,可针对F个频率仓中的每一者确定维纳滤波器矩阵,借此提供精确源分离。另一方面,可仅针对个频带确定I个音频信道的自协方差矩阵及/或J个音频源的幂矩阵,借此降低源分离方法的计算复杂度。因而,维纳滤波器矩阵的频率分辨率可高于用于提取J个音频源的迭代方法内使用的一或多个其它矩阵的频率分辨率。通过这样做,可提供精确度与计算复杂度之间的改进折衷。在特定实例中,可使用频率仓f的分辨率处的混合矩阵并且仅使用频带的降低的分辨率处的J个音频源的幂矩阵来更新维纳滤波器矩阵用于频率仓f的分辨率。为此目的,可使用下文提及的更新公式此外,可基于经更新维纳滤波器矩阵并基于I个音频信道的自协方差矩阵来更新I个音频信道及J个音频源的互协方差矩阵及J个音频源的自协方差矩阵可仅以频带的降低分辨率执行更新。出于此目的,维纳滤波器矩阵Ωfn的频率分辨率可从频率仓f的相对高频率分辨率减小到频带的降低频率分辨率(例如,通过平均化属于一个频带的频率仓的对应维纳滤波器矩阵系数)。可使用下文提及的公式来执行更新。此外,可基于I个音频信道及J个音频源的经更新互协方差矩阵及/或基于J个音频源的经更新自协方差矩阵来更新混合矩阵Afn及幂矩阵可基于包括噪声幂项的噪声幂矩阵来更新维纳滤波器矩阵,其中噪声幂项可随着迭代次数的增加而减小。换句话说,可在维纳滤波器矩阵内插入人工噪声,并且可在迭代过程期间逐渐减少人工噪声。作为结果,所确定的维纳滤波器矩阵的质量可增加。针对当前剪辑的帧n及位于频带内的频率仓f,可基于或使用以下公式来更新维纳滤波器矩阵其中Ωfn是经更新维纳滤波器矩阵,其中是J个音频源的幂矩阵,其中Afn是混合矩阵,且其中ΣB是噪声幂矩阵(其可包括上文提及的噪声幂项)。上文提及的公式可特别用于情况I<J。替代地,可基于或使用来更新维纳滤波器矩阵,特别是针对I≥J的情况。可通过应用关于J个音频源的正交约束来更新维纳滤波器矩阵。通过实例的方式,可迭代地更新维纳滤波器矩阵以降低J个音频源的自协方差矩阵的非对角项的幂,以便使所估计的音频源相对于彼此更正交。特定来说,可使用梯度迭代地更新维纳滤波器矩阵(特别地,通过迭代地减小梯度)其中是针对频带及针对帧n的维纳滤波器矩阵,其中是I个音频信道的自协方差矩阵,其中[]D是包含在括号内的矩阵的对角矩阵,其中所有非对角条目被设置为零,并且其中∈是小的实数(例如,10-12)。通过考虑并施加音频源彼此去相关的事实,可进一步改进源分离的质量。I个音频信道及J个音频源的互协方差矩阵可基于或使用来更新,其中是针对频带及针对帧n的I个音频信道及J个音频源的经更新互协方差矩阵,其中是(经本文档来自技高网
...

【技术保护点】
1.一种用于从I个音频信道(302)提取J个音频源(301)的方法(100),其中I,J>1,其中所述音频信道(302)包括多个剪辑,每一剪辑包括N个帧,其中N>1,其中所述I个音频信道(302)可表示为频域中的信道矩阵,其中所述J个音频源(301)可表示为所述频域中的源矩阵,其中所述频域被细分为F个频率仓,其中所述F个频率仓被分组为

【技术特征摘要】
【国外来华专利技术】2016.05.20 EP 16170722.9;2016.05.02 US 62/330,658;1.一种用于从I个音频信道(302)提取J个音频源(301)的方法(100),其中I,J>1,其中所述音频信道(302)包括多个剪辑,每一剪辑包括N个帧,其中N>1,其中所述I个音频信道(302)可表示为频域中的信道矩阵,其中所述J个音频源(301)可表示为所述频域中的源矩阵,其中所述频域被细分为F个频率仓,其中所述F个频率仓被分组为个频带,其中针对当前剪辑的帧n,针对至少一个频率仓f,并且针对当前迭代,所述方法(100)包括,-基于以下各者来更新(102)维纳滤波器矩阵-混合矩阵,其经配置以提供来自所述源矩阵的所述信道矩阵的估计,及-所述J个音频源(301)的幂矩阵,其表示所述J个音频源(301)的频谱幂;-其中所述维纳滤波器矩阵经配置以提供来自所述信道矩阵的所述源矩阵的估计;其中针对所述F个频率仓中的每一者确定所述维纳滤波器矩阵;-更新(103)所述I个音频信道(302)及所述J个音频源(301)的互协方差矩阵及所述J个音频源(301)的自协方差矩阵,其基于-所述经更新维纳滤波器矩阵;及-所述I个音频信道(302)的自协方差矩阵;以及-基于以下各者来更新(104)所述混合矩阵及所述幂矩阵-所述I个音频信道(302)及所述J个音频源(301)的所述经更新互协方差矩阵,及/或-所述J个音频源(301)的所述经更新自协方差矩阵;其中仅针对所述个频带确定所述J个音频源(301)的所述幂矩阵。2.根据权利要求1所述的方法(100),其中所述方法(100)包括针对来自一或多个先前剪辑的帧及来自一或多个未来剪辑的帧的当前剪辑的帧n来确定所述I个音频信道(302)的所述自协方差矩阵。3.根据任一前述权利要求所述的方法(100),其中所述方法(100)包括通过将所述I个音频信道(302)从时域变换到所述频域来确定所述信道矩阵,并且任选地其中使用短期傅里叶变换确定所述信道矩阵。4.根据任一前述权利要求所述的方法(100),其中-所述方法(100)包括针对所述当前剪辑的所述帧n及针对至少一个频率仓f来将所述源矩阵的估计确定为Sfn=ΩfnXfn;-Sfn是所述源矩阵的估计;-Ωfn是所述维纳滤波器矩阵;且-Xfn是所述信道矩阵。5.根据任一前述权利要求所述的方法(100),其中所述方法(100)包括执行所述更新步骤(102,103,104)以确定所述维纳滤波器矩阵,直到达到最大迭代次数或直到相对于所述混合矩阵满足收敛准则。6.根据任一前述权利要求所述的方法(100),其中仅针对所述个频带确定所述I个音频信道(302)的所述自协方差矩阵。7.根据任一前述权利要求所述的方法(100),其中-基于包括噪声幂项的噪声幂矩阵来更新所述维纳滤波器矩阵;且-随着迭代次数的增加,所述噪声幂项减少。8.根据任一前述权利要求所述的方法(100),其中-针对所述当前剪辑的所述帧n及位于频带内的所述频率仓f,基于针对I<J的或基于针对I≥J的更新所述维纳滤波器矩阵;-Ωfn是所述经更新维纳滤波器矩阵;-是所述J个音频源(301)的所述幂矩阵;-Afn是所述混合矩阵;及-ΣB是噪声幂矩阵。9.根据任一前述权利要求所...

【专利技术属性】
技术研发人员:王珺芦烈宾清原
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1