分离音频源制造技术

技术编号:16388856 阅读:46 留言:0更新日期:2017-10-16 09:44
本文公开的示例实施例涉及音频内容中的源分离。公开了一种用于从音频内容分离源的方法,该音频内容是基于多个声道的多声道格式。该方法包括对音频内容针对多个声道的每个声道执行成分分析以生成多个成分,多个成分中的每个成分包括在全频带中的多个时频块,利用多个成分中的至少一个时频块生成至少一个支配源,并且通过基于支配源估计空间参数和频谱参数将源从音频内容分离。还公开了相应的系统和计算机程序产品。

【技术实现步骤摘要】
【国外来华专利技术】分离音频源相关申请的交叉引用本申请要求于2015年2月16日提交的中国专利申请No.201510085195.9和于2015年2月26日提交的美国临时专利申请No.62/121,125的优先权。这两个申请中的每个通过引用被整体结合于此。
本文公开的示例实施例通常涉及音频内容处理,更具体地,涉及用于从多声道格式的音频内容分离源的方法和系统。
技术介绍
传统上,多声道格式(例如5.1、7.1等)的音频内容通过在工作室中混合不同音频信号而创建,或者通过在真实环境中同时记录声信号而生成。混合的音频信号或内容可以包括若干个不同的源。源分离是识别每个源的信息以便于例如通过单声道信号以及包括空间信息、频谱信息等的元数据重建音频内容的任务。当使用一个或多个麦克风录制听觉场景时,有利的是取决于声音源的信息被分离,使得其可以适于被用于各种后续音频处理任务。一些示例可以包括用于各种目的(例如,自动语音识别)的空间音频编码、重混/重构、3D声音分析以及合成、信号增强/噪声抑制。因此,可以通过成功的源分离实现改进的通用性和更好的性能。当没有包含在采集过程中的源的先验信息可用时(例如,录制设备的属性、房间的声学特性等),分离过程可以被称为盲源分离(BSS)。常规地,用于诸如高斯混合模型(GMM)和非负矩阵分解(NMF)之类的源分离的一些统计模型已经被广泛地应用以便于实现源分离。然而,这些算法(例如,GMM或NMF模型)仅收敛到目标函数的驻点。相应地,这些算法对于参数初始化在以下方面敏感:(1)最终结果强烈取决于参数初始化;(2)收敛速度取决于参数初始化而明显变化;以及(3)算法不能识别源信号的实际数量,所以它们通常需要诸如源数量、频谱库(spectralbase)等之类的先验信息。在常规的系统中,原始的源信息被用于指导(oracle)初始化,其对于多数真实世界的应用而言并不实际,因为这种信息通常并不可用。而且,在一些应用中,可能需要训练数据。然而,由于从训练数据中学习的源模型趋于在真实情形中不佳地执行,在实际中出现困难。这是由于模型与在混音中的源的实际属性之间通常存在不匹配的事实。有鉴于此,本领域需要用于从音频内容分离源但不需要获知任何先验信息的方案。
技术实现思路
为了解决前述和其它潜在的问题,本文公开的示例实施例提出了用于从音频内容分离源的方法和系统。在一个方面,本文公开的示例实施例提供了一种用于从音频内容分离源的方法,该音频内容是基于多个声道的多声道格式。该方法包括对音频内容针对多个声道中的每个声道执行成分(component)分析以生成多个成分。多个成分中的每个成分包括在全频带中的多个时频块(tile),利用多个成分中的至少一个时频块生成至少一个支配源,并且通过基于支配源估计空间参数和频谱参数将源从音频内容分离。关于该方面的实施例进一步包括相应的计算机程序产品。在另一个方面,本文公开的示例实施例提供了一种用于从音频内容分离源的系统,该音频内容是基于多个声道的多声道格式。该系统包括成分分析单元,其被配置为对音频内容针对多个声道中的每个声道执行成分分析以生成多个成分。多个成分中的每个成分包括在全频带中的多个时频块,源生成单元,其被配置为利用多个成分中的至少一个时频块生成至少一个支配源,以及源分离单元,其被配置为通过基于支配源估计空间参数和频谱参数将源从音频内容分离。通过下面的描述,将理解的是依据本文公开的示例实施例,可以从音频内容中分离出一个或数个支配源。从音频内容分离的源是有利的,因为这种分离并不需要源或音频内容的先验信息(例如,分离纯粹基于盲源分离)。具有诸如空间信息之类的元数据的重建的源可以在任何回放系统中精确地播放,而不论换能器的数目(例如,立体声系统、5.1、7.1系统等)。此外,具有元数据的重建的源易于在后处理阶段被操纵及改进,并且作为结果,在几乎每个声学系统(甚至是耳机)中音频内容的表现可以被适配为准确的,因而也是身临其境的。本文公开的示例实施例所实现的其它优点将通过以下描述而变得清楚。附图说明通过参照附图的以下详细描述,本文公开的示例实施例的上述和其它目的、特征和优点将变得更容易理解。在附图中,本文公开的示例实施例将以示例以及非限制性的方式进行说明,其中:图1图示了根据示例实施例的用于从音频内容分离源的方法的流程图;图2图示了根据示例实施例的跨成分的时频块的聚类的示例;图3图示了根据另一示例实施例的用于从音频内容分离源的方法的流程图;图4图示了根据示例实施例的用于在空间中表示源的图形用户界面(GUI)的示图;图5图示了根据示例实施例的用于从音频内容分离源的系统;以及图6图示了适于实施本文公开的示例实施例的示例计算机系统的框图。在全部附图中,相同或相应的附图标记指代相同或相应的部分。具体实施方式现在将参照附图中所示的各种示例实施例对本文公开的示例实施例的原理进行说明。应当理解,这些实施例的描述仅仅是使本领域技术人员能够更好地理解并进一步实施本文公开的示例实施例,而不意在以任何方式对范围进行限制。本文公开的示例实施例假设作为输入的音频内容是例如5.1、7.1或立体声格式等的多声道格式。换言之,针对音频内容提供至少两个声道。多声道音频内容可以被处理成具有诸如源的空间信息之类的元数据的多个单声道音频内容。与从原始音频内容分离源的需要诸如源的数量、频谱信息等之类的先验信息的常规方式不同,本文公开的示例实施例旨在实现不具有任何先验信息的源分离,例如,盲源分离(BSS)。在空间音频采集的情况下的盲源分离包括以下操作:将多声道混音信号分解成源信号并表示关于源的空间位置和混音参数的信息。为了实现盲源分离,本文公开的示例实施例提出了用于从音频内容分离源的方法和系统。音频内容包括多声道格式的源。实施例将会在以下给出。本文公开的示例实施例包括具有I个声道输入的音频内容,并且音频内容可以被表达为xi(t),i=1,…,I,t=1,…T。音频可以在其短时傅里叶变换(STFT)域被处理,使得Xf,n=[x1,fn,…,xI,fn]T,其中f=1,…,F是频段(frequencybin)指数,并且n=1,…,N是时间帧指数。音频内容的混音模型可以被表示为以下的矩阵形式:Xfn=Cfnsfn+bfn(1)其中sfn=[s1,fn,…,sj,fn,…,sJ,fn]T表示指示J个源的STFT的频谱参数,Cfn=[Cij,fn]ij表示可以是取决于频率的和时变的空间参数,并且bfn=[b1,fn,…,bI,fn]T表示附加的噪声。等式(1)解释了音频内容可以被诸如频谱参数和空间参数之类的参数以及一些噪声描述。首先参照图1,其示出了根据本专利技术的示例实施例的用于从音频内容分离源的方法100的流程图。在本文公开的一个示例实施例中,在步骤S101,对音频内容执行成分分析。应当留意的是,可以存在用于执行步骤S101的若干个成分分析方法,仅通过示例的方式,这种方法可以包括但不限于主成分分析(PCA)、独立成分分析(ICA)、B格式分析等。在本文公开的一个示例实施例中,PCA方法被采用,其在以下被详细说明。主成分分析(PCA)使得原始坐标系能够被旋转,使得新的坐标系的轴线指向数据的差异度(variance)最高的方向。轴线或新变量被称为主成分并且被按差本文档来自技高网
...
分离音频源

【技术保护点】
一种从音频内容分离源的方法,所述音频内容是基于多个声道的多声道格式,所述方法包括:对所述音频内容针对所述多个声道的每个声道执行成分分析以生成多个成分,所述多个成分中的每个成分包括在全频带中的多个时频块;利用所述多个成分中的所述时频块中的至少一个时频块生成至少一个支配源;以及通过基于所述支配源估计空间参数和频谱参数,从所述音频内容分离所述源。

【技术特征摘要】
【国外来华专利技术】2015.02.26 US 62/121,125;2015.02.16 CN 201510085191.一种从音频内容分离源的方法,所述音频内容是基于多个声道的多声道格式,所述方法包括:对所述音频内容针对所述多个声道的每个声道执行成分分析以生成多个成分,所述多个成分中的每个成分包括在全频带中的多个时频块;利用所述多个成分中的所述时频块中的至少一个时频块生成至少一个支配源;以及通过基于所述支配源估计空间参数和频谱参数,从所述音频内容分离所述源。2.根据权利要求1所述的方法,其中生成至少一个支配源包括:将多个方向聚类为至少一个群组,每个群组包括多个时频块,所述多个方向从所述多个成分中生成;以及通过在时间上跟踪所述群组生成所述支配源。3.根据权利要求2所述的方法,其中将所述方向聚类为至少一个群组包括:将所有的所述成分中与初始值的差异在预定义的聚类阈值以内的所述方向聚类为所述群组。4.根据权利要求3所述的方法,其中将所述方向聚类为至少一个群组包括:基于所述多个时频块的直达性和所述多个时频块的能量级中的至少一个以及所述初始值来估计所述群组的质心。5.根据权利要求4所述的方法,其中通过在时间上跟踪所述群组来生成所述支配源包括以下项中的至少一项:将前一时间帧的估计的质心指派作为现在时间帧的所述初始值;以及将之前的时间帧中估计的移动平均质心指派作为现在时间帧的所述初始值。6.根据权利要求1所述的方法,其中通过估计空间参数和频谱参数从所述音频内容分离所述源包括:针对所述支配源估计所述方向的质心;基于所述质心在所述多个成分中的每个成分内估计所述时频块的所述空间参数;以及基于所述质心在所述多个成分中的每个成分内估计所述时频块的所述频谱参数。7.根据权利要求6所述的方法,其中通过估计空间参数和频谱参数从所述音频内容分离所述源进一步包括:基于所述频谱参数计算高斯混合模型参数;以及基于所述高斯混合模型参数、所述空间参数以及所述频谱参数在每个时间帧针对所述源中的每个源估计最可能状态。8.根据权利要求6所述的方法,其中通过估计空间参数和频谱参数从所述音频内容分离所述源进一步包括:执行混音参数和能谱参数的初始化过程;以及通过EM迭代过程更新所述能谱参数和所述混音参数。9.根据权利要求8所述的方法,其中执行所述初始化过程包括以下项中的至少一项:基于所述空间参数初始化混音参数;或基于所述频谱参数计算能谱参数。10.根据权利要求1所述的方法,其中所述方法进一步包括:基于所述支配源的所述频谱参数和所述空间参数重建所述音频内容的源;以及通过图形用户界面表示所重建的源。11.一种从音频内容分离源的系统,所述音频内容是基于多个声道的多声道格式,所述系统包括:成分分析单元,被配置为对所述音频内容针对所述多个声道的每个声道执行成分...

【专利技术属性】
技术研发人员:王珺
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1