分离音频源制造技术

技术编号：16388856 阅读：46 留言：0更新日期：2017-10-16 09:44

本文公开的示例实施例涉及音频内容中的源分离。公开了一种用于从音频内容分离源的方法，该音频内容是基于多个声道的多声道格式。该方法包括对音频内容针对多个声道的每个声道执行成分分析以生成多个成分，多个成分中的每个成分包括在全频带中的多个时频块，利用多个成分中的至少一个时频块生成至少一个支配源，并且通过基于支配源估计空间参数和频谱参数将源从音频内容分离。还公开了相应的系统和计算机程序产品。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】分离音频源相关申请的交叉引用本申请要求于2015年2月16日提交的中国专利申请No.201510085195.9和于2015年2月26日提交的美国临时专利申请No.62/121,125的优先权。这两个申请中的每个通过引用被整体结合于此。
本文公开的示例实施例通常涉及音频内容处理，更具体地，涉及用于从多声道格式的音频内容分离源的方法和系统。
技术介绍
传统上，多声道格式(例如5.1、7.1等)的音频内容通过在工作室中混合不同音频信号而创建，或者通过在真实环境中同时记录声信号而生成。混合的音频信号或内容可以包括若干个不同的源。源分离是识别每个源的信息以便于例如通过单声道信号以及包括空间信息、频谱信息等的元数据重建音频内容的任务。当使用一个或多个麦克风录制听觉场景时，有利的是取决于声音源的信息被分离，使得其可以适于被用于各种后续音频处理任务。一些示例可以包括用于各种目的(例如，自动语音识别)的空间音频编码、重混/重构、3D声音分析以及合成、信号增强/噪声抑制。因此，可以通过成功的源分离实现改进的通用性和更好的性能。当没有包含在采集过程中的源的先验信息可用时(例如，录制设备的属性、房间的声学特性等)，分离过程可以被称为盲源分离(BSS)。常规地，用于诸如高斯混合模型(GMM)和非负矩阵分解(NMF)之类的源分离的一些统计模型已经被广泛地应用以便于实现源分离。然而，这些算法(例如，GMM或NMF模型)仅收敛到目标函数的驻点。相应地，这些算法对于参数初始化在以下方面敏感：(1)最终结果强烈取决于参数初始化；(2)收敛速度取决于参数初始化而明显变化；以及(3)算法不能识...
分离音频源

【技术保护点】
一种从音频内容分离源的方法，所述音频内容是基于多个声道的多声道格式，所述方法包括：对所述音频内容针对所述多个声道的每个声道执行成分分析以生成多个成分，所述多个成分中的每个成分包括在全频带中的多个时频块；利用所述多个成分中的所述时频块中的至少一个时频块生成至少一个支配源；以及通过基于所述支配源估计空间参数和频谱参数，从所述音频内容分离所述源。

【技术特征摘要】
【国外来华专利技术】2015.02.26 US 62/121,125;2015.02.16 CN 201510085191.一种从音频内容分离源的方法，所述音频内容是基于多个声道的多声道格式，所述方法包括：对所述音频内容针对所述多个声道的每个声道执行成分分析以生成多个成分，所述多个成分中的每个成分包括在全频带中的多个时频块；利用所述多个成分中的所述时频块中的至少一个时频块生成至少一个支配源；以及通过基于所述支配源估计空间参数和频谱参数，从所述音频内容分离所述源。2.根据权利要求1所述的方法，其中生成至少一个支配源包括：将多个方向聚类为至少一个群组，每个群组包括多个时频块，所述多个方向从所述多个成分中生成；以及通过在时间上跟踪所述群组生成所述支配源。3.根据权利要求2所述的方法，其中将所述方向聚类为至少一个群组包括：将所有的所述成分中与初始值的差异在预定义的聚类阈值以内的所述方向聚类为所述群组。4.根据权利要求3所述的方法，其中将所述方向聚类为至少一个群组包括：基于所述多个时频块的直达性和所述多个时频块的能量级中的至少一个以及所述初始值来估计所述群组的质心。5.根据权利要求4所述的方法，其中通过在时间上跟踪所述群组来生成所述支配源包括以下项中的至少一项：将前一时间帧的估计的质心指派作为现在时间帧的所述初始值；以及将之前的时间帧中估计的移动平均质心指派作为现在时间帧的所述初始值。6.根据权利要求1所述的方法，其中通过估计空间参数和频谱参数从所述音频内容分离所述源包括：针对所述支配源估计所述方向的质心；基于所述质心在所述多个成分中的每个成分内估计所述时频块的所述空间参数；以及基于所述质心在所述多个成分中的每个成分内估计所述时频块的所述频谱参数。7.根据权利要求6所述的方法，其中通过估计空间参数和频谱参数从所述音频内容分离所述源进一步包括：基于所述频谱参数计算高斯混合模型参数；以及基于所述高斯混合模型参数、所述空间参数以及所述频谱参数在每个时间帧针对所述源中的每个源估计最可能状态。8.根据权利要求6所述的方法，其中通过估计空间参数和频谱参数从所述音频内容分离所述源进一步包括：执行混音参数和能谱参数的初始化过程；以及通过EM迭代过程更新所述能谱参数和所述混音参数。9.根据权利要求8所述的方法，其中执行所述初始化过程包括以下项中的至少一项：基于所述空间参数初始化混音参数；或基于所述频谱参数计算能谱参数。10.根据权利要求1所述的方法，其中所述方法进一步包括：基于所述支配源的所述频谱参数和所述空间参数重建所述音频内容的源；以及通过图形用户界面表示所重建的源。11.一种从音频内容分离源的系统，所述音频内容是基于多个声道的多声道格式，所述系统包括：成分分析单元，被配置为对所述音频内容针对所述多个声道的每个声道执行成分...

【专利技术属性】
技术研发人员：王珺，
申请(专利权)人：杜比实验室特许公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人