音频源参数化制造技术

技术编号：19879164 阅读：19 留言：0更新日期：2018-12-22 18:17

本发明专利技术描述一种用于从混合音频信号(102)估计音频源(101)的源参数的方法(600)。所述混合音频信号(102)包括多个帧。所述混合音频信号(102)可表示为频域中的混合音频矩阵且所述音频源(101)可表示为所述频域中的源矩阵。所述方法(600)包括基于混合矩阵(225)更新(601)非混合矩阵(221)，所述非混合矩阵(221)经配置以提供从所述混合音频矩阵对所述源矩阵的估计，所述混合矩阵(225)经配置以提供从所述源矩阵对所述混合音频矩阵的估计。此外，所述方法(600)包括基于所述非混合矩阵(221)且基于所述混合音频信号(102)更新(602)所述混合矩阵(225)。另外，所述方法(600)包括迭代(603)所述更新步骤(601、602)直到满足整体收敛准则。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】音频源参数化
本专利技术涉及音频内容处理，且更特定来说，涉及一种用于从混合音频信号估计音频源的源参数的方法及系统。
技术介绍
多声道格式的混合音频信号(例如立体声信号、波束成形、5.1或7.1信号等等)是通过在演播室中混合不同音频源来创建，或在真实环境中从多个音频源记录生成。源参数化是估计这些音频源的源参数以用于进一步音频处理应用的任务。此类源参数包含关于音频源的信息，例如混合参数、位置元数据、频谱功率参数、频谱及时间特征等等。源参数对广泛范围的音频处理应用是有用的。例如，当使用一或多个麦克风记录听觉场景时，可能有益的是为不同的后续音频处理任务分离及标识音频源相关信息。音频处理应用的实例包含空间音频编码、3D(三维)声音分析及合成及/或重新混合/重新创作。与创建原始混合音频信号的环境相比，重新混合/重新创作应用可在扩展的回放环境中显现音频源。出于例如自动语音识别的各种目的，其它应用利用音频源参数来实现音频源特定分析及后处理，例如增强、衰减或调平某些音频源。鉴于前述内容，所属领域中需要一种用于即使关于音频源或关于捕获过程的先验信息不可用(例如记录装置的性质、房间的声学性质等等)仍从混合音频信号估计音频源参数的解决方案。此外，需要一种用于在嘈杂环境中估计源参数的强健无监督解决方案。本专利技术解决提供用于以准确且强健的方式从混合音频信号估计多个音频源的源参数的方法的技术问题。
技术实现思路
根据方面，描述一种用于从I个混合音频信号估计J个音频源的源参数的方法，其中I,J＞1。所述混合音频信号通常包含多个帧。所述I个混合音频信号可表示为频域中的混合音频矩阵且所述音频源...

【技术保护点】
1.一种用于从I个混合音频信号(102)估计J个音频源(101)的源参数的方法(600)，其中I,J＞1，其中所述混合音频信号(102)包括多个帧，其中所述I个混合音频信号(102)可表示为频域中的混合音频矩阵，其中所述J个音频源(101)可表示为所述频域中的源矩阵，其中所述方法(600)包括对于帧n进行以下操作：‑基于混合矩阵(225)更新(601)非混合矩阵(221)，所述非混合矩阵(221)经配置以提供从所述混合音频矩阵对所述源矩阵的估计，所述混合矩阵(225)经配置以提供从所述源矩阵对所述混合音频矩阵的估计；‑基于所述非混合矩阵(221)且基于所述帧n的所述I个混合音频信号(102)更新(602)所述混合矩阵(225)；及‑迭代(603)所述更新步骤(601、602)直到满足整体收敛准则，其中‑所述方法(600)进一步包括确定所述音频源(101)的协方差矩阵(224)；且‑基于所述音频源(101)的所述协方差矩阵(224)更新所述非混合矩阵(221)。

【技术特征摘要】
【国外来华专利技术】2016.05.20 EP 16170720.3;2016.05.17 US 62/337,517;1.一种用于从I个混合音频信号(102)估计J个音频源(101)的源参数的方法(600)，其中I,J＞1，其中所述混合音频信号(102)包括多个帧，其中所述I个混合音频信号(102)可表示为频域中的混合音频矩阵，其中所述J个音频源(101)可表示为所述频域中的源矩阵，其中所述方法(600)包括对于帧n进行以下操作：-基于混合矩阵(225)更新(601)非混合矩阵(221)，所述非混合矩阵(221)经配置以提供从所述混合音频矩阵对所述源矩阵的估计，所述混合矩阵(225)经配置以提供从所述源矩阵对所述混合音频矩阵的估计；-基于所述非混合矩阵(221)且基于所述帧n的所述I个混合音频信号(102)更新(602)所述混合矩阵(225)；及-迭代(603)所述更新步骤(601、602)直到满足整体收敛准则，其中-所述方法(600)进一步包括确定所述音频源(101)的协方差矩阵(224)；且-基于所述音频源(101)的所述协方差矩阵(224)更新所述非混合矩阵(221)。2.根据权利要求1所述的方法(600)，其中-所述方法(600)包括基于所述混合音频矩阵确定所述混合音频信号(102)的协方差矩阵(222)；且-基于所述混合音频信号(102)的所述协方差矩阵(222)更新所述混合矩阵(225)。3.根据权利要求2所述的方法(600)，其中-基于帧n周围的窗口内的所述混合音频信号(102)的帧的协方差矩阵的平均值确定所述帧n及所述频域的频段f的所述混合音频信号(102)的所述协方差矩阵RXX,fn(222)；-基于确定帧k的所述协方差矩阵；且-Xfn是帧n及所述频段f的所述混合音频矩阵。4.根据权利要求2到3中任一权利要求所述的方法(600)，其中确定所述混合音频信号(102)的所述协方差矩阵(222)包括归一化所述帧n及频段f的所述协方差矩阵(222)，使得所述帧n及所述频段f的所述混合音频信号(102)的能量的总和等于预定归一化值。5.根据任一前述权利要求所述的方法(600)，其中基于所述混合音频矩阵且基于所述非混合矩阵(221)确定所述音频源(101)的所述协方差矩阵(224)。6.根据任一前述权利要求所述的方法(600)，其中-基于确定帧n及所述频域的频段f的所述音频源(101)的所述协方差矩阵RSS,fn(224)；-RXX,fn是所述混合音频信号(102)的协方差矩阵(222)；且-Ωfn是所述非混合矩阵(221)。7.根据任一前述权利要求所述的方法(600)，其中-所述方法(600)包括确定所述混合音频信号(102)内的噪声的协方差矩阵(224)；且-基于所述混合音频信号(102)内的噪声的所述协方差矩阵(224)更新所述非混合矩阵(221)。8.根据任一前述权利要求所述的方法(600)，其中-基于所述混合音频信号(102)确定噪声的所述协方差矩阵(224)；及/或-噪声的所述协方差矩阵(224)与所述混合音频信号(102)的协方差矩阵(222)的轨迹成比例；及/或-确定噪声的所述协方差矩阵(224)使得仅噪声的所述协方差矩阵(224)的主对角线包括非零矩阵项；及/或-噪声的所述协方差矩阵(224)的所述矩阵项的大小随着所述方法(600)的迭代次数q增加而减小。9.根据任一前述权利要求所述的方法(600)，其中-更新(601)所述非混合矩阵(221)包括改善取决于所述非混合矩阵(221)的非混合目标函数；及/或-更新(602)所述混合矩阵(225)包括改善取决于所述混合矩阵(225)的混合目标函数。10.根据权利要求9所述的方法(600)，其中-所述非混合目标函数及/或所述混合目标函数包括一或多个约束项；且-约束项取决于所述非混合矩阵(221)或所述混合矩阵(225)的所期望性质。11.根据权利要求10所述的方法(600)，其中所述混合目标函数包括以下各者中的一或多者：-取决于所述混合矩阵(225)的所述矩阵项的非负性的约束项；-取决于所述混合矩阵(225)的非零矩阵项的数目的约束项；-取决于所述混合矩阵(225)的不同列或不同行之间的相关性的约束项；及/或-取决于帧n的所述混合矩阵(225)与前一帧的混合矩阵(225)的偏差的约束项。12.根据权利要求10或11所述的方法(600)，其中所述非混合目标函数包括以下各者中的一或多者：-取决于所述非混合矩阵(221)从所述混合音频信号(102)的协方差矩阵(222)提供所述音频源(101)的协方...

【专利技术属性】
技术研发人员：王珺，
申请(专利权)人：杜比实验室特许公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人