混响环境的源分离制造技术

技术编号:20887701 阅读:31 留言:0更新日期:2019-04-17 13:47
本发明专利技术揭示混响环境的源分离的实施例。根据方法,分别通过至少两个麦克风针对其间仅至少一个源中的个别者产生声音的时段捕获针对每一所述个别者的第一麦克风信号。通过处理器基于所述第一麦克风信号学习用于对所述至少一个源与所述至少两个麦克风之间的声路建模的混合参数。分别通过所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获第二麦克风信号。通过所述处理器基于所述混合参数及第二麦克风信号估计所述重建模型。所述处理器通过应用所述重建模型而执行所述源分离。

【技术实现步骤摘要】
【国外来华专利技术】混响环境的源分离
本文中揭示的实例实施例涉及音频信号处理。更具体来说,实例实施例涉及从在混响环境中捕获的音频混合物的源分离。
技术介绍
以多声道格式(例如,立体声、波束形成、5.1、7.1及类似者)呈现的混合音频信号是通过在演播室中混合不同音频源来创建,或从真实环境中的各种音频源的多个录音产生。源分离可用于广泛范围的音频处理应用。例如,当使用一或多个麦克风录制听觉场景时,优选地分离声源相依信息以用于各种后续音频处理任务。此类应用的实例包含重新混合/重新创作应用、空间音频编码、3D声音分析及合成,以及在扩展回放环境(而非原始的混合音频信号)中呈现源。其它应用需要源参数以实现源特定分析及后处理,例如音调校正、时间扭曲、声音效果、增强、衰减或调平某些源。源分离包括在给定混合信号的情况下恢复源信号或其空间图像。大多数现有方法经由短时傅立叶(Fourier)变换(STFT)将信号变换到时频域,并通过复值混合矩阵或空间协方差矩阵近似表示每一频段中的混合过程。接着通过估计全部频段中的混合矩阵或空间协方差并导出源STFT系数来实现源分离。恢复源信号的实例方法是通过估计混合矩阵且随后导出源STFT系数,如A.奥泽洛夫(A.Ozerov)、C.菲沃特(C.Fevotte)的“用于音频源分离的卷积混合物中的多声道非负矩阵分解(MultichannelNonnegativeMatrixFactorizationinConvolutiveMixturesforAudioSourceSeparation)”,IEEETransASLP,第18卷,第3号,2010年中描述,所述案的内容的全文以引用的方式并入本文中(此后称为“参考案1”)。恢复源的空间图像的另一实例方法是通过估计空间协方差并导出源STFT系数,如越Q.K.棠(NgocQ.K.Duong)、E.文森特(E.Vincent)、R.格力博瓦特(R.Gribonvoal)的“欠定混响音频源分离的空间协方差模型(SpatialCovarianceModelsforUnder-determinedReverberantAudioSourceSeparation)”,关于信号处理在音频及声学中的应用的IEEE研讨会,2009年中描述,所述案的内容的全文以引用的方式并入本文中(此后称为“参考案2”)。
技术实现思路
本文中揭示的实例实施例描述一种产生用于源分离的重建模型的方法。根据所述方法,通过处理器基于第一麦克风信号学习用于对至少一个源与至少两个麦克风之间的声路建模的混合参数。假定针对所述至少一个源中的每一个别者的所述第一麦克风信号分别由所述至少两个麦克风针对其间仅所述个别者产生声音的时段捕获。通过所述处理器基于所述混合参数及第二麦克风信号估计所述重建模型。假定所述第二麦克风信号分别由所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获。本文中揭示的实例实施例还描述一种用于源分离的方法。根据所述方法,分别通过至少两个麦克风针对其间仅至少一个源中的个别者产生声音的时段捕获针对每一所述个别者的第一麦克风信号。通过处理器基于所述第一麦克风信号学习用于对至少一个源与所述至少两个麦克风之间的声路建模的混合参数。分别通过所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获第二麦克风信号。通过所述处理器基于所述混合参数及第二麦克风信号估计所述重建模型。所述处理器通过应用所述重建模型而执行所述源分离。下文参考附图详细描述本文中揭示的实例实施例的进一步特征及优点以及实例实施例的结构及操作。应注意,本文中仅为了说明性目的呈现实例实施例。(若干)相关领域的技术人员基于本文中含有的教示将明白额外实施例。附图说明本文中揭示的实施例在附图的图中通过实例而非通过限制说明且其中相同元件符号是指类似元件且其中:图1是说明根据实例实施例的产生用于源分离的重建模型的实例方法的流程图;图2是示意性地说明在实例实施例中源与麦克风之间的实例关系的图式;图3是说明根据实例实施例的用于源分离的实例方法的流程图;图4是说明根据实例实施例的产生用于源分离的重建模型的实例方法的流程图;图5是说明根据实例实施例的用于源分离的实例方法的流程图。图6是说明在实例实施例中学习混合参数及频谱基的实例过程的流程图,且图7是说明在此实施例中估计重建模型的实例过程的流程图;图8是示意性地说明根据实例实施例的经由判别式非负矩阵分解(DNMF)方法估计频谱基的过程的图式;图9是说明根据实例实施例的学习混合参数及频谱基的实例过程的流程图。图10是说明根据实例实施例的将混合参数、频谱基及激活参数估计为M步骤的模型参数的实例过程的流程图;图11是说明根据实例实施例的学习混合参数及频谱基的实例过程的流程图;图12是说明在实例实施例中学习混合参数及频谱基的实例过程的流程图,且图13是说明在此实施例中估计重建模型的实例过程的流程图;及图14是说明执行重建模型的估计的实例过程的流程图。具体实施方式通过参考图式描述实例实施例。应注意,为了简洁起见,在图式及描述中省略关于所属领域的技术人员已知但与实例实施例无关的那些组件及过程的表示及描述。如所属领域的技术人员将了解,实例实施例的方面可体现为系统、方法或计算机程序产品。因此,实例实施例的方面可采取完整硬件实施例、完整软件实施例(包含固件、常驻软件、微代码等)或组合在本文中可全部统称为“电路”、“模块”或“系统”的软件及硬件方面的实施例的形式。此外,实例实施例的方面可采取有形地体现于其上体现计算机可读程序码的一或多个计算机可读媒体中的计算机程序产品的形式。下文参考方法、设备(以及系统)及计算机程序产品的流程图说明及/或框图描述实例实施例的方面。将理解,流程图说明及/或框图的每一框及流程图说明及/或框图中的框的组合可通过计算机程序指令实施。这些计算机程序指令可提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以产生机器,使得经由计算机或其它可编程数据处理设备执行的指令创建用于实施流程图及/或框图的(若干)框中指示的功能/动作的构件。源分离问题在混响环境中尤其困难。实际上,因为录音室的墙壁上的许多不同位置处的回声,所以混响增加每一源的空间传播。已在其中已知源位置及一些房间特性的特定背景中展示最先进方法的有效性。例如,在参考案2中描述的方法中,在假定源空间协方差矩阵已知的情况下证明混响语音混合物的源分离。然而,这对于大多数真实世界应用通常不实际,这是因为此信息通常不可用或无法获得,此信息包含麦克风的设置及源的位置、房间形状、大小、墙反射因数。鉴于前述内容,提出用于在不知道关于录音装置的性质、房间的声学性质等的任何现有信息的情况下仅通过分析经录制音频信号而在半监督式背景中进行源分离的解决方案。具体来说,解决方案包含用于估计用于源分离的重建模型的训练阶段及测试阶段。训练阶段具有与测试阶段相同的环境设置。每一源发出声音达特定时段(例如,几秒或至多几分钟作为典型排练长度,且内容不需要与其在测试阶段中的相同)。针对每一个别源进行多声道麦克风录制。在训练阶段中,学习参数(例如,混合参数及频谱基),所述参数取决于每一个别源及个别源与麦克风之间的声路(包含混合路径及房间脉冲响应(RIR))。由于这本文档来自技高网
...

【技术保护点】
1.一种产生用于源分离的重建模型的方法,其特征在于包括:通过处理器在假定针对至少一个源中的每一个别者的第一麦克风信号分别由至少两个麦克风针对其间仅所述个别者产生声音的时段捕获的情况下基于所述第一麦克风信号学习(103)用于对所述至少一个源与所述至少两个麦克风之间的声路建模的混合参数;及通过所述处理器在假定第二麦克风信号分别由所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获的情况下基于所述混合参数及所述第二麦克风信号估计(105)所述重建模型。

【技术特征摘要】
【国外来华专利技术】2016.08.31 EP 16186512.6;2016.08.31 US 62/381,645;1.一种产生用于源分离的重建模型的方法,其特征在于包括:通过处理器在假定针对至少一个源中的每一个别者的第一麦克风信号分别由至少两个麦克风针对其间仅所述个别者产生声音的时段捕获的情况下基于所述第一麦克风信号学习(103)用于对所述至少一个源与所述至少两个麦克风之间的声路建模的混合参数;及通过所述处理器在假定第二麦克风信号分别由所述至少两个麦克风针对其间所述至少一个源中的全部产生声音的时段捕获的情况下基于所述混合参数及所述第二麦克风信号估计(105)所述重建模型。2.根据权利要求1所述的方法,其特征在于所述重建模型经调适以重建所述麦克风上的所述至少一个源的空间图像。3.根据权利要求2所述的方法,其特征在于将针对每一源的所述混合参数特性化为所述源的空间协方差。4.根据权利要求3所述的方法,其特征在于其包括:通过所述处理器经由非负矩阵分解方法或判别式非负矩阵分解方法基于所述第一麦克风信号学习(403)所述至少一个源的频谱基,及其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计(405)所述重建模型。5.根据权利要求4所述的方法,其特征在于在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计,及所述重建模型的所述估计包括经由非负矩阵分解方法基于所述频谱基细化(1305)所述功率谱图。6.根据权利要求3所述的方法,其特征在于在每一源的功率谱图收敛的条件下完成所述重建模型的所述估计,及所述重建模型的所述估计包括从所述源的所述混合参数及所述源的空间图像的经估计协方差导出所述功率谱图。7.根据权利要求2所述的方法,其特征在于将针对所述至少一个源中的每一者的所述混合参数特性化为所述麦克风上的所述源的空间图像与所述麦克风中的参考者上的所述源的所述空间图像之间的比率。8.根据权利要求7所述的方法,其特征在于其进一步包括通过所述处理器经由非负矩阵分解方法通过将每一源的所述第一麦克风信号的功率谱图视为所述源的功率谱图而学习所述至少一个源的频谱基,及其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计所述重建模型。9.根据任何前述权利要求所述的方法,其特征在于所述重建模型经调适以重建所述至少一个源中的每一者的源信号。10.根据权利要求9所述的方法,其特征在于其进一步包括:通过所述处理器经由非负矩阵分解方法或判别式非负矩阵分解方法基于所述第一麦克风信号确定所述至少一个源中的每一者的频谱基,及其中所述重建模型的所述估计包括基于所述混合参数、所述频谱基及所述第二麦克风信号估计所述重建模型。11.根据权利要求10所述的方法,其特征在于在所述至少一个源中的每一者的功率谱图收敛的条件下完成所述重建模型的所述估计,及所述重建模型的所述估计包括从所述至少一个源的经估计协方差导出所述功率谱图。12.根据权利要求10或权利要求11所述的方法,其特征在于针对所述至少一个源中的每一者,所述频谱基的所述确定包括:基于多个预定频谱基中的每一者及所述源的所述第一麦克风信号,估计所述源,其中所述预定频谱基是来自已知源的集合的经预学习频谱基;及选择与所述源最近似的所述经估计源中的一者;及将用于估计所述选定经估计源的所述预定频谱基设置为要确定的所述频谱基。13.根据前述权利要求中的任一权利要求所述的方法...

【专利技术属性】
技术研发人员:王珺
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1