音频源参数化制造技术

技术编号:19879164 阅读:19 留言:0更新日期:2018-12-22 18:17
本发明专利技术描述一种用于从混合音频信号(102)估计音频源(101)的源参数的方法(600)。所述混合音频信号(102)包括多个帧。所述混合音频信号(102)可表示为频域中的混合音频矩阵且所述音频源(101)可表示为所述频域中的源矩阵。所述方法(600)包括基于混合矩阵(225)更新(601)非混合矩阵(221),所述非混合矩阵(221)经配置以提供从所述混合音频矩阵对所述源矩阵的估计,所述混合矩阵(225)经配置以提供从所述源矩阵对所述混合音频矩阵的估计。此外,所述方法(600)包括基于所述非混合矩阵(221)且基于所述混合音频信号(102)更新(602)所述混合矩阵(225)。另外,所述方法(600)包括迭代(603)所述更新步骤(601、602)直到满足整体收敛准则。

【技术实现步骤摘要】
【国外来华专利技术】音频源参数化
本专利技术涉及音频内容处理,且更特定来说,涉及一种用于从混合音频信号估计音频源的源参数的方法及系统。
技术介绍
多声道格式的混合音频信号(例如立体声信号、波束成形、5.1或7.1信号等等)是通过在演播室中混合不同音频源来创建,或在真实环境中从多个音频源记录生成。源参数化是估计这些音频源的源参数以用于进一步音频处理应用的任务。此类源参数包含关于音频源的信息,例如混合参数、位置元数据、频谱功率参数、频谱及时间特征等等。源参数对广泛范围的音频处理应用是有用的。例如,当使用一或多个麦克风记录听觉场景时,可能有益的是为不同的后续音频处理任务分离及标识音频源相关信息。音频处理应用的实例包含空间音频编码、3D(三维)声音分析及合成及/或重新混合/重新创作。与创建原始混合音频信号的环境相比,重新混合/重新创作应用可在扩展的回放环境中显现音频源。出于例如自动语音识别的各种目的,其它应用利用音频源参数来实现音频源特定分析及后处理,例如增强、衰减或调平某些音频源。鉴于前述内容,所属领域中需要一种用于即使关于音频源或关于捕获过程的先验信息不可用(例如记录装置的性质、房间的声学性质等等)仍从混合音频信号估计音频源参数的解决方案。此外,需要一种用于在嘈杂环境中估计源参数的强健无监督解决方案。本专利技术解决提供用于以准确且强健的方式从混合音频信号估计多个音频源的源参数的方法的技术问题。
技术实现思路
根据方面,描述一种用于从I个混合音频信号估计J个音频源的源参数的方法,其中I,J>1。所述混合音频信号通常包含多个帧。所述I个混合音频信号可表示为频域中的混合音频矩阵且所述音频源可表示为所述频域中的源矩阵。特定来说,可使用时域到频域变换(例如短期傅里叶变换)将所述混合音频信号从所述时域变换到所述频域。所述方法包含对于帧n更新非混合矩阵,所述非混合矩阵适应于提供从所述混合音频矩阵对所述源矩阵的估计。基于混合矩阵更新所述非混合矩阵,所述混合矩阵适应于提供从所述源矩阵对所述混合音频矩阵的估计。作为所述更新步骤的结果,获得(经更新)非混合矩阵。特定来说,可使用Sfn=ΩfnXfn确定所述帧n及所述频域的频段f的所述源矩阵的估计。此外,可基于Xfn=AfnSfn确定所述帧n及所述频段f的所述混合音频矩阵的估计。在上述公式中,Sfn是所述源矩阵(的估计),Ωfn是所述非混合矩阵,Afn是所述混合矩阵,且Xfn是所述混合音频矩阵。此外,所述方法包含基于所述(经更新)非混合矩阵且基于所述帧n的所述I个混合音频信号更新所述混合矩阵。另外,所述方法包含迭代所述更新步骤直到满足整体收敛准则。换句话说,可使用所述先前更新的混合矩阵更新所述非混合矩阵,且可使用所述先前更新的非混合矩阵更新所述混合矩阵。可针对多次迭代执行这些更新步骤直到满足所述整体收敛准则。所述整体收敛准则可取决于两次连续迭代之间的所述混合矩阵的变化程度。特定来说,一旦两次连续迭代之间的所述混合矩阵的所述变化程度等于或小于预定阈值,就可终止所述迭代更新程序。此外,所述方法可包含确定所述音频源的协方差矩阵。可基于所述混合音频矩阵确定所述音频源的所述协方差矩阵。例如,可基于所述混合音频矩阵且基于所述非混合矩阵确定所述音频源的所述协方差矩阵。可基于确定帧n及所述频域的所述频段f的所述音频源的所述协方差矩阵RSS,fn。可基于所述音频源的所述协方差矩阵更新所述非混合矩阵,由此实现有效且精确地确定所述非混合矩阵。通过基于所述非混合矩阵重复地更新所述混合矩阵且接着使用所述经更新混合矩阵来更新所述非混合矩阵,可确定精确混合矩阵及/或精确非混合矩阵,由此实现确定所述音频源的精确源参数。为了这个目的,所述方法可包含:在满足所述收敛准则之后,对所述混合矩阵执行后处理以确定关于所述音频源的一或多个(额外)源参数(例如关于所述音频源的不同位置的位置信息)。可通过基于对于所述帧n之前的帧确定的非混合矩阵初始化所述非混合矩阵来初始化所述迭代程序。此外,可基于所述(经初始化)非混合矩阵且基于所述帧n的所述I个混合音频信号初始化所述混合矩阵。通过利用先前帧的估计结果来初始化当前帧的估计方法,可改善所述迭代程序的收敛速度及所述估计结果的精度。所述方法可包含基于所述混合音频矩阵确定所述混合音频信号的协方差矩阵。特定来说,可基于帧n周围的窗口内的多个帧的协方差矩阵的平均值确定所述帧n及所述频域的所述频段f的所述混合音频信号的所述协方差矩阵RXX,fn。举例来说,可基于确定帧k的所述协方差矩阵。可基于确定所述混合音频信号的所述协方差矩阵,其中T是用于确定所述协方差矩阵RXX,fn的帧的数目。接着可基于所述混合音频信号的所述协方差矩阵更新所述混合矩阵,由此实现有效且精确地确定所述混合矩阵。此外,确定所述混合音频信号的所述协方差矩阵可包括归一化所述帧n及所述频段f的所述协方差矩阵,使得所述帧n及所述频段f的所述混合音频信号的能量的总和等于预定归一化值(例如等于1)。通过这样做,可改善所述方法的收敛性质。所述方法可包含确定所述混合音频信号内的噪声的协方差矩阵。可基于所述混合音频信号确定噪声的所述协方差矩阵。此外,噪声的所述协方差矩阵可与所述混合音频信号的所述协方差矩阵成比例。另外,可确定噪声的所述协方差矩阵,使得仅噪声的所述协方差矩阵的主对角线包含非零矩阵项(以考虑所述噪声不相关的事实)。替代地或另外,噪声的所述协方差矩阵的所述矩阵项的大小可随着所述迭代程序的迭代次数q增加而减小(由此支持所述迭代程序朝向最优估计结果的收敛)。可基于所述混合音频信号内的噪声的所述协方差矩阵更新所述非混合矩阵,由此实现有效且精确地确定所述非混合矩阵。更新所述非混合矩阵的步骤可包含改善(例如,最小化或优化)非混合目标函数的步骤,所述非混合目标函数取决于所述非混合矩阵或是所述非混合矩阵的函数。以类似方式,更新所述混合矩阵的步骤可包含改善(例如,最小化或优化)混合目标函数的步骤,所述混合目标函数取决于所述混合矩阵或是所述混合矩阵的函数。通过考虑此类目标函数,可以精确方式确定所述混合矩阵及/或所述非混合矩阵。所述非混合目标函数及/或所述混合目标函数可包含一或多个约束项,其中约束项通常取决于或指示所述非混合矩阵或所述混合矩阵的所期望性质。特定来说,约束项可反映所述混合矩阵或所述非混合矩阵的性质,这是所述音频源的已知性质的结果。所述一或多个约束项可分别使用一或多个约束权重包含到所述非混合目标函数及/或所述混合目标函数中,以增加或减少所述一或多个约束项对所述非混合目标函数及/或所述混合目标函数的影响。通过考虑一或多个约束项,可进一步增加所述所估计混合矩阵及/或非混合矩阵的质量。所述混合目标函数(用于更新所述混合矩阵)可包含以下各者中的一或多者:取决于所述混合矩阵的所述矩阵项的非负性的约束项;取决于所述混合矩阵的非零矩阵项的数目的约束项;取决于所述混合矩阵的不同列或不同行之间的相关性的约束项;及/或取决于帧n的所述混合矩阵与(直接)前一帧的混合矩阵的偏差的约束项。替代地或另外,所述非混合目标函数(用于更新所述非混合矩阵)可包含以下各者中的一或多者:取决于所述非混合矩阵从所述混合音频信号的协方差矩阵提供所述音频源的协方差矩阵使得所述音频源的所述协方差矩阵的非零矩本文档来自技高网...

【技术保护点】
1.一种用于从I个混合音频信号(102)估计J个音频源(101)的源参数的方法(600),其中I,J>1,其中所述混合音频信号(102)包括多个帧,其中所述I个混合音频信号(102)可表示为频域中的混合音频矩阵,其中所述J个音频源(101)可表示为所述频域中的源矩阵,其中所述方法(600)包括对于帧n进行以下操作:‑基于混合矩阵(225)更新(601)非混合矩阵(221),所述非混合矩阵(221)经配置以提供从所述混合音频矩阵对所述源矩阵的估计,所述混合矩阵(225)经配置以提供从所述源矩阵对所述混合音频矩阵的估计;‑基于所述非混合矩阵(221)且基于所述帧n的所述I个混合音频信号(102)更新(602)所述混合矩阵(225);及‑迭代(603)所述更新步骤(601、602)直到满足整体收敛准则,其中‑所述方法(600)进一步包括确定所述音频源(101)的协方差矩阵(224);且‑基于所述音频源(101)的所述协方差矩阵(224)更新所述非混合矩阵(221)。

【技术特征摘要】
【国外来华专利技术】2016.05.20 EP 16170720.3;2016.05.17 US 62/337,517;1.一种用于从I个混合音频信号(102)估计J个音频源(101)的源参数的方法(600),其中I,J>1,其中所述混合音频信号(102)包括多个帧,其中所述I个混合音频信号(102)可表示为频域中的混合音频矩阵,其中所述J个音频源(101)可表示为所述频域中的源矩阵,其中所述方法(600)包括对于帧n进行以下操作:-基于混合矩阵(225)更新(601)非混合矩阵(221),所述非混合矩阵(221)经配置以提供从所述混合音频矩阵对所述源矩阵的估计,所述混合矩阵(225)经配置以提供从所述源矩阵对所述混合音频矩阵的估计;-基于所述非混合矩阵(221)且基于所述帧n的所述I个混合音频信号(102)更新(602)所述混合矩阵(225);及-迭代(603)所述更新步骤(601、602)直到满足整体收敛准则,其中-所述方法(600)进一步包括确定所述音频源(101)的协方差矩阵(224);且-基于所述音频源(101)的所述协方差矩阵(224)更新所述非混合矩阵(221)。2.根据权利要求1所述的方法(600),其中-所述方法(600)包括基于所述混合音频矩阵确定所述混合音频信号(102)的协方差矩阵(222);且-基于所述混合音频信号(102)的所述协方差矩阵(222)更新所述混合矩阵(225)。3.根据权利要求2所述的方法(600),其中-基于帧n周围的窗口内的所述混合音频信号(102)的帧的协方差矩阵的平均值确定所述帧n及所述频域的频段f的所述混合音频信号(102)的所述协方差矩阵RXX,fn(222);-基于确定帧k的所述协方差矩阵;且-Xfn是帧n及所述频段f的所述混合音频矩阵。4.根据权利要求2到3中任一权利要求所述的方法(600),其中确定所述混合音频信号(102)的所述协方差矩阵(222)包括归一化所述帧n及频段f的所述协方差矩阵(222),使得所述帧n及所述频段f的所述混合音频信号(102)的能量的总和等于预定归一化值。5.根据任一前述权利要求所述的方法(600),其中基于所述混合音频矩阵且基于所述非混合矩阵(221)确定所述音频源(101)的所述协方差矩阵(224)。6.根据任一前述权利要求所述的方法(600),其中-基于确定帧n及所述频域的频段f的所述音频源(101)的所述协方差矩阵RSS,fn(224);-RXX,fn是所述混合音频信号(102)的协方差矩阵(222);且-Ωfn是所述非混合矩阵(221)。7.根据任一前述权利要求所述的方法(600),其中-所述方法(600)包括确定所述混合音频信号(102)内的噪声的协方差矩阵(224);且-基于所述混合音频信号(102)内的噪声的所述协方差矩阵(224)更新所述非混合矩阵(221)。8.根据任一前述权利要求所述的方法(600),其中-基于所述混合音频信号(102)确定噪声的所述协方差矩阵(224);及/或-噪声的所述协方差矩阵(224)与所述混合音频信号(102)的协方差矩阵(222)的轨迹成比例;及/或-确定噪声的所述协方差矩阵(224)使得仅噪声的所述协方差矩阵(224)的主对角线包括非零矩阵项;及/或-噪声的所述协方差矩阵(224)的所述矩阵项的大小随着所述方法(600)的迭代次数q增加而减小。9.根据任一前述权利要求所述的方法(600),其中-更新(601)所述非混合矩阵(221)包括改善取决于所述非混合矩阵(221)的非混合目标函数;及/或-更新(602)所述混合矩阵(225)包括改善取决于所述混合矩阵(225)的混合目标函数。10.根据权利要求9所述的方法(600),其中-所述非混合目标函数及/或所述混合目标函数包括一或多个约束项;且-约束项取决于所述非混合矩阵(221)或所述混合矩阵(225)的所期望性质。11.根据权利要求10所述的方法(600),其中所述混合目标函数包括以下各者中的一或多者:-取决于所述混合矩阵(225)的所述矩阵项的非负性的约束项;-取决于所述混合矩阵(225)的非零矩阵项的数目的约束项;-取决于所述混合矩阵(225)的不同列或不同行之间的相关性的约束项;及/或-取决于帧n的所述混合矩阵(225)与前一帧的混合矩阵(225)的偏差的约束项。12.根据权利要求10或11所述的方法(600),其中所述非混合目标函数包括以下各者中的一或多者:-取决于所述非混合矩阵(221)从所述混合音频信号(102)的协方差矩阵(222)提供所述音频源(101)的协方...

【专利技术属性】
技术研发人员:王珺
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1