当前位置: 首页 > 专利查询>奥兰治专利>正文

处理声音数据以分离多声道信号中的声源制造技术

技术编号:23154571 阅读:82 留言:0更新日期:2020-01-18 15:32
本发明专利技术涉及一种用于处理声音数据以分离在真实介质中感测到的多声道声音信号的N个声源的方法。该方法包括以下步骤:将源分离处理应用(E310)于所感测到的多声道信号,并获得分离矩阵和一组M个声音分量,其中,M≥N;计算(E320)一组所谓的双变量第一描述符,该组所谓的双变量第一描述符表示所获得的该组M个分量的对中的分量之间的统计关系;计算(E320)一组所谓的单变量第二描述符,该组所谓的单变量第二描述符表示所获得的该组M个分量中的分量的编码特性;以及根据该组第一描述符和该组第二描述符、通过对属于两个类别之一中的成员的概率的计算(E330)、根据分量的这两个类别来将该组M个分量中的分量进行分类(E340),第一类别具有对应于这N个直接声源的N个所谓的直接分量,并且第二类别具有M‑N个所谓的混响分量。本发明专利技术还涉及一种实施比如所描述的方法的处理设备。

Processing sound data to separate sound sources in multichannel signals

【技术实现步骤摘要】
【国外来华专利技术】处理声音数据以分离多声道信号中的声源
本专利技术涉及音频信号或声学信号处理领域,并且更具体地涉及对真实的多声道声音内容进行处理以便分离声源。
技术介绍
分离多声道声音信号中的源可以实现许多应用。例如,其可以用于:ο娱乐(卡拉OK:语音抑制),ο音乐(混合多声道内容中的不同源),ο远程通信(语音增强、噪声消除),ο家庭自动化(语音控制),ο多声道音频编码,ο成像中的源定位和制图。在N个源正在发射信号si的空间E中,基于来自分布在该空间E中的传感器的M个观测结果,对这些源进行盲分离在于对这N个源进行计数和提取。在实践中,每个观测结果都是使用传感器获得的,该传感器记录已到达空间中的该传感器所在的点的信号。所记录的信号则由信号si的混合以及这些信号在空间E中的传播产生,并且因此受到特定于所经历的环境的各种扰动(如例如噪声、混响、干扰)的影响。对在自由场条件下传播并被认为是多个点的N个声源si的多声道捕获被形式化为矩阵运算:其中,x是M个所记录声道的向量,s是N个源的向量,并且A是大小为M×N的被称为“混合矩阵”的矩阵,该矩阵包含每个源对每个观测结果的贡献,并且符号*表示线性卷积。取决于传播环境和天线的格式,矩阵A可以采用各种形式。在天线重合的情况下(天线的所有麦克风集中在空间中的同一点上),在消声环境中,A是简单的增益矩阵。在天线非重合的情况下,在消声环境或混响环境中,矩阵A变为滤波矩阵。在这种情况下,这种关系在频域中通常被表示为x(f)=As(f),其中,A被表示为复系数矩阵。如果在消声环境中捕获声音信号,并采用源的数量N小于观测结果的数量M的情境,则可以联合使用独立分量分析(或在下文中称为“ICA”)算法来轻松实现分析场景(即,识别源的数量及其位置)以及将该场景分解为多个对象(即,源)。这些算法使得可以识别维度为N×M的分离矩阵B(A的伪逆矩阵),该矩阵使得可以使用以下方程从观测结果推导出源:s=Bx通常,估计问题的维度、即估计分离矩阵的大小(即,源的数量N)的预备步骤通过计算观测结果的协方差矩阵Co=E{xxT}的秩来执行,在这种消声情况下,该协方差矩阵的秩等于源的数量:N=rank(Co)。关于对源的定位,这可以根据编码矩阵A=B-1并根据所使用的天线的空间性质、特别是传感器之间的距离及其方向性的知识推导出。在最著名的ICA算法中,由J.FCardoso和A.Souloumiac提出了JADE(“Blindbeamformingfornon-gaussiansignals[用于非高斯信号的盲波束成形]”,“IEEProceedingsF-RadarandSignalProcessing[IEE会议录F-雷达和信号处理]”,第140卷,第6期,1993年12月)或Amari等人提出了Infomax(”Anewlearningalgorithmforblindsignalseparation[用于信号盲分离的新学习算法]”,“Advancesinneuralinformationprocessingsystems[神经信息处理系统的进展]”,1996年)。在实践中,在某些条件下,分离步骤s=Bx相当于波束成形:由矩阵B给出的各种信道的组合在于应用如下空间滤波器:其方向性相当于在期望提取的源的方向上施加单位增益,而在干扰源的方向上施加零增益。图1展示了用于提取分别以方位角0°、90°和-120°定位的三个源的波束成形的一个示例。所形成的方向性中的每一个都对应于对源s之一进行的提取。在存在在真实条件下捕获到的源的混合的情况下,室内效应将产生所谓的混响声场,表示为xr,该混响声场将被添加到源的直接场中:x=As+xr总声学场可以建模为感兴趣源的直接场(图2中的1处所示)、第一反射(二次源,图2中的2处所示)和漫射场(图2中的3处所示)的总和。于是,无论混合中有效源的真实数量如何,观测结果的协方差矩阵都会满秩:这意味着不再可能使用Co的秩来估计源的数量。因此,当使用SAS算法分离混响环境中的源时,获得大小为M×M的分离矩阵B,从而使用如下矩阵运算在输出处生成M个源而不是所期望的N个源,最后的M-N个分量实质上包含混响场:这些附加分量带来了许多问题:-对于场景分析:不能先验地知道哪些分量与源相关以及哪些分量是由室内效应引起的。-对于通过波束成形来分离源:每个附加分量都会对所形成的方向性产生约束,并且通常使方向性因子降级,从而导致所提取的信号中的混响水平升高。现有的用于多声道内容的源计数方法通常基于时频域中的简约性假设,即,基于以下事实:对于每个时频仓(bin),单个源或有限数量的源将具有不可忽略的贡献力量。对于其中的大多数,针对每个仓执行对影响力最大的源进行定位的步骤,然后聚合仓(称为“聚类”步骤),以重建每个源的总贡献。例如在由作者A.Jourjine,S.Rickard和O.Yilmaz于2000年在ICASSP’00上发表的文献“Blindseparationofdisjointorthogonalsignals:Demixingnsourcesfrom2mixtures.[不相交正交信号的盲分离:从2个混合中分离n个源]”中描述的DUET(代表“退化分离估计技术”)方法通过假设源具有不同的频率支持,使得可以在消声条件下仅基于两个不一致的观测结果来定位并提取N个源,其中,不同的频率支持即Si(f)Sj(f)=0对于f的所有值,条件是i≠j。在将观测结果分解成频率子带(通常经由短时傅里叶变换来执行)之后,基于理论混合方程针对每个子带估计幅度ai和延迟ti:在每个频带f中,与有效源i相对应的对(ai,ti)被估计如下:假设源的真实位置周围的每个仓的估计位置符合高斯分布,以直方图的形式执行所有对(ai,ti)在空间上的表示,然后根据仓的位置以及相关联源的假设位置,借助于似然最大值在直方图上执行“聚类”。在实践中,时频域中源的简约性假设常常不成立,因此对这些源计数方法构成显著限制,因为每个仓所指向的到达方向是由多个源的贡献的组合产生的,并且不再能正确执行“聚类”。另外,对于分析在真实条件下捕获的内容,混响的存在可能首先使对源的定位降级,其次当第一反射达到足以被感知为二次源的高功率电平时会导致对真实源的数量的过高估计。
技术实现思路
本专利技术的目的是改善这种情况。为此,本专利技术提出了一种用于处理声音数据以分离在真实环境中捕获的多声道声音信号的N个声源的方法。该方法为使得其包括以下步骤:-将源分离处理应用于所捕获的多声道信号,并获得分离矩阵和一组M个声音分量,其中,M≥N;-计算一组所谓的双变量第一描述符,该组双变量第一描述符表示所获得的该组M个分量的对中的分量之间的统计关系;-计算一组所谓的单变量第二描述符,该组所谓的单变量第二描述符表示所获得的该本文档来自技高网
...

【技术保护点】
1.一种用于处理声音数据以分离在真实环境中捕获的多声道声音信号的N个声源的方法,其特征在于,该方法包括以下步骤:/n-将源分离处理应用(E310)于所捕获的多声道信号,并获得分离矩阵和一组M个声音分量,其中,M≥N;/n-计算(E320)一组所谓的双变量第一描述符,该组双变量第一描述符表示所获得的该组M个分量的对中的分量之间的统计关系;/n-计算(E320)一组所谓的单变量第二描述符,该组所谓的单变量第二描述符表示所获得的该组M个分量中的分量的编码特性;/n-根据该组第一描述符和该组第二描述符,使用对属于两个类别之一的概率的计算(E330)来将该组M个分量分类(E340)为这两个类别的分量,第一类别具有被称为直接分量的、对应于这N个直接声源的N个分量,并且第二类别具有被称为混响分量的M-N个分量。/n

【技术特征摘要】
【国外来华专利技术】20170609 FR 17551831.一种用于处理声音数据以分离在真实环境中捕获的多声道声音信号的N个声源的方法,其特征在于,该方法包括以下步骤:
-将源分离处理应用(E310)于所捕获的多声道信号,并获得分离矩阵和一组M个声音分量,其中,M≥N;
-计算(E320)一组所谓的双变量第一描述符,该组双变量第一描述符表示所获得的该组M个分量的对中的分量之间的统计关系;
-计算(E320)一组所谓的单变量第二描述符,该组所谓的单变量第二描述符表示所获得的该组M个分量中的分量的编码特性;
-根据该组第一描述符和该组第二描述符,使用对属于两个类别之一的概率的计算(E330)来将该组M个分量分类(E340)为这两个类别的分量,第一类别具有被称为直接分量的、对应于这N个直接声源的N个分量,并且第二类别具有被称为混响分量的M-N个分量。


2.如权利要求1所述的方法,其中,计算双变量描述符包括计算两个分量之间的相干性得分。


3.如权利要求1和2中任一项所述的方法,其中,计算双变量描述符包括确定一对中的两个分量之间的延迟。


4.如权利要求3所述的方法,其中,两个分量之间的延迟是通过考虑使该对中的这两个分量之间的互相关函数最大化的延迟来确定的。


5.如权利要求3和4中任一项所述的方法,其中,一对中的两个分量之间的延迟的确定与该延迟的符号的可靠性指标相关联,该指标取决于该对中的分量之间的相干性。


6.如权利要求3和5中任一项所述的方法,其中,一对中的两个分量之间的延迟的确定与该延迟的符号的可靠性指标相关联,该指标取决于具有相反符号的延迟的互相关函数的最大值的比率。


7.如权利要求1至6之一所述的方法,其中,对单变量描述符的计算取决于基于源分离步骤所估计的混合矩阵的混合系数与平面波源的编码特征之间的匹配。


8.如权利要求1至7之一所述的方法,其中,该组M个分量中的分量是通过考虑该组M个分量并通过计算这M个分量的分类的最可能组合来分类的。...

【专利技术属性】
技术研发人员:M巴奎A格林
申请(专利权)人:奥兰治
类型:发明
国别省市:法国;FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利