基于神经网络的音频处理中的空间相关特征提取制造技术

技术编号:36032161 阅读:28 留言:0更新日期:2022-12-21 10:34
本申请公开了一种用于检测或估计多个声源中的目标声源的方法、装置和计算机程序,所述目标声源位于多个空间区域中的至少一个目标空间区域,所述方法包括:处理器接收多个信号,所述多个信号中的每一个与多个麦克风信号中的一个相关联,所述麦克风信号包括由所述多个声源产生的声音事件;处理器通过神经网络提取多个特征,所述多个特征是从所述多个信号中提取的,并通过针对所述多个空间区域中的不同空间区域训练所述神经网络,获得所述多个特征中的每一个;所述处理器基于所提取的多个特征生成对应于所述至少一个目标空间区域的另外多个特征;所述处理器基于所述另外多个特征,检测或估计所述目标空间区域中所述目标声源中的至少一个声源。中的至少一个声源。中的至少一个声源。

【技术实现步骤摘要】
基于神经网络的音频处理中的空间相关特征提取
[0001]本申请要求于2021年10月21日提交欧洲专利局、申请号为EP21204004.2的欧洲专利申请的优先权,其全部内容通过引用结合在本申请中。


[0002]本申请涉及一种基于神经网络的音频处理系统,该系统用于通过使用空间相关特征提取技术,估计或检测位于定义的、连续的空间区域内的声源产生的信号,涉及一种通过使用空间相关特征提取技术,估计或检测位于定义的、连续的空间区域内的声源产生的信号的方法,以及涉及一种由处理器执行并且包括实现该方法的指令的程序。

技术介绍

[0003]音频提取的问题通常使用诸如单麦克风稳态噪声抑制或多麦克风设置等技术来解决,以从目标信号中去除不想要的信号。所提取的需要的信号用于语音增强、语音识别、音频转录和许多其他基于音频的应用。
[0004]在短时傅里叶变换(short

time Fourier transform,STFT)域中表现出高度稀疏的信号,例如语音或音乐,可以借助时频(time

frequency,TF)掩码有效地分离,该掩码可以识别其中目标信号占主导地位的STFT点(bins)。为了获得这种掩码,通常采用深度学习方法。TF掩码是用于语音增强和定位的音频处理中的已知工具,其允许监督学习。TF掩码包括关于目标源在短时傅里叶变换(STFT)域中每个时间和频率的活动的信息。通常,TF掩码的每个元素都是介于0和1之间的一个数字。TF掩码也可以是复数。TF掩码可用于恢复目标源的相应的干净源信号,例如,通过掩码和参考麦克风信号的逐元素相乘,然后进行逆变换。正如所解释的,TF掩码识别由感兴趣信号主导的短时傅里叶变换(STFT)点(bins),并且可以通过利用光谱时间相关性和空间信息来获得。使用深度学习方法可以利用这一点。除了估计TF掩码之外,其他已知的方法是估计感兴趣信号的STFT点(bins),估计感兴趣的时域信号或估计应用于多通道麦克风录音的多通道波束成形器权重。
[0005]为了将深度神经网络(deep neural network,DNN)应用于该项任务,选择可以识别目标分量的判别特征是一个关键方面。对于单个麦克风捕获,可以通过利用语音的频谱时间特性中的典型结构来分离例如语音和背景噪声。然而,当目标和干扰属于同一类型(例如,将两个不同的说话者分离)时,这种方法将会失败。当多个麦克风捕获可用时,可以额外利用空间信息来区分具有相似光谱时间属性的源。
[0006]无论使用哪种信息,明确定义目标分类都至关重要,这样DNN才能学会正确抑制不想要的分量,同时保留目标。例如,对于语音与背景噪声的分离,可以基于频谱时间(语音/非语音)和/或空间(局部/扩散)信号特性进行区分。在神经网络的训练过程中,可以将这些判别特性结合起来。
[0007]对于多个局部声源的分离,可以基于源的位置进行区分,这可以例如就对应的到达方向(directions of arrival,DOA)进行描述。然而,由于任一源(例如,同时说话的多个谈话者中的一个)可被认为是目标,因此需要用户输入来解决目标观察方向上的这种模糊
性。通常的方法是训练网络以从各个方向提取信号分量。然后可以通过选择多个输出流(例如,目标跟踪波束中的所有流)中的一个或多个输出流的组合来获得想要的信号。在这种方法中,在没有每个流的相关性的先验知识的情况下,生成所有流的最优结果,然后只使用这些流的小部分重建目标信号,即DNN输出包含了大量冗余。因此,这种方法无法有效地使用可用的计算资源。另一种方法是针对固定的、先验已知的空间角度训练神经网络。然而,这种方法无法在运行时选择角度或空间,因此并不灵活。通常也考虑单个角度。
[0008]“使用全频带和子频带空间特征的神经网络进行基于掩码的源分离”由A
·
博伦德(A.Bohlender)、A
·
斯普里耶(A.Spriet)、W
·
提利(W.Tirry)和N
·
马杜(N.Madhu)在《欧洲信号处理国际会议(EUSIPCO)》,2021年中发表,其公开了使用深度神经网络架构(由卷积层(convolutional,CNN)和循环层组成)估计TF掩码,如图1所示。图1所示的CNN的输入由N个麦克风信号的相位谱图组成。由于同时估计了所有到达方向(DOA)的掩码,因此对于总共有I个DOA的离散网格来说,每个TF点(bin)的输出大小等于I。因此,每个返回的I个TF掩码对应一个特定的方向。为了提取单个目标,只需要与目标源DOA对应的掩码即可,可以丢弃所有其他估计的掩码。因此,该方法的计算能力没能得到有效利用,因为计算了不会使用的TF掩码。此外,性能可能不太理想,因为所有角度都需要同时到达最低性能。
[0009]“基于时频掩蔽的卷积递归神经网络在线多通道语音增强”由S
·
查克拉巴蒂(S.Chakrabarty)和E.A.P
·
哈贝茨(E.A.P.Habets)在《IEEE信号处理专题》第13卷,第4期,第787

799页,2019年8月,DOI:10.1109/JSTSP中发表,其公开了一种与图1所示类似的用于掩码估计的CNN架构。但是,仅单个TF掩码返回,因为此方法仅考虑将单个局部语音源与分散且不相关的背景噪声分离。在这种情况下,仅区分局部和非局部信号分量就足够了,目标源的特定位置不起作用。然而,这种方法不适合分离多个局部源。
[0010]“多通道语音增强的基于特征向量的语音掩码估计”由L
·
比芬博格(L.Pfeifenberger)、M
·
泽勒(M.)和F
·
彭科夫(F.Pernkopf)在《IEEE/ACM音频、声学、语言信号处理》,第27卷,第12期,第2162

2172页,2019年12月,DOI:10.1109/TASLP.2019.2941592中发表,其公开了使用神经网络架构进行TF掩码估计,其中神经网络的输出包括总共三个掩码,分别对应于目标源、干扰源和背景噪声。通过对明确定义的场景训练网络,可以解决关于哪个源被视为目标的模糊性。图2示出了一种可能的训练场景的示例,其中一个源的位置被限制在特定区域D1,而另一个源的位置被限制在不同的区域D2。但是,这种方法并不通用,因为目标DOA范围必须事先指定,并且在训练神经网络后无法由用户控制,因为它对源的位置和移动做出假设,以明确定义哪个源是目标,哪个是干扰源。
[0011]“利用从空间特征预测的时频掩模进行远距离语音分离”是由P
·
佩尔蒂莱(P.)和J
·
尼库宁(J.Nikunen)在《语音通信68(2015)》,第97

106页中发表,其公开了一种方法,其中特别考虑了基于其DOA分离多个源的问题。采用一个简单的前馈神经网络。输入特征基于麦克风信号的相位谱图以及DOA。为了获得适合与麦克风本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于检测或估计多个声源中的目标声源的方法,其中所述目标声源位于多个空间区域中的至少一个目标空间区域,所述方法包括:处理器接收多个信号,其中所述多个信号中的每一个与多个麦克风信号中的一个相关联,其中所述麦克风信号包括由所述多个声源产生的声音事件;所述处理器通过神经网络提取多个特征,其中所述多个特征是从所述多个信号中提取的,并且其中通过针对所述多个空间区域中的不同空间区域训练所述神经网络,获得所述多个特征中的每一个;所述处理器基于所提取的多个特征生成另外多个特征,其中所述另外多个特征对应于所述至少一个目标空间区域;所述处理器基于与所述至少一个目标空间区域对应的所述另外多个特征,检测或估计所述目标空间区域中所述目标声源中的至少一个声源。2.根据权利要求1所述的方法,其中,所述多个信号中的每一个与麦克风时域信号的时频表示的多个相位相关联。3.根据权利要求1或2所述的方法,其中,所述多个信号中的每一个包括麦克风时域信号的时频表示的多个归一化振幅中的至少一个,其中所述归一化基于麦克风时域信号的多个时频表示中的至少一个的范数。4.根据权利要求1所述的方法,其中,所述多个信号中的每一个与麦克风时域信号的多个复时频表示相关联。5.根据权利要求1或2所述的方法,其中,所述多个特征是通过多个卷积神经网络层中的至少一个从所述多个信号中提取的。6.根据权利要求1或2所述的方法,其中,所述多个空间区域中的每一个包括多个到达方向。7.根据权利要求1或2所述的方法,还包括:所述处理器基于所述另外多个特征估计时频TF掩...

【专利技术属性】
技术研发人员:亚历山大
申请(专利权)人:汇顶科技香港有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1