基于神经网络的音频处理中的空间相关特征提取制造技术

技术编号：36032161 阅读：28 留言：0更新日期：2022-12-21 10:34

本申请公开了一种用于检测或估计多个声源中的目标声源的方法、装置和计算机程序，所述目标声源位于多个空间区域中的至少一个目标空间区域，所述方法包括：处理器接收多个信号，所述多个信号中的每一个与多个麦克风信号中的一个相关联，所述麦克风信号包括由所述多个声源产生的声音事件；处理器通过神经网络提取多个特征，所述多个特征是从所述多个信号中提取的，并通过针对所述多个空间区域中的不同空间区域训练所述神经网络，获得所述多个特征中的每一个；所述处理器基于所提取的多个特征生成对应于所述至少一个目标空间区域的另外多个特征；所述处理器基于所述另外多个特征，检测或估计所述目标空间区域中所述目标声源中的至少一个声源。中的至少一个声源。中的至少一个声源。

全部详细技术资料下载

【技术实现步骤摘要】
基于神经网络的音频处理中的空间相关特征提取
[0001]本申请要求于2021年10月21日提交欧洲专利局、申请号为EP21204004.2的欧洲专利申请的优先权，其全部内容通过引用结合在本申请中。

[0002]本申请涉及一种基于神经网络的音频处理系统，该系统用于通过使用空间相关特征提取技术，估计或检测位于定义的、连续的空间区域内的声源产生的信号，涉及一种通过使用空间相关特征提取技术，估计或检测位于定义的、连续的空间区域内的声源产生的信号的方法，以及涉及一种由处理器执行并且包括实现该方法的指令的程序。

技术介绍

[0003]音频提取的问题通常使用诸如单麦克风稳态噪声抑制或多麦克风设置等技术来解决，以从目标信号中去除不想要的信号。所提取的需要的信号用于语音增强、语音识别、音频转录和许多其他基于音频的应用。
[0004]在短时傅里叶变换(short
‑
time Fourier transform，STFT)域中表现出高度稀疏的信号，例如语音或音乐，可以借助时频(time
‑
frequency，TF)掩码有效地分离，该掩码可以识别其中目标信号占主导地位的STFT点(bins)。为了获得这种掩码，通常采用深度学习方法。TF掩码是用于语音增强和定位的音频处理中的已知工具，其允许监督学习。TF掩码包括关于目标源在短时傅里叶变换(STFT)域中每个时间和频率的活动的信息。通常，TF掩码的每个元素都是介于0和1之间的一个数字。TF掩码也可以是复数。TF掩码可用于恢复目标源的相应的干净...

【技术保护点】

【技术特征摘要】
1.一种用于检测或估计多个声源中的目标声源的方法，其中所述目标声源位于多个空间区域中的至少一个目标空间区域，所述方法包括：处理器接收多个信号，其中所述多个信号中的每一个与多个麦克风信号中的一个相关联，其中所述麦克风信号包括由所述多个声源产生的声音事件；所述处理器通过神经网络提取多个特征，其中所述多个特征是从所述多个信号中提取的，并且其中通过针对所述多个空间区域中的不同空间区域训练所述神经网络，获得所述多个特征中的每一个；所述处理器基于所提取的多个特征生成另外多个特征，其中所述另外多个特征对应于所述至少一个目标空间区域；所述处理器基于与所述至少一个目标空间区域对应的所述另外多个特征，检测或估计所述目标空间区域中所述目标声源中的至少一个声源。2.根据权利要求1所述的方法，其中，所述多个信号中的每一个与麦克风时域信号的时频表示的多个相位相关联。3.根据权利要求1或2所述的方法，其中，所述多个信号中的每一个包括麦克风时域信号的时频表示的多个归一化振幅中的至少一个，其中所述归一化基于麦克风时域信号的多个时频表示中的至少一个的范数。4.根据权利要求1所述的方法，其中，所述多个信号中的每一个与麦克风时域信号的多个复时频表示相关联。5.根据权利要求1或2所述的方法，其中，所述多个特征是通过多个卷积神经网络层中的至少一个从所述多个信号中提取的。6.根据权利要求1或2所述的方法，其中，所述多个空间区域中的每一个包括多个到达方向。7.根据权利要求1或2所述的方法，还包括：所述处理器基于所述另外多个特征估计时频TF掩...

【专利技术属性】
技术研发人员：亚历山大，
申请(专利权)人：汇顶科技香港有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人