基于时频掩蔽和深度神经网络的声源方向估计方法技术

技术编号:21272166 阅读:46 留言:0更新日期:2019-06-06 07:12
本公开揭示了一种基于时频掩蔽和深度神经网络的声源方位估计方法、装置及电子设备、存储介质,属于计算机技术领域。所述方法包括:获取多通道声音信号;对所述多通道声音信号中的每一通道声音信号进行分帧、加窗和傅里叶变换,形成所述多通道声音信号的短时傅里叶频谱;通过预先训练的神经网络模型对所述短时傅里叶谱进行迭代运算,计算所述多通道声音信号中目标信号对应的比值膜,将多个比值膜融合形成单一比值膜;通过所述单一比值膜对多通道声音信号进行掩蔽加权,确定目标声源的方位。上述基于时频掩蔽和深度神经网络的声源方向估计方法及装置能够在低信噪比、强混响的环境中都具有强大鲁棒性,提高目标声源方向估计的准确性和稳定性。

Sound Source Direction Estimation Based on Time-Frequency Masking and Depth Neural Network

The present disclosure discloses a method, device, electronic equipment and storage medium of acoustic source orientation estimation based on time-frequency masking and depth neural network, which belongs to the field of computer technology. The method includes: acquiring multi-channel sound signal; framing, windowing and Fourier transform each channel sound signal in the multi-channel sound signal to form the short-time Fourier spectrum of the multi-channel sound signal; iterating the short-time Fourier spectrum through a pre-trained neural network model to calculate the target signal in the multi-channel sound signal. The corresponding ratio film fuses multiple ratio films to form a single ratio film, and the direction of the target sound source is determined by masking and weighting the multi-channel sound signal through the single ratio film. The above methods and devices based on time-frequency masking and depth neural network can have strong robustness in low signal-to-noise ratio and strong reverberation environment, and improve the accuracy and stability of target sound source direction estimation.

【技术实现步骤摘要】
基于时频掩蔽和深度神经网络的声源方向估计方法
本公开涉及计算机应用
,特别涉及一种基于时频掩蔽和深度神经网络的声源方向估计方法、装置及电子设备、存储介质。
技术介绍
噪音环境下的声源定位在现实生活中有很多应用,例如人机交互、机器人和波束形成。传统上,GCC-PHAT(GeneralizedCrossCorrelationPhaseTransform,广义互相关-相位变换方法)、SRP-PHAT(SteeredResponsePowerPhaseTransform,相位变换加权的可控响应功率法)或MUSIC(MultipleSignalClassification,多信号分类)等声源定位算法最为常见。然而,这些算法只能定位环境中声量最大的信号源,而声量最大的信号源可能根本不是目标说话人。例如,在强混响、有向噪声或漫反射噪声的环境中,GCC-PHAT系数的总和会出现来自干扰源的峰值,而根据MUSIC算法中带噪音协方差矩阵的最小特征向量值而构成得的噪声子空间可能不属于真正的噪声。为提高鲁棒性,早期的研究采用SNR(Signal-to-noiseratio,信噪比)加权的方式加强目标声音频率,得到更高的SNR,之后再运行GCC-PHAT算法。例如使用基于语音活动检测的算法或基于最小均方误差的方法等SNR估计法。然而,这些算法通常假设噪声是静态的,而现实环境中的噪声通常是动态的,从而导致现实环境中进行声源定位时,方向估计的鲁棒性较差。
技术实现思路
为了解决方位估计的鲁棒性较差的技术问题,本公开提供了一种基于时频掩蔽和深度神经网络的声源方向估计方法、装置及电子设备、存储介质。第一方面,提供了一种基于时频掩蔽和深度神经网络的声源方向估计方法,包括:获取多通道声音信号;对所述多通道声音信号中的每一通道声音信号进行分帧、加窗和傅里叶变换,形成所述多通道声音信号的短时傅里叶频谱;通过预先训练的神经网络模型对所述短时傅里叶谱进行迭代运算,计算所述多通道声音信号中目标信号对应的比值膜;将多个比值膜融合形成单一比值膜;通过所述单一比值膜对多通道声音信号进行掩蔽加权,确定目标声源的方位。可选的,所述通过预先训练的神经网络模型对所述短时傅里叶谱进行迭代运算,计算所述多通道声音信号中目标信号对应的比值膜的步骤包括:通过预先训练的神经网络模型对各通道声音信号的短时傅里叶谱进行迭代运算,分别计算所述多通道声音信号中各通道声音信号对应的比值膜。可选的,所述通过预先训练的神经网络模型对各通道声音信号的短时傅里叶谱进行迭代运算,分别计算所述多通道声音信号中各通道声音信号对应的比值膜的步骤包括:以直达声或混响语音信号为目标,采用具有长短期记忆的深度递归神经网络模型分别计算所述多通道声音信号中各单通道目标信号对应的比值膜。可选的,所述将多个比值膜融合形成单一比值膜的步骤包括:将多通道声音信号中目标信号所产生的比值膜,在相应时频单元上进行累乘。可选的,通过所述单一比值膜对多通道声音信号进行掩蔽加权,确定目标声源的方位的步骤,方案一包括:使用多通道输入信号的短时傅里叶谱计算广义互相关函数;采用所述单一比值膜对所述广义互相关函数进行掩蔽;将掩蔽后的广义互相关函数沿频率和时间进行加和,选取加和互相关函数最大峰值位对应的方向作为目标声源的方位。可选的,通过所述单一比值膜对多通道声音信号进行掩蔽加权,确定目标声源的方位的步骤,方案二包括:在每个时频单元中,计算所述多通道声音信号短时傅里叶谱的协方差矩阵;采用所述单一比值膜对所述协方差矩阵进行掩蔽,在每个单独的频率上,对掩蔽的协方差矩阵沿时间维度加和,分别得到目标语音和噪声在不同频率上的协方差矩阵;依据麦克风阵列的拓扑结构,计算候选方向在不同频率上的导向矢量;根据所述噪声协方差矩阵和候选导向矢量,计算不同频率上MVDR波束成形的滤波器系数;采用所述波束成形的滤波器系数和目标语音协方差矩阵计算不同频率上目标语音的能量,采用所述波束成形的滤波器系数和噪声协方差矩阵计算不同频率上噪声的能量;在不同频率上,计算目标语音和噪声的能量比,并沿频率维度加和,形成在某一候选方向上的总体信噪比;选择对应总体信噪比最大的候选方向作为目标声源的方位。可选的,所述通过所述单一比值膜对多通道声音信号进行掩蔽加权,确定目标声源的方位的步骤,方案三包括:在不同频率上,对所述目标语音协方差矩阵采用特征分解,选取特征值最大的对应特征向量作为目标语音的导向矢量;采用所述目标语音的导向矢量计算麦克风信号之间的到达时间差;根据麦克风阵列拓扑结构计算候选方向在麦克风之间的到达时间差;计算所述麦克风信号之间到达时间差和所述候选方向在麦克风之间到达时间差之间的余弦距离;选择对应最大余弦距离的候选方向作为目标声源的方位。第二方面,提供了一种基于时频掩蔽和深度神经网络的声源方向估计装置,包括:声音信号获取模块,用于获取多通道声音信号;短时傅里叶频谱提取模块,用于对所述多通道声音信号中的每一通道声音信号进行分帧、加窗和傅里叶变换,形成所述多通道声音信号的短时傅里叶频谱;比值膜计算模块,用于通过预先训练的神经网络模型对所述短时傅里叶谱进行迭代运算,计算所述多通道声音信号中目标信号对应的比值膜;比值膜融合模块,用于将多个比值膜融合,形成单一比值膜;掩蔽加权模块,用于通过所述单一比值膜对多通道声音信号进行掩蔽加权,确定目标声源的方位。第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的方法。第四方面,提供了一种计算机可读存储介质,用于存储程序,所述程序在被执行时使得电子设备执行如第一方面所述的方法。本公开的实施例提供的技术方案可以包括以下有益效果:在通过估计目标声源到达时间差以进行定位时,在获取多通道声音信号后,通过预先训练的神经网络模型计算多通道声音信号中目标信号对应的比值膜,将多个比值膜融合形成单一比值膜后,通过用单一比值膜对多通道声音信号进行掩蔽加权,确定目标声源的方位,从而能够在低信噪比、强混响的环境中都具有强大鲁棒性,提高目标声源方向估计的准确性和稳定性。应当理解的是,以上的一般描述和后文的细节描述仅为示例性,并不能限制本公开范围。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并于说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种基于时频掩蔽和深度神经网络的声源方向估计方法的流程图。图2是图1对应实施例的基于时频掩蔽和深度神经网络的声源方位估计方法中步骤S150的第一种具体实现流程图。图3是图1对应实施例的基于时频掩蔽和深度神经网络的声源方位估计方法中步骤S150的第二种具体实现流程图。图4是图1对应实施例的基于时频掩蔽和深度神经网络的声源方位估计方法中步骤S150的第三种具体实现流程图。图5是根据一示例性实施例示出的双耳设置示意图(a)和双麦克风设置的示意图(b)。图6是根据一示例性实施例示出的一种基于时频掩蔽和深度神经网络的声源方位估计装置的框图。图7是图6对应实施例示出的基于时频掩蔽和深度神经网络的声源方位估本文档来自技高网...

【技术保护点】
1.一种基于时频掩蔽和深度神经网络的声源方位估计方法,其特征在于,所述方法包括:获取多通道声音信号;对所述多通道声音信号中的每一通道声音信号进行分帧、加窗和傅里叶变换,形成所述多通道声音信号的短时傅里叶频谱;通过预先训练的神经网络模型对所述短时傅里叶谱进行迭代运算,计算所述多通道声音信号中目标信号对应的比值膜;将多个比值膜融合形成单一比值膜;通过所述单一比值膜对多通道声音信号进行掩蔽加权,确定目标声源的方位。

【技术特征摘要】
1.一种基于时频掩蔽和深度神经网络的声源方位估计方法,其特征在于,所述方法包括:获取多通道声音信号;对所述多通道声音信号中的每一通道声音信号进行分帧、加窗和傅里叶变换,形成所述多通道声音信号的短时傅里叶频谱;通过预先训练的神经网络模型对所述短时傅里叶谱进行迭代运算,计算所述多通道声音信号中目标信号对应的比值膜;将多个比值膜融合形成单一比值膜;通过所述单一比值膜对多通道声音信号进行掩蔽加权,确定目标声源的方位。2.根据权利要求1所述的方法,其特征在于,所述通过预先训练的神经网络模型对所述短时傅里叶谱进行迭代运算,计算所述多通道声音信号中目标信号对应的比值膜的步骤包括:通过预先训练的神经网络模型对各通道声音信号的短时傅里叶谱进行迭代运算,分别计算所述多通道声音信号中各通道声音信号对应的比值膜。3.根据权利要求2所述的方法,其特征在于,所述通过预先训练的神经网络模型对各通道声音信号的短时傅里叶谱进行迭代运算,分别计算所述多通道声音信号中各通道声音信号对应的比值膜的步骤包括:以直达声或混响语音信号为目标,采用具有长短期记忆的深度递归神经网络模型分别计算所述多通道声音信号中各单通道目标信号对应的比值膜。4.根据权利要求1所述的方法,其特征在于,所述将多个比值膜融合,形成单一比值膜的步骤包括:将多通道声音信号中目标信号所产生的比值膜,在相应时频单元上进行累乘。5.根据权利要求1所述的方法,其特征在于,通过所述单一比值膜对多通道声音信号进行掩蔽加权的步骤包括:使用多通道输入信号的短时傅里叶谱计算广义互相关函数;采用所述单一比值膜对所述广义互相关函数进行掩蔽;将掩蔽后的广义互相关函数沿频率和时间进行加和,选取加和互相关函数最大峰值位对应的方向作为目标声源的方位。6.根据权利要求1所述的方法,其特征在于,所述通过所述单一比值膜对多通道声音信号进行掩蔽加权的步骤包括:在每个时频单元中,计算所述多通道声音信号短时傅里叶谱的协方差矩阵;采用所述单一比值膜对所述协方差矩阵进行掩蔽,在每个单独的频率上,对掩蔽的协方差矩阵沿时间维度加和,分别得到目标语音和噪声在不同频率上的协方差矩阵;依据麦...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:大象声科深圳科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1