The present disclosure discloses a method, device, electronic equipment and storage medium of acoustic source orientation estimation based on time-frequency masking and depth neural network, which belongs to the field of computer technology. The method includes: acquiring multi-channel sound signal; framing, windowing and Fourier transform each channel sound signal in the multi-channel sound signal to form the short-time Fourier spectrum of the multi-channel sound signal; iterating the short-time Fourier spectrum through a pre-trained neural network model to calculate the target signal in the multi-channel sound signal. The corresponding ratio film fuses multiple ratio films to form a single ratio film, and the direction of the target sound source is determined by masking and weighting the multi-channel sound signal through the single ratio film. The above methods and devices based on time-frequency masking and depth neural network can have strong robustness in low signal-to-noise ratio and strong reverberation environment, and improve the accuracy and stability of target sound source direction estimation.
【技术实现步骤摘要】
基于时频掩蔽和深度神经网络的声源方向估计方法
本公开涉及计算机应用
,特别涉及一种基于时频掩蔽和深度神经网络的声源方向估计方法、装置及电子设备、存储介质。
技术介绍
噪音环境下的声源定位在现实生活中有很多应用,例如人机交互、机器人和波束形成。传统上,GCC-PHAT(GeneralizedCrossCorrelationPhaseTransform,广义互相关-相位变换方法)、SRP-PHAT(SteeredResponsePowerPhaseTransform,相位变换加权的可控响应功率法)或MUSIC(MultipleSignalClassification,多信号分类)等声源定位算法最为常见。然而,这些算法只能定位环境中声量最大的信号源,而声量最大的信号源可能根本不是目标说话人。例如,在强混响、有向噪声或漫反射噪声的环境中,GCC-PHAT系数的总和会出现来自干扰源的峰值,而根据MUSIC算法中带噪音协方差矩阵的最小特征向量值而构成得的噪声子空间可能不属于真正的噪声。为提高鲁棒性,早期的研究采用SNR(Signal-to-noiseratio,信噪比)加权的方式加强目标声音频率,得到更高的SNR,之后再运行GCC-PHAT算法。例如使用基于语音活动检测的算法或基于最小均方误差的方法等SNR估计法。然而,这些算法通常假设噪声是静态的,而现实环境中的噪声通常是动态的,从而导致现实环境中进行声源定位时,方向估计的鲁棒性较差。
技术实现思路
为了解决方位估计的鲁棒性较差的技术问题,本公开提供了一种基于时频掩蔽和深度神经网络的声源方向估计方法、装置及电子设备 ...
【技术保护点】
1.一种基于时频掩蔽和深度神经网络的声源方位估计方法,其特征在于,所述方法包括:获取多通道声音信号;对所述多通道声音信号中的每一通道声音信号进行分帧、加窗和傅里叶变换,形成所述多通道声音信号的短时傅里叶频谱;通过预先训练的神经网络模型对所述短时傅里叶谱进行迭代运算,计算所述多通道声音信号中目标信号对应的比值膜;将多个比值膜融合形成单一比值膜;通过所述单一比值膜对多通道声音信号进行掩蔽加权,确定目标声源的方位。
【技术特征摘要】
1.一种基于时频掩蔽和深度神经网络的声源方位估计方法,其特征在于,所述方法包括:获取多通道声音信号;对所述多通道声音信号中的每一通道声音信号进行分帧、加窗和傅里叶变换,形成所述多通道声音信号的短时傅里叶频谱;通过预先训练的神经网络模型对所述短时傅里叶谱进行迭代运算,计算所述多通道声音信号中目标信号对应的比值膜;将多个比值膜融合形成单一比值膜;通过所述单一比值膜对多通道声音信号进行掩蔽加权,确定目标声源的方位。2.根据权利要求1所述的方法,其特征在于,所述通过预先训练的神经网络模型对所述短时傅里叶谱进行迭代运算,计算所述多通道声音信号中目标信号对应的比值膜的步骤包括:通过预先训练的神经网络模型对各通道声音信号的短时傅里叶谱进行迭代运算,分别计算所述多通道声音信号中各通道声音信号对应的比值膜。3.根据权利要求2所述的方法,其特征在于,所述通过预先训练的神经网络模型对各通道声音信号的短时傅里叶谱进行迭代运算,分别计算所述多通道声音信号中各通道声音信号对应的比值膜的步骤包括:以直达声或混响语音信号为目标,采用具有长短期记忆的深度递归神经网络模型分别计算所述多通道声音信号中各单通道目标信号对应的比值膜。4.根据权利要求1所述的方法,其特征在于,所述将多个比值膜融合,形成单一比值膜的步骤包括:将多通道声音信号中目标信号所产生的比值膜,在相应时频单元上进行累乘。5.根据权利要求1所述的方法,其特征在于,通过所述单一比值膜对多通道声音信号进行掩蔽加权的步骤包括:使用多通道输入信号的短时傅里叶谱计算广义互相关函数;采用所述单一比值膜对所述广义互相关函数进行掩蔽;将掩蔽后的广义互相关函数沿频率和时间进行加和,选取加和互相关函数最大峰值位对应的方向作为目标声源的方位。6.根据权利要求1所述的方法,其特征在于,所述通过所述单一比值膜对多通道声音信号进行掩蔽加权的步骤包括:在每个时频单元中,计算所述多通道声音信号短时傅里叶谱的协方差矩阵;采用所述单一比值膜对所述协方差矩阵进行掩蔽,在每个单独的频率上,对掩蔽的协方差矩阵沿时间维度加和,分别得到目标语音和噪声在不同频率上的协方差矩阵;依据麦...
【专利技术属性】
技术研发人员:不公告发明人,
申请(专利权)人:大象声科深圳科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。