一种适用于语音和音频的风噪检测和抑制方法和装置制造方法及图纸

技术编号：20122561 阅读：24 留言：0更新日期：2019-01-16 12:54

本发明专利技术提供了一种风噪检测和抑制方法。在一个实施例中，所述方法包括：通过对语音或音频进行复相干函数估计，得到在各语音帧中多个传声器两两彼此在语音帧的声源定位角度，进而得到在语音帧的声源定位角度方差；根据声源定位角度方差确定语音帧中是否存在风噪。实验证明，该实施例方法能实时检测和抑制强非平稳态风噪，同时没有明显的语音和音频失真。

A Method and Device for Detecting and Suppressing Wind Noise for Speech and Audio

The invention provides a method for detecting and suppressing wind noise. In one embodiment, the method includes: by estimating the complex coherence function of voice or audio, the sound source localization angle of multiple microphones in each voice frame can be obtained, and then the variance of the sound source localization angle in the voice frame can be obtained; and the presence or absence of wind noise in the voice frame can be determined according to the variance of the sound source localization angle. Experiments show that the method can detect and suppress strong non-stationary wind noise in real time without obvious voice and audio distortion.

全部详细技术资料下载

【技术实现步骤摘要】
一种适用于语音和音频的风噪检测和抑制方法和装置
本申请涉及噪声处理领域，尤其涉及一种适用于语音和音频的实时风噪检测和抑制方法和装置。
技术介绍
当前，传统的单通道语音增强方法假定噪声的平稳特性，因此可通过噪声估计方法对平稳态噪声功率谱进行估计，最后进行平稳态噪声的抑制[1]。多通道语音增强方法可以利用目标语音和干扰噪声的空间分离度，通过波束形成等手段进行空域滤波，实现平稳态和非平稳态噪声抑制[2]。当前基于深度学习的方法则运算量较大，对环境适应性以及泛化能力还有待于进一步提高。风噪属于强非平稳态噪声，同时风噪不属于点声源，没有明显的方向性，因此采用传统的单通道语音增强方法或者多通道语音增强方法如空间滤波都无法实现有效的风噪检测和抑制。近年来，也有一些学者提出用深度学习的方法或者基于非负矩阵分解的方法实现风噪检测和抑制[3]，这类方法运算量大，实时性一般也难以保证，特别是对于实时低功耗通信应用需求，不具有普遍适用性。
技术实现思路
本专利技术实施例在第一方面提供了一种风噪检测方法。所述方法包括：接收来自M个传声器的语音和/或音频信号，其中M是大于1的整数；对语音和/或音频信号进行复相干函数估计，得到第i个传声器和第j个传声器第l帧第k个频带短时谱的复相干函数值，其中，l、k是自然数，i＝1,2,...M，j＝1,2,...M，k＝1,2,…,K；根据所述复相干函数值，得到第i个传声器和第j个传声器在第l帧的声源定位角度；根据M个传声器中两两彼此在第l帧的声源定位角度，确定在第l帧的声源定位角度方差；根据声源定位角度方差，确定第l帧是否存在风噪。在第二方面，提供一...

【技术保护点】
1.一种风噪检测方法，其特征在于，所述方法包括：接收来自M个传声器的语音和/或音频信号，其中M是大于1的整数；对语音和/或音频信号进行复相干函数估计，得到第i个传声器和第j个传声器的第l帧第k个频带短时谱的复相干函数值，其中，l、k是自然数，i＝1,2,...M，j＝1,2,...M；根据所述复相干函数值，得到第i个传声器和第j个传声器在第l帧的声源定位角度；根据所述声源定位角度，确定在第l帧的声源定位角度方差；根据声源定位角度方差，确定第l帧是否存在风噪。

【技术特征摘要】
1.一种风噪检测方法，其特征在于，所述方法包括：接收来自M个传声器的语音和/或音频信号，其中M是大于1的整数；对语音和/或音频信号进行复相干函数估计，得到第i个传声器和第j个传声器的第l帧第k个频带短时谱的复相干函数值，其中，l、k是自然数，i＝1,2,...M，j＝1,2,...M；根据所述复相干函数值，得到第i个传声器和第j个传声器在第l帧的声源定位角度；根据所述声源定位角度，确定在第l帧的声源定位角度方差；根据声源定位角度方差，确定第l帧是否存在风噪。2.如权利要求1所述的方法，其特征在于复相干函数值包括第一复相干函数值和第二复相干函数值，第一复相干函数值利用第一平滑因子进行长时复相干函数估计而得到，第二复相干函数值利用第二平滑因子进行短时复相干函数估计而得到，第一平滑因子大于第二平滑因子；所述方法包括根据确定第一复相干函数值和第二复相干函数值中的至少一个确定第l帧的复相干函数模平方均值；所述根据声源定位角度方差，确定在第l帧是否存在风噪包括，借助于第l帧的复相干函数模平方均值，根据声源定位角度方差，确定第l帧是否存在风噪。3.如权利要求2所述的方法，其特征在于第一平滑因子α1∈[0.70.9]，第二平滑因子α2∈[0.40.6]。4.如权利要求1所述的方法，其特征在于根据复相干函数值，得到第i个传声器和第j个传声器在第l帧的声源定位角度包括，确定第i个传声器和第j个传声器在第l帧第k子带的声源定位角度；其中，所述第k子带是由至少一个频带合并而成；根据声源定位角度，确定在第l帧的声源定位角度方差包括，根据第i个传声器和第j个传声器在第l帧第k子带的声源定位角度，确定在第l帧第k子带的声源定位角度方差；根据声源定位角度方差，确定第l帧是否存在风噪包括，根据在第l帧第k子带的声源定位角度方差确定在第l帧第k子带是否存在风噪。5.如权利要求1所述的方法，其中，M＝2；根据复相干函数值，得到第i个传声器和第j个传声器在第l帧的声源定位角度包括，确定2个传声器在第l帧第k子带的声源定位角度；其中，所述第k子带是由至少一个频带合并而成；根据声源定位角度，确定在第l帧的声源定位角度方差包括，根据2个传声器在第l帧第k子带的声源定位角度，确定在第l帧的声源定位角度方差。6.一种风噪抑制方法，其特征在于，所述方法包括：接收来自M个传声器的语音和/或音频信号，其中M是大于1的整数；对语音和/或音频信号进行复相干函数估计，得到第i个传声器和第j个传声器的第l帧第k个频带短时谱的复相干函数值，其中，l、k是自然数，i＝1,2,...M，j＝1,2,...M；根据所述复相干函数值，得到第i个传声器和第j个传声器在第l帧的声源定位角度；根据所述声源定位角度，确定在第l帧的声源定位角度方差；根据在第l帧的声源定位角度方差，确定第l帧的风噪增益函数；根据第l帧的风噪增益函数，抑制语音和/或音频信号中存在的风噪。7.如权利要求6所述的方法，其特征在于复相干函数值包括第一复相干函数值和第二复相干函数值，第一复相干函数值利用第一平滑因子进行长时复相干函数估计而得到，第二复相干函数值利用第二平滑因子进行短时复相干函数估计而得到，第一平滑因子大于第二平滑因子；所述方法包括根据确定第一复相干函数值和第二复相干函数值中的至少一个确定第l帧的复相干函数模平方均值；所述根据声源定位角度方差，确定在第l帧是否存在风噪包括，借助于第l帧的复相干函数模平方均值，根据声源定位角度方差，确定第l帧是否存在风噪。8.如权利要求7所述...

【专利技术属性】
技术研发人员：邱锋海，匡敬辉，
申请(专利权)人：北京声加科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人