一种适用于语音和音频的风噪检测和抑制方法和装置制造方法及图纸

技术编号:20122561 阅读:24 留言:0更新日期:2019-01-16 12:54
本发明专利技术提供了一种风噪检测和抑制方法。在一个实施例中,所述方法包括:通过对语音或音频进行复相干函数估计,得到在各语音帧中多个传声器两两彼此在语音帧的声源定位角度,进而得到在语音帧的声源定位角度方差;根据声源定位角度方差确定语音帧中是否存在风噪。实验证明,该实施例方法能实时检测和抑制强非平稳态风噪,同时没有明显的语音和音频失真。

A Method and Device for Detecting and Suppressing Wind Noise for Speech and Audio

The invention provides a method for detecting and suppressing wind noise. In one embodiment, the method includes: by estimating the complex coherence function of voice or audio, the sound source localization angle of multiple microphones in each voice frame can be obtained, and then the variance of the sound source localization angle in the voice frame can be obtained; and the presence or absence of wind noise in the voice frame can be determined according to the variance of the sound source localization angle. Experiments show that the method can detect and suppress strong non-stationary wind noise in real time without obvious voice and audio distortion.

【技术实现步骤摘要】
一种适用于语音和音频的风噪检测和抑制方法和装置
本申请涉及噪声处理领域,尤其涉及一种适用于语音和音频的实时风噪检测和抑制方法和装置。
技术介绍
当前,传统的单通道语音增强方法假定噪声的平稳特性,因此可通过噪声估计方法对平稳态噪声功率谱进行估计,最后进行平稳态噪声的抑制[1]。多通道语音增强方法可以利用目标语音和干扰噪声的空间分离度,通过波束形成等手段进行空域滤波,实现平稳态和非平稳态噪声抑制[2]。当前基于深度学习的方法则运算量较大,对环境适应性以及泛化能力还有待于进一步提高。风噪属于强非平稳态噪声,同时风噪不属于点声源,没有明显的方向性,因此采用传统的单通道语音增强方法或者多通道语音增强方法如空间滤波都无法实现有效的风噪检测和抑制。近年来,也有一些学者提出用深度学习的方法或者基于非负矩阵分解的方法实现风噪检测和抑制[3],这类方法运算量大,实时性一般也难以保证,特别是对于实时低功耗通信应用需求,不具有普遍适用性。
技术实现思路
本专利技术实施例在第一方面提供了一种风噪检测方法。所述方法包括:接收来自M个传声器的语音和/或音频信号,其中M是大于1的整数;对语音和/或音频信号进行复相干函数估计,得到第i个传声器和第j个传声器第l帧第k个频带短时谱的复相干函数值,其中,l、k是自然数,i=1,2,...M,j=1,2,...M,k=1,2,…,K;根据所述复相干函数值,得到第i个传声器和第j个传声器在第l帧的声源定位角度;根据M个传声器中两两彼此在第l帧的声源定位角度,确定在第l帧的声源定位角度方差;根据声源定位角度方差,确定第l帧是否存在风噪。在第二方面,提供一种风噪抑制方法。该方法包括:接收来自M个传声器的语音和/或音频信号,其中M是大于1的整数;对语音和/或音频信号进行复相干函数估计,得到第i个传声器和第j个传声器的第l帧第k个频带短时谱的复相干函数值,其中,l、k是自然数,i=1,2,...M,j=1,2,...M;根据复相干函数值,得到第i个传声器和第j个传声器在第l帧的声源定位角度;根据声源定位角度,确定在第l帧的声源定位角度方差;根据声源定位角度方差,确定在第l帧的风噪增益函数;根据第l帧的风噪增益函数,抑制语音和/或音频信号中存在的风噪。在第三方面,提供一种风噪检测装置。所述风噪检测装置包括:接收模块,配置用于接收来自M个传声器的语音和/或音频信号,其中M是大于1的整数;估计模块,配置用于对语音和/或音频信号进行复相干函数估计,得到第i个传声器和第j个传声器的第l帧第k个频带短时谱的复相干函数值,其中,l、k是自然数,i=1,2,...M,j=1,2,...M;角度计算模块,配置用于根据复相干函数值,得到第i个传声器和第j个传声器在第l帧的声源定位角度;角度方差确定模块,配置用于根据声源定位角度,确定在第l帧的声源定位角度方差;风噪确定模块,配置用于根据声源定位角度方差,确定第l帧是否存在风噪。在第四方面,提供一种风噪抑制装置。所述风噪抑制装置包括:接收模块,接收来自M个传声器的语音和/或音频信号,其中M是大于1的整数;估计模块,配置用于对语音和/或音频进行复相干函数估计,得到第i个传声器和第j个传声器的第l帧第k个频带短时谱的复相干函数值,其中,l、k是自然数,i=1,2,...M,j=1,2,...M;角度计算模块,配置用于根据复相干函数值,得到第i个传声器和第j个传声器在第l帧的声源定位角度;角度方差确定模块,配置用于根据声源定位角度,确定在第l帧的声源定位角度方差;风噪增益确定模块,配置用于根据声源定位角度方差,确定第l帧的风噪增益函数;抑制模块,配置用于根据第l帧的风噪增益函数,抑制语音和/或音频信号中存在的风噪。在第五方面,提供一种计算机可读存储介质。该介质包括指令,当所述指令在计算机上运行时,使所述计算机执行根据第一方面或第二方面所述的方法。在第六方面,提供一种包含指令的计算机程序产品。当其在计算机上运行时,使得计算机执行根据第一方面或第二方面所述的方法。根据本专利技术实施例,通过对语音和/或音频信号进行风噪检测和风噪抑制两个步骤,实现风噪的有效抑制,同时最大限度的避免语音和音频失真,保证语音质量和音频品质。实验证明,该方法能实时检测和抑制强非平稳态风噪,同时没有明显的语音和音频失真。附图说明图1是信号模型示意图;图2是根据本专利技术实施例的多传声器风噪抑制原理框图;图3是风噪和方向性目标语音复相干函数模平方对比示意图;图4是风噪声源定位和方向性目标语音声源定位角度随时间变化的示意图;图5是基于复相干函数模平方和相位的全频带风噪检测原理框图;图6是基于复相干函数模平方和相位的分子带风噪检测原理框图;图7是基于语音谐波特性和高低频能量比的增益函数保护策略示意图;图8是采用本专利技术实施例进行风噪检测和抑制的处理效果图;其中(a)是被风噪污染的语音时域图;(b)是被风噪污染的语音语谱图;(c)是风噪抑制后的语音时域图;(d)是风噪抑制的语音语谱图。具体实施方式本专利技术实施例提出一种低算法复杂度实时风噪检测和抑制方法,它适用于语音和音频信号,既可应用于实时语音和音频通信系统,也可以应用非实时的语音和音频信号增强中。本专利技术实施例通过对语音或音频进行复相干函数估计,得到在各语音帧中多个传声器两两彼此在语音帧的声源定位角度,进而得到在语音帧的声源定位角度方差;根据声源定位角度方差确定语音帧中是否存在风噪。在本专利技术的另一实施例中,可以基于在语音或音频帧的声源定位角度方差,确定在语音或音频帧的风噪增益函数;然后,根据语音或音频帧的风噪增益函数,抑制语音和/或音频信号中存在的风噪。在进行复相干函数估计时,如果平滑因子大,容易模糊瞬时变化的特性,例如在语音起始段等能量系数增大的过程,会导致失真;而如果平滑因子过小,则在诸如语音结尾段等能量弱小的部分,容易使得有效语音被风噪压制。为此,在一个实施例中,可以采用双平滑因子或多平滑因子,或者自适应平滑因子来进行复相干函数估计。复相干函数估计值可以用于确定语音或音频帧的复相干函数模平方均值,由此辅助风噪检测和抑制。在一个实施例中,可以采用子带风噪检测策略,由K个频带中的至少一个频带合并成子带,然后确定M个传声器中两两彼此在语音或音频帧在多个子带的声源定位角度以及声源定位角度方差。由此,检测进而抑制风噪。在一个实施例中,考虑到浊音具有谐波特性的特点,采用在L个帧的谐波噪声比来进行浊音的保护。在一个实施例中,考虑到风噪低频能量强而清音高频能量强的特点,可采用高低频能量比对清音进行保护。下文将结合具体例子对本专利技术展开描述。图1是信号模型示意图。在图1中示意了多种声音信号,包括目标语音信号、方向性干扰源、平稳态噪声和风噪。作为示例,语音环境中包括说话人A和B,A和B均在讲话。假设说话人A的语音是语音处理的目标,作为目标语音信号,说话人B的语音信号则构成方向性干扰噪声。在同一个语音环境中,还可能存在诸如来自汽车的噪声,以及可能来自刮风引起的噪声。汽车噪声代表一种平稳态噪声。风噪则有着不同于方向性干扰噪声和平稳态噪声的特点,下文将对此有所讨论。为了采集目标语音信号,语音环境中设置了M个传声器。假设第i个传声器接收到的信号xi(n)为:xi(n)=si(n)+dt,i(n)+本文档来自技高网...

【技术保护点】
1.一种风噪检测方法,其特征在于,所述方法包括:接收来自M个传声器的语音和/或音频信号,其中M是大于1的整数;对语音和/或音频信号进行复相干函数估计,得到第i个传声器和第j个传声器的第l帧第k个频带短时谱的复相干函数值,其中,l、k是自然数,i=1,2,...M,j=1,2,...M;根据所述复相干函数值,得到第i个传声器和第j个传声器在第l帧的声源定位角度;根据所述声源定位角度,确定在第l帧的声源定位角度方差;根据声源定位角度方差,确定第l帧是否存在风噪。

【技术特征摘要】
1.一种风噪检测方法,其特征在于,所述方法包括:接收来自M个传声器的语音和/或音频信号,其中M是大于1的整数;对语音和/或音频信号进行复相干函数估计,得到第i个传声器和第j个传声器的第l帧第k个频带短时谱的复相干函数值,其中,l、k是自然数,i=1,2,...M,j=1,2,...M;根据所述复相干函数值,得到第i个传声器和第j个传声器在第l帧的声源定位角度;根据所述声源定位角度,确定在第l帧的声源定位角度方差;根据声源定位角度方差,确定第l帧是否存在风噪。2.如权利要求1所述的方法,其特征在于复相干函数值包括第一复相干函数值和第二复相干函数值,第一复相干函数值利用第一平滑因子进行长时复相干函数估计而得到,第二复相干函数值利用第二平滑因子进行短时复相干函数估计而得到,第一平滑因子大于第二平滑因子;所述方法包括根据确定第一复相干函数值和第二复相干函数值中的至少一个确定第l帧的复相干函数模平方均值;所述根据声源定位角度方差,确定在第l帧是否存在风噪包括,借助于第l帧的复相干函数模平方均值,根据声源定位角度方差,确定第l帧是否存在风噪。3.如权利要求2所述的方法,其特征在于第一平滑因子α1∈[0.70.9],第二平滑因子α2∈[0.40.6]。4.如权利要求1所述的方法,其特征在于根据复相干函数值,得到第i个传声器和第j个传声器在第l帧的声源定位角度包括,确定第i个传声器和第j个传声器在第l帧第k子带的声源定位角度;其中,所述第k子带是由至少一个频带合并而成;根据声源定位角度,确定在第l帧的声源定位角度方差包括,根据第i个传声器和第j个传声器在第l帧第k子带的声源定位角度,确定在第l帧第k子带的声源定位角度方差;根据声源定位角度方差,确定第l帧是否存在风噪包括,根据在第l帧第k子带的声源定位角度方差确定在第l帧第k子带是否存在风噪。5.如权利要求1所述的方法,其中,M=2;根据复相干函数值,得到第i个传声器和第j个传声器在第l帧的声源定位角度包括,确定2个传声器在第l帧第k子带的声源定位角度;其中,所述第k子带是由至少一个频带合并而成;根据声源定位角度,确定在第l帧的声源定位角度方差包括,根据2个传声器在第l帧第k子带的声源定位角度,确定在第l帧的声源定位角度方差。6.一种风噪抑制方法,其特征在于,所述方法包括:接收来自M个传声器的语音和/或音频信号,其中M是大于1的整数;对语音和/或音频信号进行复相干函数估计,得到第i个传声器和第j个传声器的第l帧第k个频带短时谱的复相干函数值,其中,l、k是自然数,i=1,2,...M,j=1,2,...M;根据所述复相干函数值,得到第i个传声器和第j个传声器在第l帧的声源定位角度;根据所述声源定位角度,确定在第l帧的声源定位角度方差;根据在第l帧的声源定位角度方差,确定第l帧的风噪增益函数;根据第l帧的风噪增益函数,抑制语音和/或音频信号中存在的风噪。7.如权利要求6所述的方法,其特征在于复相干函数值包括第一复相干函数值和第二复相干函数值,第一复相干函数值利用第一平滑因子进行长时复相干函数估计而得到,第二复相干函数值利用第二平滑因子进行短时复相干函数估计而得到,第一平滑因子大于第二平滑因子;所述方法包括根据确定第一复相干函数值和第二复相干函数值中的至少一个确定第l帧的复相干函数模平方均值;所述根据声源定位角度方差,确定在第l帧是否存在风噪包括,借助于第l帧的复相干函数模平方均值,根据声源定位角度方差,确定第l帧是否存在风噪。8.如权利要求7所述...

【专利技术属性】
技术研发人员:邱锋海匡敬辉
申请(专利权)人:北京声加科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1