一种基于自适应谱底优化的多带谱减法的语音增强方法技术

技术编号:32220823 阅读:92 留言:0更新日期:2022-02-09 17:26
本发明专利技术公开了一种基于自适应谱底优化的多带谱减法的语音增强方法,以解决现有采用过减谱减法或多带谱减法语音增强方法存在残余噪声控制不理想的问题。本发明专利技术在多带谱减法的基础上设计了一个随信噪比变化的谱底优化函数对不同噪声条件下的谱谷进行不同程度填充,具体为:首先对语音活动检测器估计出的噪声进行平滑处理来减小噪声估计的波动,其次根据实验对子带微调因子做相关调整来提高噪声估计的准确度,最后通过自适应的谱底优化函数对增强语音的谱谷进行填充,以减小频谱过减生成的窄带噪声峰值以及音乐噪声。旨在将不同信噪比下的残余噪声量控制到较低水平,以达到减小谱减过程所带来的音乐噪声,从而提高语音质量。从而提高语音质量。从而提高语音质量。

【技术实现步骤摘要】
一种基于自适应谱底优化的多带谱减法的语音增强方法


[0001]本专利技术属于语音增强领域,尤其涉及一种基于自适应谱底优化的多带谱减法的语音增强方法。

技术介绍

[0002]语音是人类相互之间进行交流的信息载体。在实际环境中语音信号经常会受到外界噪声环境的干扰从而导致语音信号变差。语音增强是解决噪声干扰的一种方法,可以从带噪语音中提取尽可能纯净的原始语言。语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳;二是提高语音可懂度,方便听者理解。
[0003]由于噪声的种类很多,特性并不完全相同,语音增强方法可以分为三类:第一类是谱减法,第二类是基于统计模型的算法,例如维纳滤波算法和最小均方误差算法,第三类是基于子空间的算法。其中谱减法原理简单易懂,运算量小以及增强效果较好而被广泛应用。谱减法基于一个简单的原理:假设噪声是加性噪声,通过从带噪语音功率谱中减去对噪声谱的估计就可以得到较为纯净的语音频谱,在非语音活动期间可以对噪声谱进行估计和更新,做出这一假设是基于背景噪声环境的平稳性,这样有利于在非语音活动区间估测的平均噪声谱逼近有声段的噪声频谱,增强信号通过计算估计信号谱的逆离散傅里叶变换得到,其相位仍然使用带噪语音信号的相位。
[0004]虽然谱减法计算复杂度低,但求减过程需要非常谨慎,如果减去的噪声估计过小,则会残留多余的干扰噪声,如果减去的噪声估计过高,可能会导致语音失真,从而影响语音的可懂度。在谱减过程中,对噪声频谱的错误估计而产生一些负值,谱减法中使用半波整流(将负值重设为0)来保证得到非负的幅度谱,但这种对负值的非线性处理,会导致信号帧频谱的随机频率位置上出现小的、独立的峰值,转换到时域,这些峰值听起来就像是帧与帧之间频率随机变化的多频音,被称为“音乐噪声”。
[0005]为了减弱谱减法所带来的音乐噪声,Berouti提出频谱过减算法,通过使用过减因子来减小频谱相减残留的宽带谱峰的幅度,使用频谱下限因子来填充谱谷(频谱相减的负值)从而控制残留噪声的多少以及音乐噪声的大小。过减因子和频谱下限因子为谱减法提供了极大的灵活性,在低信噪比下(语音的低能量段或无语音期间)选取较小的过减因子,在高信噪比下(有语音存在)选取较大的过减因子可以更好地抑制噪声同时又能够达到最小的音乐噪声。如果频谱下限因子太大,则可能听到残留噪声信号但是感觉不到音乐噪声,如果频谱下限因子太小,则可能带来令人讨厌的音乐噪声,但是原噪声信号可以被极大地抑制。实验表明,在低信噪比下,频谱下限因子的取值范围为0.02到0.06,高信噪比下,频谱下限因子的取值范围为0.005到0.02,可以减小谱减过程所带来的音乐噪声。
[0006]谱减法以及过减谱减法都是在稳态的背景噪声环境下成立的,即噪声对语音的所有频谱分量具有同等程度的影响。但是现实世界中的背景噪声是随时变化的,不同的干扰噪声对语音各个频段的影响不尽相同,某些类型的干扰噪声对低频的影响要大于对高频的影响。因此需要使用一个与频率相关的减法因子来处理不同类型的干扰噪声,从而减小谱
减法所带来的音乐噪声。同时不同信噪比下经过谱减过程后残余噪声量也不尽相同,低信噪比下的残余噪声量相对比高信噪多。过减谱减法使用统一的频谱下限因子没有将残余噪声控制到较低的水平,因此需要一个随信噪比变化的谱底优化函数来控制不同信噪比下的残余噪声。通过设计一个随信噪比变化的谱底优化函数对不同噪声条件下的谱谷进行不同程度填充,可以将残余噪声控制在较低水平。
[0007]例如《A multi

band spectral subtraction method for enhancing speech corrupted by colored noise》(S.Kamath,and P.C.Loizou,《声学、语音和信号处理国际会议论文集》,第4160

4164页,2002年5月)提出了多带谱减算法(multi

band spectral subtraction,MBSS)如图1所示,MBSS将语音频谱划分为N个互不重叠的子带,分别在每个子带上进行频谱过减,且针对每个子带上噪声的不同设置相应的微调因子来减小噪声估计与真实噪声分量的偏差,从而减小了谱减过程所带来的音乐噪声。MBSS在谱减法的基础上使用微调因子来处理不同类型的干扰噪声,在一定程度上减小了音乐噪声。
[0008]再例如《Enhancement of speech corrupted by acoustic noise》(M.Berouti等,IEEE国际声学会议,语音,信号处理,第208

211页,1979年4月)提出过减谱减法,通过使用过减因子来减小频谱相减残留的宽带谱峰的幅度,达到降低频谱噪声峰值的目的。使用频谱下限因子来填充谱谷(频谱相减的负值),从而达到减小残留的小谱峰的差异,控制残留噪声的多少以及音乐噪声大小的目的,但真实环境下噪声是不断变化的,不同的干扰噪声对语音各个频段的影响不尽相同。
[0009]现有技术中还有使用随听觉掩蔽阈值变化的频谱下限函数以及过减因子的函数来使语言特征能够得到最大程度的保留,但没有给出最小最大频谱下限因子的参数值,没有模拟出具体的随听觉掩蔽阈值变化的频谱下限因子的变化,从而没有将残余噪声降低到较低的水平。

技术实现思路

[0010]为了克服现有过减谱减法通过在平稳的噪声环境下使用过减因子与频谱下限因子来减小音乐噪声,但真实环境下噪声是不断变化的,不同的干扰噪声对语音各个频段的影响不尽相同,效果不理想;现有带谱减法使用一个固定的频谱下限因子没有将残余噪声控制到较低的水平,同样效果不理想的问题,本专利技术在多带谱减法的基础上设计了一个随信噪比变化的谱底优化函数对不同噪声条件下的谱谷进行不同程度填充,旨在将不同信噪比下的残余噪声量控制到较低水平,以达到减小谱减过程所带来的音乐噪声,从而提高语音质量,提出一种基于自适应谱底优化的多带谱减法的语音增强方法。
[0011]为达到上述目的,本专利技术采用的技术方案为:
[0012]一种基于自适应谱底优化的多带谱减法的语音增强方法,其特殊之处在于,包括以下步骤:
[0013]步骤1、对带噪语音进行分帧、加窗,分为N个互不重叠的连续子带,N≥1,N为整数,通过FFT估计每个子带的幅度谱以及相位信息,同时,根据每个子带的带噪语音频谱获得频谱估计将每个子带的带噪语音频谱经过预处理得到带噪语音频
谱的平滑估计
[0014]其中i为第i个子带,λ为第i个子带中的第λ帧,ω为第λ帧的频率;
[0015]步骤2、分别在每个子带上进行频谱过减,并计算每个子带的微调因子δ
i

[0016]步骤3、结合每个子带的幅度谱和平滑估计,计算每个子带的过减因子α
i
以及频谱下限因子β
i

[0017]第i个子带的频谱过减因子α
i
由分段信噪比得到;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应谱底优化的多带谱减法的语音增强方法,其特征在于,包括以下步骤:步骤1、对带噪语音进行分帧、加窗,分为N个互不重叠的连续子带,N≥1,N为整数,通过FFT估计每个子带的幅度谱以及相位信息,同时,根据每个子带的带噪语音频谱获得频谱估计将每个子带的带噪语音频谱经过预处理得到带噪语音频谱的平滑估计其中i为第i个子带,λ为第i个子带中的第λ帧,ω为第λ帧的频率;步骤2、分别在每个子带上进行频谱过减,并计算每个子带的微调因子δ
i
;步骤3、结合每个子带的幅度谱和平滑估计,计算每个子带的过减因子α
i
以及频谱下限因子β
i
;第i个子带的频谱过减因子α
i
由分段信噪比得到;第i个子带的分段信噪比为SNR
i
:其中,c
i
与c
i+1
为第i个子带的频率起点和频率终点;ω在c
i
与c
i+1
之间;为带噪语音第i个子带的频谱估计;使用分段信噪比SNR
i
,获得频谱过减因子α
i
为:获得频谱下限因子β
i
为:步骤4、利用自适应谱底优化函...

【专利技术属性】
技术研发人员:仝秋娟黄路韩欢
申请(专利权)人:西安邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1