一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法技术

技术编号:19323409 阅读:31 留言:0更新日期:2018-11-03 12:21
本发明专利技术公开了一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,包括:(1)采用改进的最小控制值递归平均算法,得到原始带噪语音的噪声功率谱估计;(2)结合求出的噪声功率谱估计对带噪语音信号进行初次谱减;(3)对初次谱减后的信号进行基于加权似然比失真测度的贝叶斯估计,计算信号的最优估计幅度谱;(4)利用人耳掩蔽效应计算第二次谱减的减参数;(5)在第二次谱减前再次进行IMCRA噪声估计,进行第二次谱减,得到最终的增强语音信号;(6)对增强后的语音信号进行反傅里叶变换得到最终的增强语音。本发明专利技术在提高算法消噪能力的同时,更好地保证了语音可懂度,从而提升了语音增强的整体效果。

An improved spectral subtraction method based on human ear masking effect and Bayesian estimation

The invention discloses an improved spectral subtraction method based on human ear masking effect and Bayesian estimation, which includes: (1) using an improved recursive average algorithm of minimum control value to obtain the noise power spectrum estimation of the original noisy speech; (2) combining the obtained noise power spectrum estimation to carry out the initial spectral subtraction of the noisy speech signal; (3) carrying out the initial spectral subtraction of the noisy speech signal; (3) carrying out the initial spectral subtraction of the noisy speech signal. Bayesian estimation based on weighted likelihood ratio distortion measure is used to calculate the optimal estimated amplitude spectrum of the signal; (4) the reduction parameters of the second spectral subtraction are calculated by using the human ear masking effect; (5) IMCRA noise is estimated again before the second spectral subtraction, and the second spectral subtraction is carried out to obtain the final enhanced speech signal; (6) The enhanced speech is obtained by inverse Fourier transform of the enhanced speech signal. The invention improves the noise elimination ability of the algorithm, at the same time, better guarantees the speech intelligibility, thereby improving the overall effect of speech enhancement.

【技术实现步骤摘要】
一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法
本专利技术涉及一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,属于语音信号处理

技术介绍
语音是人与人之间重要的信息交流方式,但在人们利用语音进行交流与通信的过程中,总会受到各种噪声的干扰。带噪语音不仅会增加人的听觉疲劳、降低语音通信质量,而且也会使基于特征参数提取的语音处理系统性能下降。所以,为了减小背景噪声对语音质量的影响,需要进行语音增强来抑制背景噪声。谱减法是一种传统的增强算法,其基本思想是:分别计算带噪语音信号短时幅度谱与估计的噪声信号的短时幅度谱,进行平方运算然后相减。恢复出增强语音信号时将这个结果开方,再插入带噪语音信号的相位,进行反离散傅里叶变换。谱减法的通用形式为:Y(ω)为带噪语音的频谱信号,为噪声的频谱信号,为增强语音的频谱信号,P为1是幅度谱减,P为2是功率谱减。谱减法的优点是运算量小,容易实现,增强效果也较好。但因为没有对语音频谱的分布进行假设,谱减法在进行增强处理后,会带来音乐噪声,这不仅对听者在听觉效果上产生一定的干扰影响,还影响后续处理,如语音编码等。因此,如何有效抑制音乐噪声,并权衡考虑增强后的语音失真与去噪效果,是改进谱减法,使其能充分发挥自身优势的重点所在。结合人耳听觉掩蔽效应,是消除谱减法音乐噪声的一个重要思路,有人将谱减公式改进为:Yw(ω)为带噪语音的频谱信号,为增强语音的频谱信号,现有的技术方案所使用的噪声估计算法大多不够精确,如话音活动检测(VAD)或最小值统计,前者的可靠性会随着信噪比的减小而降低,而后者响应速度慢,这都会影响噪声估计的准确度,降低语音增强的效果。而且当前的技术方案也多存在一个误区,过于注重对音乐噪声的消除,反而影响了语音信号的可懂度,破坏了语音信号,甚至还会降低信噪比。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的缺陷,提供一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,采用改进的最小控制值递归平均算法(IMCRA)进行噪声估计,对带噪语音进行两次谱减,并于两次谱减之间对语音信号进行基于加权似然比(WLR)失真测度的贝叶斯估计,以此来增强语音信号。为解决上述技术问题,本专利技术提供一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,包括以下步骤:1)采用改进的最小控制值递归平均算法,对原始带噪语音进行噪声估计,得到噪声功率谱估计;2)结合步骤1)求解的噪声功率谱估计对带噪语音信号进行初次谱减;3)对初次谱减后的带噪语音信号进行基于加权似然比失真测度的贝叶斯估计,计算信号增强谱;4)利用人耳掩蔽效应计算第二次谱减的减参数;5)再次采用改进的最小控制值递归平均算法进行噪声估计,利用步骤4)计算的减参数对信号增强谱进行第二次谱减,得到最终的增强语音信号;6)对增强后的语音信号进行反傅里叶变换,得到最终的增强语音。前述的步骤1),噪声功率谱估计的具体求解如下:11)对离散时间带噪语音信号y(n)的M个样本加窗,并进行M点的FFT,将带噪语音信号变换到频域,得到带噪语音的频域信号Y(λ,k),其中,y(n)=d(n)+x(n),d(n)为噪声信号,x(n)为纯净信号,n代表不同时刻;λ为帧数标记,k,k=0,1,2,…,M-1表示频点;12)对带噪语音的频域信号进行第一次平滑,采用公式(1)计算平滑功率谱S(λ,k),并不断更新其最小值Smin(λ,k);S(λ,k)=αsS(λ-1,k)+(1-αs)Sf(λ,k)(1)其中,αs为平滑因子,其中,w(i)为Hanning窗函数,Lw为i的取值上限;最小值Smin(λ,k)的更新如下:首先设置一个临时变量Stmp(λ,k),初始化Stmp(0,k)=S(0,k),如果当前帧数λ能够被D整除,则Smin(λ,k)根据公式(3)进行更新,同时将Stmp(λ,k)设为S(λ,k):Smin(λ,k)=min{Stmp(λ-1,k),S(λ,k)}(3)如果当前帧数λ不能够被D整除,那么先依据公式(4)更新Smin(λ,k),同时再根据公式(5)更新临时变量Stmp(λ,k):Smin(λ,k)=min{Smin(λ-1,k),S(λ,k)}(4)Stmp(λ,k)=min{Stmp(λ-1,k),S(λ,k)}(5)13)利用Smin(λ,k),通过公式(6)计算指示函数I(λ,k):其中,γ0与ζ0为阈值参数,且其中,Bmin表示最小噪声估计的偏差;14)根据指示函数I(λ,k)进行第二次平滑,利用公式(8)、公式(9)计算平滑功率谱密度并实时更新最小值15)利用通过公式(10)、公式(11)计算不存在语音的先验概率q(λ,k):其中,γ1,为阈值参数;16)计算语音存在概率p(λ,k):其中,γk(λ)和ξk(λ)分别为频点k的后验信噪比与先验信噪比,其中,是前一帧经过补偿后的噪声功率谱估计,αq为权重因子,为对数增益函数,为一个指数积分,t为积分变量;17)利用语音存在概率p(λ,k)通过公式(16)计算平滑参数αd(λ,k),并根据公式(17)和公式(18)更新噪声谱,其中,为计算的噪声功率谱估计,为经过补偿后的噪声功率谱估计,αi取0.8,βi为偏差补偿因子,取1.47。前述的步骤2),初次谱减后的功率谱如下:其中,为初次谱减后的功率谱,|Y(w)|2为原始带噪语音的功率谱,w表示频率变量,噪声功率谱估计即步骤1)中的前述的步骤3),计算信号增强谱具体过程如下:31)采用加权似然比作为贝叶斯估计的失真测度,计算初次谱减后信号的最优幅度谱,其中,贝叶斯估计的失真测度为:其中,Xk为纯净信号谱在频点k的幅度,为噪声估计谱在频点k的幅度;将贝叶斯风险对求导,得到下式:其中,bk=E[Xk|Y(ωk)],为最小均方误差估计,p(Xk|Y(ωk))为Xk的后验概率密度函数,表示已知带噪语音谱Y(ωk)存在概率下,纯净信号谱Xk的存在概率,ωk即频点k处的频率值,其中,ρk为ωk处后验信噪比,vk=ρkψk/(1+ψk),ψk为ωk处先验信噪比,ψk=a+(1-a)max[ρk-1,0],a为一个权重因子;对公式(21)求零点得到信号最优幅度谱32)利用最优幅度谱构建频点k的信号增强谱其中,θy(k)为频点k处的相位;33)将所有频点处的信号增强谱叠加,得到最终的信号增强谱前述的步骤4),第二次谱减的减参数的计算过程为:41)计算关键频带的能量Bi:其中,bhi、bli分为关键频带i的频率上限和下限,i=1,…,imax,imax取决于采样频率fs,P(w)为经过初次谱减和基于加权似然比失真测度的贝叶斯估计后信号的功率谱;42)计算扩展频谱Ci:Ci=Sij*Bi其中,Sij为扩展矩阵,其中,Δ=i-j,i,j=1,…,imax,i是被掩蔽信号的bark频率,j是掩蔽信号的bark频率;43)计算噪声掩蔽阈值,具体包括:431)引入音调系数αto:其中,SFM为谱平坦测度,SFMdBmax=-60dB,Gm、Am分为功率谱P(w)的几何平均与算数平均;432)定义每个Bark段i掩蔽能量的偏移函数Oi:Oi=αto(14.5+i)+(1-αto)5.5(25)433)计算扩展后的掩蔽阈值Ti:Ti=10log10(Ci)-0.1Oi(2本文档来自技高网
...

【技术保护点】
1.一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,其特征在于,包括以下步骤:1)采用改进的最小控制值递归平均算法,对原始带噪语音进行噪声估计,得到噪声功率谱估计;2)结合步骤1)求解的噪声功率谱估计对带噪语音信号进行初次谱减;3)对初次谱减后的带噪语音信号进行基于加权似然比失真测度的贝叶斯估计,计算信号增强谱;4)利用人耳掩蔽效应计算第二次谱减的减参数;5)再次采用改进的最小控制值递归平均算法进行噪声估计,利用步骤4)计算的减参数对信号增强谱进行第二次谱减,得到最终的增强语音信号;6)对增强后的语音信号进行反傅里叶变换,得到最终的增强语音。

【技术特征摘要】
1.一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,其特征在于,包括以下步骤:1)采用改进的最小控制值递归平均算法,对原始带噪语音进行噪声估计,得到噪声功率谱估计;2)结合步骤1)求解的噪声功率谱估计对带噪语音信号进行初次谱减;3)对初次谱减后的带噪语音信号进行基于加权似然比失真测度的贝叶斯估计,计算信号增强谱;4)利用人耳掩蔽效应计算第二次谱减的减参数;5)再次采用改进的最小控制值递归平均算法进行噪声估计,利用步骤4)计算的减参数对信号增强谱进行第二次谱减,得到最终的增强语音信号;6)对增强后的语音信号进行反傅里叶变换,得到最终的增强语音。2.根据权利要求1所述的一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,其特征在于,所述步骤1),噪声功率谱估计的具体求解如下:11)对离散时间带噪语音信号y(n)的M个样本加窗,并进行M点的FFT,将带噪语音信号变换到频域,得到带噪语音的频域信号Y(λ,k),其中,y(n)=d(n)+x(n),d(n)为噪声信号,x(n)为纯净信号,n代表不同时刻;λ为帧数标记,k,k=0,1,2,…,M-1表示频点;12)对带噪语音的频域信号进行第一次平滑,采用公式(1)计算平滑功率谱S(λ,k),并不断更新其最小值Smin(λ,k);S(λ,k)=αsS(λ-1,k)+(1-αs)Sf(λ,k)(1)其中,αs为平滑因子,其中,w(i)为Hanning窗函数,Lw为i的取值上限;最小值Smin(λ,k)的更新如下:首先设置一个临时变量Stmp(λ,k),初始化Stmp(0,k)=S(0,k),如果当前帧数λ能够被D整除,则Smin(λ,k)根据公式(3)进行更新,同时将Stmp(λ,k)设为S(λ,k):Smin(λ,k)=min{Stmp(λ-1,k),S(λ,k)}(3)如果当前帧数λ不能够被D整除,那么先依据公式(4)更新Smin(λ,k),同时再根据公式(5)更新临时变量Stmp(λ,k):Smin(λ,k)=min{Smin(λ-1,k),S(λ,k)}(4)Stmp(λ,k)=min{Stmp(λ-1,k),S(λ,k)}(5)13)利用Smin(λ,k),通过公式(6)计算指示函数I(λ,k):其中,γ0与ζ0为阈值参数,且其中,Bmin表示最小噪声估计的偏差;14)根据指示函数I(λ,k)进行第二次平滑,利用公式(8)、公式(9)计算平滑功率谱密度并实时更新最小值15)利用通过公式(10)、公式(11)计算不存在语音的先验概率q(λ,k):其中,γ1,为阈值参数;16)计算语音存在概率p(λ,k):其中,γk(λ)和ξk(λ)分别为频点k的后验信噪比与先验信噪比,其中,是前一帧经过补偿后的噪声功率谱估计,αq为权重因子,为对数增益函数,为一个指数积分,t为积分变量;17)利用语音存在概率p(λ,k)通过公式(16)计算平滑参数αd(λ,k),并根据公式(17)和公式(18)更新噪声谱,其中,为计算的噪声功率谱估计,为经过补偿后的噪声功率谱估计,αi取0.8,βi为偏差补偿因子,取1.47。3.根据权利要求2所述的一种基于人耳掩蔽效应与贝叶斯估计的...

【专利技术属性】
技术研发人员:邓立新吴卫鹏
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1