基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质技术方案

技术编号:21226479 阅读:46 留言:0更新日期:2019-05-29 07:16
本发明专利技术提供了一种基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质,该目标语音信号增强方法包括:步骤1:接收带噪语音信号,对带噪语音信号进行分帧加窗处理,使用短时傅里叶变换得到时频域的关系;步骤2:对噪声功率谱进行估计;步骤3:语音功率谱的估计;步骤4:通过语音估计器对语音信号进行估计;步骤5:反傅里叶变换,加窗并使用交叠相加技术实现语音恢复。本发明专利技术的有益效果是:本发明专利技术有效地把目标语音信号分离出来,大大减小了语音信号中的噪声残余量,使得目标信号的质量大大提高。这对自动语音识别、说话人识别、人机对话接口以及助听器等应用有着非常重要的作用。

Augmentation Method, System and Storage Media of Target Speech Signal Based on Continuous Noise Tracking

The invention provides a target speech signal enhancement method, system and storage medium based on continuous noise tracking. The target speech signal enhancement method includes: step 1: receiving noisy speech signal, processing noisy speech signal by frame windowing, using short-time Fourier transform to obtain time-frequency relationship; step 2: estimating noise power spectrum; step 3: voice. Estimation of power spectrum; Step 4: Estimation of speech signal by speech estimator; Step 5: Reverse Fourier transform, windowing and overlapping summation technology to achieve speech recovery. The beneficial effect of the present invention is that the target speech signal is effectively separated, the residual noise in the speech signal is greatly reduced, and the quality of the target signal is greatly improved. It plays an important role in automatic speech recognition, speaker recognition, human-computer interface and hearing aids.

【技术实现步骤摘要】
基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质
本专利技术涉及语音处理
,尤其涉及基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质。
技术介绍
生活中处处存在着噪声,语音增强算法的目的在于提高被噪声污染的目标语音信号的质量和可懂度。现有的语音增强算法通常采用语音活动检测器来估计背景噪声进而实现目标信号增强,这些算法在平稳噪声环境以及高信噪比条件下表现的良好。然而,当在低信噪比特别是在非平稳噪声环境下,这些算法的性能表现地非常有限。由于生活中的噪声比较复杂,例如汽车,火车通过,行人说话聊天都会产生各种噪声,开发一种能在非平稳噪声条件下很好工作的语音增强算法是非常有必要的。
技术实现思路
本专利技术提供了一种基于连续噪声跟踪的目标语音信号增强方法,包括如下步骤:步骤1:接收带噪语音信号,对带噪语音信号进行分帧加窗处理,然后使用短时傅里叶变换得到时频域的关系;步骤2:对噪声功率谱进行估计;步骤3:纯净语音功率谱的估计;步骤4:通过语音估计器对纯净语音信号进行估计,对于语音估计器的先验信噪比,利用判决引导算法估计器来实现;步骤5:反傅里叶变换,加窗并使用交叠相加技术实现纯净语音恢复。作为本专利技术的进一步改进,在所述步骤2中,使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。作为本专利技术的进一步改进,在所述步骤3中,使用基于语音存在概率的最小均方误差估计器来实现语音功率谱的计算。作为本专利技术的进一步改进,在所述步骤4中,运用基于广义伽马的先验概率模型得到最小均方误差语音增强算法。本专利技术还提供了一种基于连续噪声跟踪的目标语音信号增强系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本专利技术所述的方法的步骤。本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本专利技术所述的方法的步骤。本专利技术的有益效果是:本专利技术有效地把目标语音信号分离出来,大大减小了语音信号中的噪声残余量,使得目标信号的质量大大提高。这对自动语音识别、说话人识别、人机对话接口以及助听器等应用有着非常重要的作用。附图说明图1是本专利技术的框架图。图2是跟踪快速变化的噪声示意图。图3是语音波形图,其中图(a)是纯净语音图、图(b)是带噪语音图、图(c)是增强后的语音图。具体实施方式本专利技术公开了一种基于连续噪声跟踪的目标语音信号增强方法,能够针对生活中的噪声实现有效的目标源信号与背景噪声的分离。如图1所示,本专利技术的框架包括两个主要部分:语音估计器,噪声跟踪器。信号模型:我们考虑加性信号模型,y(n)=x(n)+d(n),其中y(n)是带噪语音信号,x(n)和d(n)分别代表纯净语音信号和噪声信号。通过使用短时傅里叶变换得到时频域的关系,Y(l,k)=X(l,k)+D(l,k),其中l和k分别代表帧数和频率点的索引。其极坐标的表示形式为:Y=Rejα,X=Aejβ和D=Nejθ。E{|X(l,k)|2}=λx和E{|D(l,k)|2}=λd分别是语音与噪声信号的方差。从图1我们看到方法的主要流程:1.对带噪语音信号进行分帧加窗处理,然后做短时傅里叶变换→2.噪声功率谱估计→3.先验信噪比估计→4.语音信号估计→5.综合(反傅里叶变换,加窗并使用交叠相加技术实现语音恢复)。基于连续噪声跟踪的目标语音信号增强方法,包括如下步骤:在步骤1中:接收带噪语音信号,对带噪语音信号进行分帧加窗处理,然后使用短时傅里叶变换得到时频域的关系。噪声跟踪器:为了估计噪声功率谱,我们提出使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。所以,在步骤2中,使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。利用贝叶斯准则,我们能得到最小均方误差估计器,式子如下在公式(1)中,n(N)代表噪声谱变量,θ代表噪声短时傅里叶变换系数的角度(实部与虚部有一个角度),由于纯净语音与噪声的傅里叶系数被假定为服从高斯分布的,我们可以得到在公式(2)中,n(N)代表噪声谱变量,λd代表噪声功率谱密度,其中λx代表语音功率谱密度,通过推导我们得到其中ξ=λx/λd和γ=R2/λd分别代表先验信噪比和后验信噪比,R=|Y(l,k)|是带噪语音短时傅里叶变换系数的幅度。从公式(3)我们可以看出噪声估计器以来先验信噪比的计算,而先验信噪比的计算需要语音功率谱的信息。所以下一步骤是纯净语音功率谱的估计。步骤3:纯净语音功率谱的估计,使用基于语音存在概率的最小均方误差估计器来实现语音功率谱的计算,其表达式为在公式(4)中,A(a)均代表语音谱幅度,大写代表的是变量,小写代表的是变量的取值,前面的噪声和此情况一样。H1和H0代表二元假设,分别指语音存在与不存在两种情况。由于第二部分为零,所以我们只需要计算第一部分。通过使用贝叶斯公式可以算出在公式(5)中,β指的语音短时傅里叶变换系数的角度。进而通过推导并且使用特殊的积分函数贝塞尔函数积分,我们得到对于语音存在概率我们通过使用固定的先验信噪比得到一个简单有效的概率估计方法。概率计算公式为在公式(7)中,代表先验信噪比的估计值。语音估计器:该算法运用基于广义伽马的先验概率模型得到最小均方误差语音增强算法。先验的广义伽马概率模型为在公式(8)中,a代表的变量是是语音谱幅度,其他参数均为伽马模型的形状参数。我们参数选择为μ=1和ν=6。对于语音估计器的先验信噪比,我们利用判决引导算法估计器来实现。为了评估本专利技术方法的性能,我们做了大量的实验并证明了该方法能够有效地抑制非平稳噪声从而实现目标语音信号的增强。通过图2和图3,我们可以更加直观的看出该方法能实现了高效的噪声跟踪以及非平稳噪声的抑制。图2显示了跟踪噪声的实验结果,我们可以非常清楚的看到所提出的噪声跟踪器能够快速并且准确的跟踪噪声水平的快速变化。图3表示干净语音,带噪语音以及增强后的语音的波形图,我们可以非常直观的看到非平稳噪声被抑制得很好。总体上,该方法对非平稳噪声的抑制起到了非常好的效果。本专利技术具有如下有益效果:1.本专利技术的目标语音信号增强方法不再需要语音活动检测器来检测语音段与语音段。2.即使在语音段内也能够连续的对噪声进行跟踪,对快速变化的噪声水平的完成了准确的跟踪与估计。3.有效地把目标语音信号分离出来,大大减小了语音信号中的噪声残余量,使得目标信号的质量大大提高。这对自动语音识别、说话人识别、人机对话接口以及助听器等应用有着非常重要的作用。以上内容是结合具体的优选实施方式对本专利技术所作的进一步详细说明,不能认定本专利技术的具体实施只局限于这些说明。对于本专利技术所属
的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本专利技术的保护范围。本文档来自技高网
...

【技术保护点】
1.一种基于连续噪声跟踪的目标语音信号增强方法,其特征在于,包括如下步骤:步骤1:接收带噪语音信号,对带噪语音信号进行分帧加窗处理,然后使用短时傅里叶变换得到时频域的关系;步骤2:对噪声功率谱进行估计;步骤3:纯净语音功率谱的估计;步骤4:通过语音估计器对纯净语音信号进行估计,对于语音估计器的先验信噪比,利用判决引导算法估计器来实现;步骤5:反傅里叶变换,加窗并使用交叠相加技术实现纯净语音恢复。

【技术特征摘要】
1.一种基于连续噪声跟踪的目标语音信号增强方法,其特征在于,包括如下步骤:步骤1:接收带噪语音信号,对带噪语音信号进行分帧加窗处理,然后使用短时傅里叶变换得到时频域的关系;步骤2:对噪声功率谱进行估计;步骤3:纯净语音功率谱的估计;步骤4:通过语音估计器对纯净语音信号进行估计,对于语音估计器的先验信噪比,利用判决引导算法估计器来实现;步骤5:反傅里叶变换,加窗并使用交叠相加技术实现纯净语音恢复。2.根据权利要求1所述的目标语音信号增强方法,其特征在于,在所述步骤2中,使用噪声功率的最小均方误差估计器来对噪声功率谱进行估计。3.根据权利要求2所述的目标语音信号增强方法,其特征在于,在所述步骤2中,利用贝叶斯准则,能得到最小均方误差估计器,式子如下在公式(1)中,n(N)代表噪声谱变量,θ代表噪声短时傅里叶变换系数的角度,由于纯净语音与噪声的傅里叶系数被假定为服从高斯分布的,我们可以得到在公式(2)中,n(N)代表噪声谱变量,λd代表噪声功率谱密度,其中λx代表语音功率谱密度,通过推导我们得到其中ξ=λx/λd...

【专利技术属性】
技术研发人员:张啟权王明江陆云韩宇菲张禄孙凤娇
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1