基于多域联合估计的自适应语音检测方法技术

技术编号:10126281 阅读:137 留言:0更新日期:2014-06-12 18:03
本发明专利技术公开一种基于多域联合估计的自适应语音检测方法,能在复杂环境中自适应检测语音,准确性和可靠性好,检测复杂度低。本发明专利技术的语音检测方法,包括:信号预处理,频谱稳定性判断,平稳噪声语音检测,非平稳噪声语音检测,语音段信号输出。

【技术实现步骤摘要】
基于多域联合估计的自适应语音检测方法
本专利技术属于语音检测
,特别是一种基于多域联合估计的自适应语音检测方法。
技术介绍
现有通信设备多代共存,且通信频段、调制方式、数据速率、数据帧格式各不相同,难以实现直接互联互通;通信环境复杂多变,语音通信的保障难度加大。语音检测技术是语音信号处理的前端,直接影响着语音识别、语音增强、说话人识别等后续处理,在语音通信中起着重要作用。语音检测技术大致分为两类:门限比较法和模型匹配法。门限比较法根据语音和噪声的不同特性,提取不同的特征参数,设置合适的门限进行判决,主要可以分为时域和变换域两类。时域检测方法主要有短时能量法、短时平均幅度法(AMDF)、短时平均幅度差法、短时平均过零率、短时自相关函数等。变换域检测方法主要有谱熵法、倒谱法、频带差法、小波分析法等。模型匹配法主要有贝里斯模型匹配、神经网络模型法等。下面是几种现有的语音检测方法的简介。1、短时平均幅度差法(AMDF)语音信号的浊音具有准周期性,在一帧语音信号内,信号近似平稳,基音周期近似相等,若为语音信号的浊音,在整数倍周期的位置会出现极小值,在这些点上信号幅度差近似为0;但清音和噪声不具备周期性的特点,不同周期的信号幅度差值较大。短时平均幅度差法在高信噪比下具有很好的语音检测效果,由于只有加减运算,计算量比自相关函数法显著降低;但在低信噪比的环境下,检测效果较差。2、短时自相关函数法自相关函数值,两个极大值之间为一个信号周期,即为基音周期。短时自相关函数法适合噪声环境下的语音信号检测,语音信号在低信噪比的情况下基音周期不发生变化,检测效果明显好于短时能量和短时平均幅度法;但是信号丰富的谐波分量会影响基音周期的检测结果,会出现倍频或者分频的情况。3、谱熵法谱熵体现了语音信号和噪声在整个信号中的分布情况。语音信号的频率大致分布在100~4000Hz,分布比较集中,熵值比较小;而背景噪声在频谱中的分布比较均匀,频谱比较平坦,谱熵值比较大,根据语音信号和噪声的不同谱熵值,设置合理的门限可以完成语音检测的目的。谱熵法是性能较好的频域端点检测算法,它对噪声具有一定的鲁棒性,尤其在具有机械噪声的非稳定噪声环境下,具有较好的检测效果;但在低信噪比的环境下,检测效果不够理想。4、能量谱熵法(ESE)在非稳定噪声环境下,短时能量法很难区分语音信号和背景噪声,而谱熵法具有很好的检测特性;谱熵法在嘈杂噪声和音乐噪声下检测效果较差,而短时能量法具有很好的检测特性。将能量法和谱熵法结合起来,实现两种方法间的互补,提高了语音检测效果。图9是ESE的检测流程图。5、倒谱距离法X(w)是x(n)对应分傅里叶变换,则c(n)可以看作是X(w)的对数傅里叶级数展开,即:其中,对于一对谱密度函数X1(w)和X2(w),根据帕斯瓦尔定理,倒谱距离为:用k阶倒谱系数可以近似表示为:在平稳噪声环境中,即使信噪比比较低,倒谱距离法可以很好的区分语音段和非语音段,通过设置合适的门限,对信号进行检测;但在有非平稳噪声的环境中,倒谱距离法难以区分语音段和非语音段。6、小波分析法小波分析法不仅能够同时反映信号的时频域信息,还可以精确分析信号的细节,具有很强的信号分析能力,使用此方法实现对信号的特征提取,尤其对含有非平稳噪声的信号,可以很好的区分语音信号和噪声信号。小波分析在低频部分具有较高的频率分辨率和较低的时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率,对信号分析能力大大提高。语音信号在各个小波子带内的能量分布时不均匀的,主要集中在低频子带内;噪声信号在各个小波子带内的能量分布比较均匀。利用各层小波子带系数所携带的信号能量进行语音检测。7、神经网络端点检测模型本文用于语音端点检测的神经网络是众多神经网络算法中很有代表性的一种:BP网格。它是误差反向传播算法,具有非线性映射、学习能力、并行性和分布式等优点。图10是BP神经网络算法模型。针对一组输入信号,计算其输出能量误差,再按照梯度下降准则,通过调整各个权值,可使输出误差能量减小,这就是反向误差传播算法。算法的关键是通过减小输出误差,达到理想输出结果,这个迭代过程是学习过程。根据理想和实际输出结果可以得到隐层到输出层的权值调整值,在计算输入层到隐层的权值调整参数,通过两次计算就完成了一次训练过程,然后反复多次进行,不断修正权值,使得实际值和理想值逐步接近,设置合适的精度或者学习次数就可以结束训练过程。神经网络模型用于语音端点检测,首先确定一段信号作为神经网络的训练样本,提取特征值,作为神经网络的输入,进行训练。训练时要告知网络输入的特征值是语音段还是噪声段,然后输入要检测的信号特征值,通过门限设置,可以得到检测结果。上述各种语音检测技术都可以独立进行检测,但是都只关注了语音的某一种特征,一旦这种特征不明显,就不能进行正确的语音检测。现有语音检测技术只考虑单一背景噪声下,针对平稳噪声或者某种特定噪声的噪声特性对语音检测方法优化,对语音进行时域、频域或时频域分析,提取语音特征进行检测。但当环境发生变化时,检测性能迅速下降。因此,由于现有检测技术检测目标单一,针对的背景噪声单一,如应用于复杂环境,则检测效果很差,不能正确检测出语音信号的起止点。
技术实现思路
本专利技术的目的在于提供一种基于多域联合估计的自适应语音检测方法,在复杂环境应用中,准确性和可靠性好,检测复杂度低。实现本专利技术目的的技术解决方案为:一种基于多域联合估计的自适应语音检测方法,包括如下步骤:(10)信号预处理:对输入信号进行滤波、采样、量化、分帧和加窗处理,得到预处理信号;(20)频谱稳定性判断:对预处理信号的噪声段进行稳定性检测,判断背景噪声是平稳噪声或非平稳噪声;(30)平稳噪声语音检测:对平稳噪声下的信号进行语音检测,得到检测语音信号;(40)非平稳噪声语音检测:对非平稳噪声下的信号进行语音检测,得到检测语音信号;(50)语音段信号输出:在检测语音信号的语音终止帧后加几帧拖尾延迟保护,输出语音段信号。本专利技术与现有技术相比,其显著优点:1、准确性高,可靠性好:利用自适应多域联合估计语音检测算法,通过对不同背景噪声的分类,采用针对性的方法,对信号进行时域、频域和小波域等多域分析,提取了信号多种特征进行综合判决,提高了语音检测的准确性和可靠性;2、检测复杂度低:同时有效降低了运算复杂度,大幅度提升语音识别的鲁棒性,对复杂环境下的噪声干扰检测能力较强,对实现下通信设备之间的互联互通具有重要作用。在平稳噪声环境、信噪比不低于6dB下,进行了实验仿真,正确检测概率达到100%。下面结合附图和具体实施方式对本专利技术作进一步的详细描述。附图说明图1为本专利技术基于多域联合估计的自适应语音检测方法主流程图。图2为图1中信号预处理步骤流程图。图3为图1中噪声频谱稳定性判断步骤流程图。图4为图1中平稳噪声语音检测步骤流程图。图5为图4中高信噪比语音检测步骤流程图。图6为图4中低信噪比语音检测步骤流程图。图7为图1中非平稳噪声语音检测步骤流程图。图8为图7中语音信号检测步骤流程图。图9为计算ESE特征值步骤流程图。图10为BP神经网络示意图。具体实施方式如图1所示,本专利技术基于多域联合估计的自适应语音检测方法,包括如下步骤:(10)信号预处理:对输入本文档来自技高网
...
基于多域联合估计的自适应语音检测方法

【技术保护点】
一种基于多域联合估计的自适应语音检测方法,其特征在于,包括如下步骤:10)信号预处理:对输入信号进行滤波、采样、量化、分帧和加窗处理,得到预处理信号;20)频谱稳定性判断:对预处理信号的噪声段进行频谱稳定性检测,判断背景噪声是平稳噪声或非平稳噪声;30)平稳噪声语音检测:对平稳噪声下的信号进行语音检测,得到检测语音信号;40)非平稳噪声语音检测:对非平稳噪声下的信号进行语音检测,得到检测语音信号;50)语音段信号输出:在检测语音信号的终止帧后加几帧拖尾延迟保护,输出语音段信号。

【技术特征摘要】
1.一种基于多域联合估计的自适应语音检测方法,其特征在于,包括如下步骤:(10)信号预处理:对输入信号进行滤波、采样、量化、分帧和加窗处理,得到预处理信号;(20)频谱稳定性判断:对预处理信号的噪声段进行频谱稳定性检测,判断背景噪声是平稳噪声或非平稳噪声;(30)平稳噪声语音检测:对平稳噪声下的信号进行语音检测,得到检测语音信号;(40)非平稳噪声语音检测:对非平稳噪声下的信号进行语音检测,得到检测语音信号;(50)语音段信号输出:在检测语音信号的终止帧后加几帧拖尾延迟保护,输出语音段信号;所述频谱稳定性判断(20)步骤包括:(21)计算预处理信号噪声段信号的谱值:(22)计算预处理信号噪声段信号谱平均值:(23)计算各点与谱均值之间的差值:(24)频谱稳定性判断:如果Dfn的值均不超过T,就认为当前噪声段信号是平稳信号,反之则是非平稳信号;式中,s(m)为信号函数,w(m)是窗函数,M是频谱的采样点数,T为设定的门限值,各点与均值之间的频谱差值为Dfn,m是语音信号函数和窗函数的各离散点,n是对信号进行FFT变换后的各离散点;所述平稳噪声语音检测(30)步骤包括:(31)信噪比估算:选取待测语音段,根据下式估算信噪比SNR,式中,Ef是含噪语音信号的能量,Es是语音信号的能量,En是噪声信号的能量;(32)信噪比高低判断:设置门限值S,如果噪声信号的能量超过门限值S,则判定为高信噪比,反之,判定为低信噪比;(33)高信噪比语音检测:对高信噪比语音信号,采用短时平均幅度差算法对其进行检测;(34)低信噪比语音检测:对低信噪比语音信号,采用多特征融合算法对其进行检测;所述非平稳噪声语音检测(40)步骤包括:(41)计算前K(K=10)帧能量平均值:式中,Ei为第i帧信号的能量;(42)计算信号的频谱概率密度函数:式中,s(fi)是第i帧信号的谱函数,N为该帧信号的长度;(43)计算每帧信号的谱熵值:(44)计算前K(K=10)帧谱熵平均值:式中,Hi为第i帧信号的谱熵值;(45)计算第n帧信号的ESE特征值:式中,Xn=(Esn-Eave)(Hn-Have),Eave为能量平均值,Have为谱熵平均值,Esn为第n帧信号能量值,Hn为第n帧信号谱熵值;(46)语音信号初判:设置一个较低的门限,大于该门限值的信号,初步判定为语音信号,反之初步判定为噪声信号;(47)语音信号检测:对初步判定为语音的信号采用小波变换和神经网络结合算法进行综合判决。2.根据权利要求1所述的自适应语音检测方法,其特征在于,所述信号预处理(10)步骤包括:(11)滤波:滤除输入语音信号中的高频率脉冲噪声,有效减小语音信号频段以外信号的干扰;(12)采样、量化:以大于处理信号最高频率两倍的采样速率,对处理信号采样、量化;(13)分帧:按一帧信号时长20ms和交叠长度10ms将语音信号分帧;(14)加窗:对每帧语音信号进行加窗,得到预处理信号。3.根据权利要求1所述的自适应语音检测方法,其特征在于,所述高信噪比语音检测(33)步骤包括:(331)计算短时幅度差函数:式中,sn(m)=w(m)s(n+m),sn(m+k)=w(m+...

【专利技术属性】
技术研发人员:范建华王统祥吕遵明万留进成洁
申请(专利权)人:中国人民解放军总参谋部第六十三研究所
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1