一种基于弯折倒谱特征的抗噪语音识别方法技术

技术编号:11740211 阅读:171 留言:0更新日期:2015-07-16 00:04
本发明专利技术涉及听觉滤波器的抗噪性能和抗噪语音识别特征提取,属于电子信息技术中的信号处理技术领域,具体涉及一种基于弯折倒谱特征的抗噪语音识别方法。针对现有滤波器带宽不满足非对称性分布,对应的提取特征无法准确表征人耳听觉特性的不足,本发明专利技术的主要目的在于提供一种基于弯折倒谱特征的抗噪语音识别方法,将WFBs(弯折滤波器组)应用于信号频谱的分析中,有效利用带宽的非对称性,充分使用一阶全通变换的弯折因子来控制频带分布,从而在不同听觉尺度上研究听觉特性滤波器的抗噪性能,提高抗噪特征的识别率。

【技术实现步骤摘要】
【专利说明】
本专利技术涉及听觉滤波器的抗噪性能和抗噪语音识别特征提取,属于电子信息技术中的 信号处理
,具体涉及。
技术介绍
语音识别系统在干净环境下识别性能良好,但在噪声环境下,识别结果则大幅降低。目 前,国内外研宄的热点主要集中在抗噪特征的提取和后端抗噪识别网络两大方面。而对于 抗噪特征的提取,研宄者们主要采用现有特征的差分改进和多种特征的拼接组合,对提取 特征的前端滤波器关注不多。提取特征的前端滤波器,由一组带通滤波器构成,用来模拟人 耳的听觉特性,常见的有FIR滤波器、MEL滤波器、Gammatone滤波器等。人耳具有很强的噪 音鲁棒性,因此能够更好模拟人耳听觉特性的滤波器将更有利于提取抗噪特征。 耳蜗具备频率选择功能,即不同频率映射到基底膜的不同位置,因此常被认为由一组 带通滤波器组成。耳蜗的频率选择性表现为:基底膜上的每一个位置对应着一个特征频率, 将此频率下的纯音信号输入耳蜗时,基底膜对应位置会发生最大幅度的振动。耳蜗作为一 个滤波器组,呈现以下特征:1)滤波器带宽不同:低频处的带宽较窄,而高频处带宽较宽; 2)单个滤波器的频率响应非对称分布:基底膜的每个位置对应一个特征频率,该位置对此 频率的响应幅度最大。特征频率的左侧斜率比较平缓,特征频率的右侧斜率较陡;3)单个 滤波器的频率响应同刺激声的强度相关:基底膜的振动特性是呈压缩非线性的。 D.S.Kim早期采用窗函数设计法设计16通道的FIR滤波器,用来仿真耳蜗基底膜的 作用,达到了良好的识别结果。滤波器的中心频率为f= 165 . 4(1021x-l),其中f是中心 频率,单位Hz,x是基底膜归一化距离,0 <x< 1。滤波器的频带划分根据等值矩形带宽 (EquivalentRectangularBandwidth,ERB)ERB= 6. 23 (f/1000)2+93. 39(f/1000)+28.52 确定,式中f?是中心频率,单位Hz。但由于FIR滤波器仅满足各个滤波器带宽不同这一特 征,而无法满足其他两条特征,因此仍存在改进的空间。 MEL滤波器是一组三角带通滤波器,Stevens和Volkmanl940年指出,人的主观感知频 域的划定是非线性的,Fmel= 11251og(l+f/700),式中的Fmel是以美(Mel)为单位的感知频 率,f是以Hz为单位的实际频率。其带宽按临界带(CriticalBand)的划分,将语音在频 域上划分成一系列的频率群组成了三角形的滤波器组,即Mel滤波器。其滤波器分布在MEL 域是均匀分布,带宽呈对称性分布。 GT滤波器最早由Johannesma于1972年提出,用来描述猫的听神经生理学冲激响 应数据的特性,通过"逆相关"法可以证明GT函数的波形与猫听觉神经数据形状是一 致的。GT滤波器用一个因果的冲激响应来描述滤波器特性,其时域表达式为:g(t)= Bntnkxp(-2JrBt)cos(2Jrfit+ <}>)u(t),其中B=t^ERB(fj,【主权项】1. ,其特征在于,该方法利用弯折滤波器 提取语音倒谱特征参数描述声音信号在人耳听觉空间的分布和映射并使用径向基神经网 络对非特定人进行识别,包括以下步骤: 预处理语料库语音信号,包括预加重、分帧和加窗过程; 计算信号功率谱; 弯折滤波器下进行信号功率谱映射; 对数和离散余弦变化;以及 对弯折倒谱特征进行后端径向基函数神经网络识别。2. 根据权利要求1所述的,其特征在于, 所述预处理语料库语音信号的步骤,具体包括: 预加重,采用预加重系数为〇. 9375的高通滤波器H(z) = 1-a厂1消除口唇辐射造成的 信号衰减,提升信号的高频部分; 对预加重后的信号进行分帧,一般分帧帧长为l〇ms~30ms,本专利技术中的语音采样频率 为fs= 11025Hz,帧长256样点,帧移128样点; 加窗,采用汉明窗对每帧信号x(n)进行平滑,即y(n)= x(n)*w(n),从而去除吉布斯效应。3. 根据权利要求1所述的,其特征在于, 所述计算信号功率谱的具体步骤为:采用傅里叶变换得到信号的频谱Y(?) =fft(y(n)) =fft(x(n) (n)),并对频谱的模值求平方PS= |Y(?) |2。4. 根据权利要求1所述的,其特征在于, 所述弯折滤波器下进行信号功率谱映射的步骤,具体包括: 将语音帧的功率谱与弯折滤波器16个子带带通滤波器分别卷积; 对映射到16通道滤波器中每一通道的功率谱求和。5. 根据权利要求4所述的,其特征在于, 所述弯折滤波器下信号功率谱映射过程,进一步包括: 弯折滤波器的设计,利用一阶全通变换m= 0, 1,. . .,M-1中的厂1,其中h(n)为长度为N的序列,M为滤波器组的通道数,则新的 传递函数为.实现频率从z域变换到G域的转换,即弯折滤波器 的传递函数为,令z=e>,则弯折滤波器组的频率响应为?P为弯折因子; 不同弯折因子下的弯折滤波器,公式和分别给出采用采用一阶全通变换模拟Bark和ERB 频率尺度时对应的弯折因子,其中fs为采样频率,单位kHz;当采样率fs= 11. 025kHz时, P=0.48和P=0.63时分别模拟Bark尺度和ERB尺度;而P=0时弯折滤波器为一 组均匀滤波器组,带宽呈对称性分布; 每一通道的滤波器功率谱求和,记为WFBsm {x} = 2Hm (?) * |fft(x(n)抑(n)) |2,其中m为滤波器通道数,Hm(?)为弯折滤波器频率响应;当m=k,k= 1,2. . .,16时,WFBsm{x}为 一帧信号x(n)在第k通道滤波器的映射。6. 根据权利要求1所述的,其特征在于, 所述对数和离散余弦变换的步骤,具体包括: 将弯折滤波器的输出求以自然数为底的对数,计算公式为:s(m) =ln(WFBm{x}),m= 1,2, ? ? ?,16 ; 进一步,将对数谱s(m)作离散余弦变换,计算公式为求取一帧信号的倒谱系数,得到16维弯折倒谱特征。7. 根据权利要求1所述的,其特征在于, 所述对弯折倒谱特征WFCC进行后端径向基函数神经网络识别的步骤,具体包括: 对弯折倒谱特征WFCC特征进行时间和幅度归一化,由于每个语音文件的长短不同,分 帧后的帧数各不相同,无法作为RBF网络的输入,因此将每个语音文件帧数统一为64帧,每 一帧提取16维特征,得到1024维特征作为识别网络的输入; RBF网络结构由三层结构组成,将训练文件的特征作为RBF输入,得到训练RBF神经网 络,然后将测试文件的特征作为输入,得到测试RBF神经网络,与训练RBF网络按照一定的 匹配规则进行模式匹配,得到识别结果。8. 根据权利要求1所述的,其特征在于, 所述语料库语音信号是韩语语料库,词语内容为数字和简单控制性语句;此语料库包括 10词、20词、30词、40词以及50词五种不同的子库,每一子库分别在不同的信噪比15dB, 20dB,25dB,30dB以及clean下录制完成;本语料库由16名男性发声构成,每人每词发音3 遍,在完全闭集的非特定人识别中,采用9人的发音作为训练语料库,而另外7人的发音作 为测试语料库进行本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/21/CN104778948.html" title="一种基于弯折倒谱特征的抗噪语音识别方法原文来自X技术">基于弯折倒谱特征的抗噪语音识别方法</a>

【技术保护点】
一种基于弯折倒谱特征的抗噪语音识别方法,其特征在于,该方法利用弯折滤波器提取语音倒谱特征参数描述声音信号在人耳听觉空间的分布和映射并使用径向基神经网络对非特定人进行识别,包括以下步骤:预处理语料库语音信号,包括预加重、分帧和加窗过程;计算信号功率谱;弯折滤波器下进行信号功率谱映射;对数和离散余弦变化;以及对弯折倒谱特征进行后端径向基函数神经网络识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄丽霞张雪英黄少龙王一平孙颖胡杰李刚刘雪艳张晓丹王亚楠
申请(专利权)人:太原理工大学
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1