一种用于鲁棒语音识别的语音特征提取方法技术

技术编号:8453740 阅读:284 留言:0更新日期:2013-03-21 20:29
本发明专利技术公开了一种用于鲁棒语音识别的语音特征提取方法,该方法包括:获取功率谱;采用滤波器组对功率谱进行处理;采用帧平均的方式求取中等时长的功率谱;对功率谱进行不对称滤波处理,同时对功率谱进行掩蔽处理,得到纯净语音功率谱;对纯净语音和带噪语音功率谱的比值进行通道平均处理,以进行平滑;将平滑后的纯净语音和带噪语音的功率谱比值同滤波器组输出的功率谱相乘,得到纯净语音的短时功率谱;对短时功率谱进行能量归一化处理,以消除乘性噪声;功率谱进行等响度加重;功率谱进行指数操作;对功率谱进行傅立叶逆变换;求取信号的倒谱系数;对倒谱系数进行均值归一化处理。本发明专利技术提取的语音信号的特征,速度快,能够实现在线处理;利用本发明专利技术提取的特征训练出的声学模型,具用很好的抗噪效果;本发明专利技术具有非常重大的使用意义。

【技术实现步骤摘要】

本专利技术涉及语音识别领域,尤其涉及一种在语音识别中,能够对平稳和非平稳噪声有明显抑制作用的语音特征提取算法方法。
技术介绍
语音识别系统在复杂环境下识别性能急剧降低是语音识别中最重要的问题之一。 例如在马路上手机语音查询地理位置,用户所处的声学环境非常复杂且变化迅速,这对语音识别系统的性能产生了极大的影响。原有的语音识别系统在没有噪声的环境下能取得很好的处理和识别效果,但在现实应用中识别系统的性能会由于时变的不可预测的环境噪音和信道的影响,说话人的差异,谈话内容的变化等因素影响严重下降。所以如何提高语音识别系统在训练和测试环境的不匹配条件下的鲁棒性成为语音识别技术的关键。近年来,在语音识别技术环境鲁棒性这一研究领域人们提出了很多改进技术和算法,并取得了一定的效果。根据语音识别的流程,鲁棒语音识别可以分为四类时频域的抗噪;特征域的噪声补偿;模型域的噪声自适应和解码域的自适应。最早的技术是时频域的抗噪,例如谱减和维纳滤波,还有经典的欧洲电信标准协会的两阶段维纳滤波。特征层面噪声抑制通常是在提取特征的过程中对噪声进行补偿。由于PLP和MFCC特征一直占据鳌头, 所以特征层面的噪声抑制大多是在这两种特征上进行的,例如向量泰勒级数等。第三个阶段是在模型方面对噪声进行自适应,包括多状态的语音模型、共享变量参数的HMM等。第四个层面是在解码层面的噪声自适应,包括不确定性解码和用子带重估来代替不确定性解码坐寸ο所有的这些方法从根本上来说都是寻求在某种准则下训练环境和测试环境之间不匹配的一种最佳补偿。在一系列假设前提条件,如加性噪音的高斯分布、噪音与语音信号的独立性、不同噪音之间的独立性、信道的渐变特性等等,这些方法对于语音识别技术的鲁棒性都作出了有益的探索和贡献,尤其在平稳噪声环境下有较好的噪声抑制效果。但这与在真实噪音环境下语音识别系统的应用要求还有很大的差距,因此对于更加复杂的环境, 比如突发噪声等环境却无能为力。
技术实现思路
(一 )要解决的技术问题为了解决上述的在复杂环境下的语音识别率低,而普通的特征提取方法对非平稳噪声的抑制能力不够强的缺点,本专利技术提出一种能够提高其识别率的特征提取方法,目的在于提高带有突发噪声和音乐噪声等加性噪声影响的语音的识别率,并且使纯净环境下的语音识别率不下降。( 二 )技术方案本专利技术所基于的,包括以下步骤来实现步骤I、获取语音信号的功率谱;步骤2、将所获得的功率谱通过滤波器组处理,获得含噪语音的短时功率谱;步骤3、根据所获得的含噪语音的短时功率谱,采用帧平均的方式求取含噪语音的中等时长功率谱;步骤4、对所获得的含噪语音的中等时长功率谱进行不对称滤波和掩蔽抗噪,以得到纯净语音的中等时长功率谱;步骤5、根据所述纯净语音的中等时长功率谱、含噪语音的中等时长功率谱和含噪语音的短时功率谱获取纯净语音的短时功率谱;步骤6、对纯净语音的短时功率谱进行能量归一化处理,以消除乘性噪音;步骤7、对消除了乘性噪音的纯净语音的短时功率谱进行等响度加重;步骤8、对等响度加重后的纯净语音的短时功率谱进行指数非线性操作;步骤9、对进行了指数非线性操作后的纯净语音的短时功率谱进行傅立叶逆变换, 以求取倒谱系数,对倒谱系数进行均值归一化处理,最终得到语音特征。本专利技术从传统的语音特征提取方法入手,针对传统语音特征抗噪能力弱的缺点, 提出了若干手段改进语音特征,最终形成一套新的语音特征提取方法。本专利技术针对噪声变化比语音慢的特点,利用帧平均的方式将短时功率谱转换为中等时长的功率谱,用于估计噪声;利用不对称滤波的方式,分别估计含噪语音中噪声和语音的频谱包络;在不对称滤波的基础上采用掩蔽的方式估计信噪比,并对其进行处理,将其转换为短时功率谱的信噪比进行抗噪;还通过能量归一化和指数非线性对功率谱进行处理。本专利技术提出的用于鲁棒语音识别的语音特征提取方法不仅能够对噪声进行更加准确的估计,也能使语音特征更加符合人耳的听觉特性。因此这种特征提取方法所求取的特征对噪声有很好的抑制作用。(三)有益效果本专利技术从传统的语音特征提取方法入手,在传统的语音特征提取方法中加入了抗噪处理和符合人耳听觉的变换处理,使得这种特征提取方法不仅能够拟制各种加性噪声, 并且在纯净环境下的识别率也高于传统的语音特征提取方法。附图说明图I为本专利技术用于鲁棒语音识别的语音特征提取方法的总流程框图2为包含掩蔽的不对称低通滤波抗噪模块的结构流程图3为图2中掩蔽模块的结构流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。图I为本专利技术用于鲁棒语音识别的语音特征提取方法的总流程框图。如图I所示, 本专利技术提出的主要由以下几个流程组成对语音信号进行预加重;对语音加窗并采用短时傅立叶变换求取语音频谱;对语音频谱平方, 求取功率谱;采用滤波器组对功率谱进行处理,以获得含噪语音的短时功率谱;采用帧平均的方式求取含噪语音的中等时长功率谱;对所求取的含噪语音的中等时长功率谱进行不对称低通滤波处理,跟踪语音中的噪声,同时对所求取的中等时长功率谱进行掩蔽处理,得到纯净语音的短时功率谱;对纯净语音和带噪语音的功率谱的比值进行通道平均处理,以进行平滑;将平滑后的纯净语音和带噪语音的功率谱比值同滤波器组输出的含噪语音的短时功率谱相乘,得到纯净语音的短时功率谱;对纯净语音的短时功率谱进行能量归一化处理,以消除乘性噪声;将归一化后的短时功率谱进行等响度加重,使其符合人耳听觉效应; 然后将等响度加重后的功率谱利用指数操作进行强度响度转换,使其符合人的生理特征; 之后对经过强度响度转换后的功率谱进行傅立叶逆变换;再根据傅立叶逆变换得到的结果求取倒谱系数;最后对求取的倒谱系数进行均值归一化处理,最终得到本专利技术方法的语音特征。以下对专利技术的各步骤具体阐述。一、对语音信号进行预加重预加重的目的是削弱低频干扰的影响,突出高频信号的主成份。通常使用如下公式对语音采样点进行预加重权利要求1.,其特征在于,该方法包括 步骤I、获取语音信号的功率谱; 步骤2、将所获得的功率谱通过滤波器组处理,获得含噪语音的短时功率谱; 步骤3、根据所获得的含噪语音的短时功率谱,采用帧平均的方式求取含噪语音的中等时长功率谱; 步骤4、对所获得的含噪语音的中等时长功率谱进行不对称滤波和掩蔽抗噪,以得到纯净语音的中等时长功率谱; 步骤5、根据所述纯净语音的中等时长功率谱、含噪语音的中等时长功率谱和含噪语音的短时功率谱获取纯净语音的短时功率谱; 步骤6、对纯净语音的短时功率谱进行能量归一化处理,以消除乘性噪音; 步骤7、对消除了乘性噪音的纯净语音的短时功率谱进行等响度加重; 步骤8、对等响度加重后的纯净语音的短时功率谱进行指数非线性操作; 步骤9、对进行了指数非线性操作后的纯净语音的短时功率谱进行傅立叶逆变换,以求取倒谱系数,对倒谱系数进行均值归一化处理,最终得到语音特征。2.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法,其特征在于,步骤I中所述获取语音信号的频谱进一步包括以下内容 步骤11、对语音信号采用公式(I)进行预加重3.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法,其特征在于,所述步骤2中采用的滤波器组为梅尔滤波器组M本文档来自技高网
...

【技术保护点】
一种用于鲁棒语音识别的语音特征提取方法,其特征在于,该方法包括:步骤1、获取语音信号的功率谱;步骤2、将所获得的功率谱通过滤波器组处理,获得含噪语音的短时功率谱;步骤3、根据所获得的含噪语音的短时功率谱,采用帧平均的方式求取含噪语音的中等时长功率谱;步骤4、对所获得的含噪语音的中等时长功率谱进行不对称滤波和掩蔽抗噪,以得到纯净语音的中等时长功率谱;步骤5、根据所述纯净语音的中等时长功率谱、含噪语音的中等时长功率谱和含噪语音的短时功率谱获取纯净语音的短时功率谱;步骤6、对纯净语音的短时功率谱进行能量归一化处理,以消除乘性噪音;步骤7、对消除了乘性噪音的纯净语音的短时功率谱进行等响度加重;步骤8、对等响度加重后的纯净语音的短时功率谱进行指数非线性操作;步骤9、对进行了指数非线性操作后的纯净语音的短时功率谱进行傅立叶逆变换,以求取倒谱系数,对倒谱系数进行均值归一化处理,最终得到语音特征。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐波范利春柯登峰孟猛
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1