基于信噪比加权模板特征匹配的抗噪语音识别方法及装置制造方法及图纸

技术编号:10022345 阅读:360 留言:0更新日期:2014-05-09 04:37
本发明专利技术公开了一种基于信噪比加权模板特征匹配的抗噪语音识别方法,包括以下步骤:步骤一:对输入语音信号进行预处理,求得相位系数;步骤二:计算输入语音的特征,即相位MFCC;步骤三:对基于SNR的模板进行特征匹配。本发明专利技术还公开了一种实现基于信噪比加权模板特征匹配的抗噪语音识别方法的装置,包括:电源模块、显示模块、存储模块、DSP/ARM数字处理模块、麦克风、A/D转换器和USB接口。具有适应范围广、准确性高、成本低、使用便捷和适应性强等优点。

【技术实现步骤摘要】
基于信噪比加权模板特征匹配的抗噪语音识别方法及装置
本专利技术涉及一种声音信号处理技术,特别涉及一种基于信噪比加权模板特征匹配的抗噪语音识别方法及装置。
技术介绍
语音识别的应用领域非常广泛,几乎涉及到日常生活的方方面面。如语音拨号系统、订票系统、医疗服务、银行服务、听写机、计算机控制、工业控制、语音通信系统等。语音识别技术在工业、家电、通信、医疗、家庭服务等各个领域深刻改变人类现有的日常生活方式。如今,实际环境对语音识别的声学噪声鲁棒性要求越来越高,因此,提取具有鲁棒性和较强区分能力的特征向量对语音识别系统具有重要的意义。现在用于语音识别的特征都基于语音信号的功率谱,功率谱表示了信号在频域范围的能量分布。当存在外部噪声时,这种能量分布还包含了噪声的能量。这就使得相应的特征向量对外部噪声十分敏感,导致在噪声环境下的语音识别系统性能不佳。解决特征向量对外部噪声敏感的方法主要有两方面,一个是基于特征,一个是基于模型。基于特征的方法是在语音识别系统的前端使生成的特征向量尽量与噪声无关。而基于模型的方法是在语音识别系统的后端,通过测试环境下的少量自适应数据,对模型参数进行调整,逐渐将模型参数变换到实际环境,从而达到提高系统识别率的目的。基于特征的解决方法有谱减法、RASTA处理法等。基于模型的方法有并行模型混合法(PMC),基于矢量泰勒级数的自适应法(VTS),信号分解法等。目前,用于语音识别的提取的语音信号特征参数主要有两种:线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)。LPCC特征参数能够有效地表示语音参数并且有着较高的计算速度,但没有考虑人类的听觉系统对语音处理的特点。Mel频带划分是对人耳听觉特性的一种工程化模拟,MFCC在一定程度上模拟了人耳对语音处理的特点。然而无论是MFCC还是LPCC,现有的语音识别特征,在低信噪比环境下的识别性能都不是很好,为了克服这一弱点,本专利技术首先提出一种通过改变相关性度量而在低信噪比情况下具有更好鲁棒性的新特征,即采用两个时间延迟信号向量之间的夹角作为相关性度量,因为角度是传统自相关系数数量积的非线性变换,用相位可以在频域上增强波峰的作用,而波峰相对噪声鲁棒性更高。接着,根据传统特征适于高信噪比,新特征适于低信噪比,提出一种根据信噪比加权的模板匹配计算方法,最后提出相应装置。
技术实现思路
本专利技术的首要目的在于克服现有技术的缺点与不足,提供一种基于信噪比加权模板特征匹配的抗噪语音识别方法,该方法适应范围广,准确性高。本专利技术的另一目的在于克服现有技术的缺点与不足,提供一种实现基于信噪比加权模板特征匹配的抗噪语音识别方法的装置,在DSP/ARM7芯片操作,可以使用TI的TMS320C6711或三星的ARM7S3C44B0实现。本专利技术的首要目的通过下述技术方案实现:一种基于信噪比加权模板特征匹配的抗噪语音识别方法,包括以下步骤:步骤一:对输入语音信号进行预处理,求得相位系数;将数字化后的语音信号s[n]进行分帧处理,同时采用汉明窗对其进行加窗。分为T帧,{s0[n],s1[n],...,st[n],...,sT-1[n]}其中st[n]={s[Kt],s[Kt+1],...,s[Kt+N-1]}K为帧移,N为帧长,st[n]为在时刻t的帧信号序列。语音信号具有短时平稳性,因此每帧信号都是平稳的。将所得帧信号进行周期延拓,由此得到自相关函数为由上式可看出,R[k]是两个N维向量的点积,其中,||x||2=||x0||2=||xk||2,表示的是帧能量。θk是向量x0和向量xk在N维空间的夹角。将归一化的自相关系数进行反余弦的非线性变化,得到相位系数。P[k]的取值范围是0到π之间,将其归一化到0到1间,得到归一化的相位自相关函数Pn[k]可以提高在低信噪比情况下的鲁棒性,但在高信噪比情况下,尤其是纯净语音的情况下,性能不如Rn[k]。步骤二:计算输入语音的特征,即相位MFCC;分别对Pn[k]进行DFT变换,得到相位功率谱Sp[l]。这里把Sp[l]叫做相位功率谱,从中得到的MEL频率倒谱系数叫做相位MFCC,即通过Mel频率尺度滤波器组滤波,然后进行对数运算。当在各个频带的信息分离出来后,用离散余弦变换(DCT)将频域特征变化到时域上,得到相位MFCC参数。相位MFCC参数选取L阶静态倒谱系数及其一阶和二阶导数,共3L维。步骤三:基于SNR的模板特征匹配;参考数据库中有j个参考语音数据模板,其中包含3M维的MFCC特征和3L维的相位MFCC特征。特征向量3M维MFCC的测试模板和其中第i个参考模板间的欧式距离为DMi,特征向量3L维相位MFCC的测试模板和第i参考模板间的欧式距离为PLi,i=0,1,...,j-1。已知在低信噪比情况下采用特征向量N维相位MFCC的鲁棒性更高,而在高信噪比情况下,尤其是纯净语音情况下,采用特征向量M维MFCC的鲁棒性更高。根据这一点,本专利技术采用一种基于信噪比加权的方法,在不同信噪比条件下,采用不同的权重取值,得到两种特征向量在模板间距离的权重距离值Ci。Ci=(1-w)DMi+wPLi,i=0,1,...,j-1,(公式5)模板匹配过程就是在j个参考模板中搜索,找到使min{Ci},i=0,1,...,j-1成立的那个模板。w为相位MFCC参数模板间距离的权重,其取值由信噪比SNR决定,信噪比由此可得:||Y||2表示的是实际环境中语音的帧能量,||N||2表示的是实际环境中采样的噪声信号的能量,表示对该能量的估计值。w的取值由信噪比SNR决定,w=f(SNR),(公式8)f(SNR)表示权重系数w与信噪比SNR间的关系。f(SNR)取值范围为(0,1),与w互为负相关,这种关系可以是线性的,也可以是非线性的。可以采用以下两种方式表示这种关系:方式一:方式二:u(·)为阶跃函数,α取值范围为(1,5),是SNR的阈值,当SNR小于α时,权重系数w为1,当SNR大于α时,权重系数w与SNR负相关,并沿指数下降,随着SNR的增长,最终w逐渐收敛于0。β的取值范围为(1,10),相当于传统MFCC和相位MFCC权重相等时的SNR临界值。γ和θ的取值范围为(0.1,1),都用来调节变化的快慢,其值越大,变化的就越慢。本专利技术的另一目的通过下述技术方案实现:一种实现基于信噪比加权模板特征匹配的抗噪语音识别方法的装置,包括:电源模块、显示模块、存储模块、DSP/ARM数字处理模块、麦克风、A/D转换器和USB接口;所述存储模块、USB接口、显示模块、电源模块和A/D转换器的一端均与DSP/ARM数字处理模块电气连接,所述麦克风与A/D转换器的另一端电气连接;所述麦克风用于输入测试语音,所述A/D转换器用于将测试语音数字化,所述DSP/ARM芯片用于提取特征并进行模板匹配,所述存储模块用于存储参考数据库,所述显示模块用于显示结果,所述USB接口和电脑连接。所述A/D转换器采用ADC0832芯片;所述DSP/ARM数字处理模块采用DSP/ARM7芯片。所述DSP/ARM7芯片采用TI的TMS320C6711或三星的ARM7S3C44B0。本专利技术在传统自相关系数计算得到MFCC参数的基础上,增加了通过相位系数代替自相关系数得到相位MFCC参本文档来自技高网
...
基于信噪比加权模板特征匹配的抗噪语音识别方法及装置

【技术保护点】

【技术特征摘要】
1.一种基于信噪比加权模板特征匹配的抗噪语音识别方法,其特征在于,包括以下步骤:步骤一:对输入语音信号进行预处理,求得相位系数;步骤二:计算输入语音的特征,即相位MFCC;步骤三:对基于SNR的模板进行特征匹配;其特征在于,所述步骤一包括以下步骤:步骤A、将数字化后的语音信号s[n]进行分帧处理,同时采用汉明窗进行加窗,并分为T帧:{s0[n],s1[n],...,st[n],...,sT-1[n]},其中:st[n]={s[Kt],s[Kt+1],...,s[Kt+N-1]},K为帧移,N为帧长,st[n]为在时刻t的帧信号序列;步骤B、将所得帧信号进行周期延拓,得到自相关函数:由自相关函数的表达式可得出,R[k]是两个N维向量的点积,其中,||x||2=||x0||2=||xk||2,表示的是帧能量,θk是向量x0和向量xk在N维空间的夹角;步骤C、将归一化的自相关系数进行反余弦的非线性变化,得到相位系数:P[k]的取值范围是0到π之间,将其归一化到0到1间,得到归一化的相位自相关函数:其中,Pn[k]用于提高在低信噪比情况下的鲁棒性。2.根据权利要求1所述的基于信噪比加权模板特征匹配的抗噪语音识别方法,其特征在于,所述步骤二包括以下步骤:步骤Ⅰ、对Pn[k]进行DFT变换,得到相位功率谱Sp[l]:式中,Sp[l]表示相位功率谱,从式中得到的MEL频率倒谱系数叫做相位MFCC,即:通过Mel频率尺度滤波器组滤波,然后进行对数运算;步骤Ⅱ、当各个频带的信息分离出来后,用离散余弦变换将频域特征变化到时域上,得到相位MFCC参数;所述相位MFCC参数选取L阶静态倒谱系数及其一阶和二阶导数,共3L维。3.根据权利要求1所述的基于信噪比加权模板特征匹配的抗噪语音识别方法,其特征在于,所述步骤三包括以下步骤:步骤①、参考数据库中有j个参考语音数据模板,其中包含3M维的MFCC特征向量和3L维的相位MFCC特征向量;特征向量3M维MFCC...

【专利技术属性】
技术研发人员:宁更新吴丽菲宁小娟
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1