一种基于快速卡尔曼滤波的鲁棒语音增强方法技术

技术编号:8241786 阅读:257 留言:0更新日期:2013-01-24 22:43
本发明专利技术涉及到一种基于快速卡尔曼滤波的鲁棒语音增强方法,能快速解决加性噪声环境下的语音增强问题。其方法为:(1)对输入语音信号进行分帧,计算第一帧的方差作为噪声估计值;(2)进入循环迭代,系统将运行卡尔曼滤波的核心迭代方程组,方程组只需不断地更新状态向量的第一个值,抛弃AR模型系数的计算和矩阵的计算;(3)迭代结束后,系统将输出增强后的语音信号。本发明专利技术方法简便且易于计算机实现,在不损害语音信号不牺牲滤波效果的同时,大幅度地降低了系统的复杂度,提高了系统的鲁棒性。

【技术实现步骤摘要】

本专利技术涉及一种应用于语音增强的方法,尤其涉及一种应用快速卡尔曼滤波算法对带噪语音信号进行噪声过滤的语音增强方法。
技术介绍
背景噪声环境下的鲁棒性问题,已成为解决语音识别技术从实验室走向实际应用的关键。语音信号在实际环境中常受到直接叠加在它身上的加性背景噪声干扰,且背景噪声与语音信号具有不相关性。目前,常用的方式是通过卡尔曼滤波,即一种从噪声污染的观测信号中以最小均方差预测误差为准则,对语音信号进行线性无偏估计的滤波方法,来解决加性噪声环境下的语音增强问题,且它容易用计算机实现。 然而,到目前为止,已有的科研成果中的卡尔曼滤波也存在一些难以克服的缺点在选取估计参数模型以及语音和噪声模型时,计算过程中仍存在大量的中间冗余数据且需要计算矩阵的逆运算。
技术实现思路
本专利技术的目的是克服了上述现有技术的缺点,达到不损害语音信号不牺牲滤波效果的同时,大幅度地降低系统的运算量和时间,提高系统的鲁棒性。为了实现上述的目的,本专利技术采用了如下技术方案,其特征在于,包括以下步骤I)初始化工作获取输入语音信号y (η),并获得其长度值,即其采样点个数N ;定义语音帧帧长ZC=20(T300,帧移为I ;估计噪声方差/<,(1)=贫(1),<⑴为语音信号第一帧的方差,其计算公式为W(I) = Var(MhZr), var为求方差运算,y(l:ZC)表示语音信号第一帧;新建一个零向量x(n)用于存储增强后的语音;2)进入迭代循环循环次数η由I递增到N ;当η < ZC 时,即前 ZC 次循环,均方误差 Rs (n) =E (y(l:n) X y (I:η))-Rv(I),其中 E为求均值运算,y(l:n)表示只取语音信号前η个采样点;当η 彡 ZC 时,均方误差 Rs (n) =E (y (n-ZC:η) Xy (n_ZC:η))-Rv⑴,其中 E 为求均值运算,y(n-ZC:n)的意义相当于给语音信号进行按帧长为ZC,帧移为I的分帧操作;计算卡尔曼增益值K(n) =Rs(n)/(Rs(n)+Rv(I));利用增益值计算增强后语音信号的估计值x(n)=K(n) Xy(n);迭代完毕后,输出增强后的语音信号X(η)。本专利技术原理如下卡尔曼滤波是一种从噪声污染的观测信号中以最小均方差预测误差为准则,对语音信号进行线性无偏估计的滤波方法。语音可被表述成一个被高斯白噪声驱动的、全极点线性输出自递归过程.在短时平稳的假设下,一个纯净的语音信号可以建立L阶AR模型(L的取值范围为20-50),即Ls{n) = ^aj (η) X s{n - )+ω(η)⑴ J=I式中ai(n)是线性预测系数,ω (η)是均值为0,方差为 <高斯白噪声,s (η)是根据L阶AR模型产生的纯净语音信号序列.在实际环境中,语音信号不可避免地受到周围环境的影响,因此对含加性噪声的语音信号g(n),可描述为 G (n) =s (η) +ν (η)(2)式中s (η)是根据L阶AR模型产生的纯净语音信号,ν (η)为均值为0,方差为<的加性环境噪声,s(n)和v(n)是互不相关的信号序列。实际应用中,带噪语音信号g(η)是语音增强方法的输入信号,是已知的。而<需要通过g(n)中的“无声段”来得到其估计值,通常的做法是把第一帧语音信号默认为“无声段式(1),(2)写成的状态方程和观测方程表不为状态方程x(n)=F(n) Xx(n_l)+Q(n)(3)观测方程y (n) =H X X (n)+R (n)(4)式中X (η)是LX I 的状态向量,表示为 X (n) = T, Q (η)是LX I的输入向量,表示为Q(n) = , y (n) = 是含加性噪声的语音信号,R(n) = 是加性噪声向量,F(n)是LXL阶的转移矩阵, OIO…O _ OOI···O /(")= :;;'·.: OOO···I_“,(")aL,(/ )a, 2{n)···q(")」LXL( 5)Bi(Ii)是线性预测系数( =1,2,···,υ,Η是LXL阶的观测矩阵 'O OO···O ' I OO··■OH=OlO···O(b)O OI O …L」L X L·从式(3)、(4)可以看出卡尔曼滤波的迭代是从噪声污染的观测信号y(n)中利用线性预测系数,求出x(n)的过程。为了降低线性预测系数的计算量,根据文献Nari Tanabe, Toshiniro Furukawa,Shigeo Tsujii. Fast noise Suppression Algorithm with Kalman Filter Theory.Secnod International Symposium on Universal Communication, 2008:411-415,将状态方程转移矩阵F和观测矩阵H化简为权利要求1.,其特征在于,包括以下步骤 1)初始化工作 获取输入语音信号I (η),并获得其长度值,即其采样点个数N ; 定义语音帧帧长ZC=20(T300,帧移为I ; 估计噪声方差夂(1)=贫(1),<(1)为语音信号第一帧的方差,其计算公式为f⑴= var(Ml: ΖΓ),var为求方差运算,y(l:ZC)表示语音信号第一帧; 新建一个零向量x(n)用于存储增强后的语音; 2)进入迭代循环 循环次数η由I递增到N ; 当11 < ZC时,即前ZC次循环,均方误差Rs (n) =E (y (I: η) X y (I :η))-Rv(I),其中E为求均值运算,y(l:n)表示只取语音信号前η个采样点; 当η彡ZC时,均方误差Rs(n) =E(y (n-ZC:n) Xy (ZC:n))-Rv(I),其中E为求均值运算,y(n-ZC:n)的意义相当于给语音信号进行按帧长为ZC,帧移为I的分帧操作;计算卡尔曼增益值 K (n) =Rs (n) / (Rs (n) +Rv(I)); 利用增益值计算增强后语音信号的估计值x(n)=K(n) Xy (η); 迭代完毕后,输出增强后的语音信号X(η)。全文摘要本专利技术涉及到,能快速解决加性噪声环境下的语音增强问题。其方法为(1)对输入语音信号进行分帧,计算第一帧的方差作为噪声估计值;(2)进入循环迭代,系统将运行卡尔曼滤波的核心迭代方程组,方程组只需不断地更新状态向量的第一个值,抛弃AR模型系数的计算和矩阵的计算;(3)迭代结束后,系统将输出增强后的语音信号。本专利技术方法简便且易于计算机实现,在不损害语音信号不牺牲滤波效果的同时,大幅度地降低了系统的复杂度,提高了系统的鲁棒性。文档编号G10L25/27GK102890935SQ20121040506公开日2013年1月23日 申请日期2012年10月22日 优先权日2012年10月22日专利技术者何东之, 麦全深, 刘美玲 申请人:北京工业大学本文档来自技高网...

【技术保护点】
一种基于快速卡尔曼滤波的鲁棒语音增强方法,其特征在于,包括以下步骤:1)初始化工作:获取输入语音信号y(n),并获得其长度值,即其采样点个数N;定义语音帧帧长ZC=200~300,帧移为1;估计噪声方差,为语音信号第一帧的方差,其计算公式为,var为求方差运算,?y(1:ZC)表示语音信号第一帧;新建一个零向量x(n)用于存储增强后的语音;2)进入迭代循环:循环次数n由1递增到N;当n<ZC时,即前ZC次循环,均方误差Rs(n)=E(y(1:n)×y(1:n))?Rv(1),其中E为求均值运算,y(1:n)表示只取语音信号前n个采样点;当n≥ZC时,均方误差Rs(n)=E(y(n?ZC:n)×y(ZC:n))?Rv(1),其中E为求均值运算,y(n?ZC:n)的意义相当于给语音信号进行按帧长为ZC,帧移为1的分帧操作;计算卡尔曼增益值K(n)=Rs(n)/(Rs(n)+Rv(1));利用增益值计算增强后语音信号的估计值x(n)=K(n)×y(n);迭代完毕后,输出增强后的语音信号x(n)。?FDA0000228955981.jpg,FDA0000228955982.jpg,FDA0000228955983.jpg...

【技术特征摘要】

【专利技术属性】
技术研发人员:何东之麦全深刘美玲
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1