一种基于卡尔曼滤波的低复杂度多通道去混响降噪方法技术

技术编号:37470420 阅读:12 留言:0更新日期:2023-05-06 09:50
本发明专利技术提供一种基于卡尔曼滤波的低复杂度多通道去混响降噪方法,包括:采集信号,并将采集信号经过预处理得到短时傅立叶域上的信号;计算多通道噪声协方差矩阵;利用上一帧估计的经过延迟的带混响无噪声信号和当前帧的采集信号估计多通道自回归参数,并基于上一帧的声源变化检测结果决定卡尔曼状态噪声的方差值;利用估计的自回归参数、当前帧的采集信号以及估计的多通道噪声协方差矩阵估计无噪声带混响信号;将预估的无噪声带混响信号经过延迟,并结合自回归系数计算得到预估的无噪晚期混响信号;将无噪声带混响信号减去无噪声晚期混响信号得到期望的直达声以及早期混响信号。本发明专利技术降低了运算复杂度,实现在嵌入式产品的实时应用。品的实时应用。品的实时应用。

【技术实现步骤摘要】
一种基于卡尔曼滤波的低复杂度多通道去混响降噪方法


[0001]本专利技术涉及音频处理
,尤其涉及一种基于卡尔曼滤波的低复杂度多通道去混响降噪方法。

技术介绍

[0002]在使用传声器在房间内采集到的说话人的语音信号时,会同时采集到房间壁面的反射声,这些反射声被称为混响。当混响时间较长时,混响会影响语音通信中语音的清晰度,也会降低语音识别系统的识别率。
[0003]谱减法可以用来实现语音去混响,例如现有文献“Lebart K,Boucher JM,Denbigh P N.A New Method Based on Spectral Subtraction for Speech Dereverberation[J].Acta Acustica United with Acustica,2001,87(3):359

366.”用短时傅里叶变换将单通道语音信号变换到时

频域,然后使用谱减法将当前帧的语音信号功率谱与估计的晚期混响功率谱相减,得到去混响信号的功率谱,最后通过短时傅里叶逆变换得到时域的去混响语音信号。然而,这种基于谱减法的去混响方法对语音音质有较大程度的损伤。
[0004]卡尔曼滤波是一种自适应滤波方法,将卡尔曼滤波与多通道预测模型相结合,可以用来作为自适应去混响的方法。例如文献“BraunS,HabetsEAP.Online Dereverberation for Dynamic Scenarios Using a Kalman Filter With an Autoregressive Model[J].IEEE Signal Processing Letters,2016,23(12):1741

1745.”指出卡尔曼滤波具有较好的去混响性能。
[0005]上述多通道去混响算法的模型建立中都没有对环境噪声的存在进行假设。在实际应用中,环境噪声的存在影响了多通道去混响算法的性能。在低频段的语音信号通常由于混杂着环境噪声而出现可预测性,导致低频的语音信号受到过抑制。在论文“Masahito Togami,MULTICHANNEL ONLINE SPEECH DEREVERBERATION UNDERNOISY ENVIRONMENTS”中提出不使用带噪声的混响信号来估计晚期混响信号。而是通过无噪声的麦克风输入信号来优化去混响滤波器,从而在有噪声的环境下来获得良好的去混响滤波器。对于麦克风采集信号,先使用了多通道维纳滤波器对无噪声的输入信号进行估计;其次再更新多通道去混响滤波器来预测晚期混响信号。该算法中的维纳滤波器依赖去混响滤波器的自回归参数。但是混响路径是时变的,上一帧的去混响滤波参数已经不适用于当前帧的环境。因此该算法存在因果错误,导致降噪能力不足。
[0006]在现有的论文“Sebastian Braun,Linear prediction based online dereverberation and noise reduction using alternating Kalman filters”中考虑到混响路径的时变性,解决了多通道降噪去混响算法的因果问题,提出了一种先对混响自回归参数估计再进行噪声抑制的顺序结构。能够较好地在低信噪比环境下进行去混响降噪。然而,该算法利用了两个交替的卡尔曼滤波,计算量较大难以实现嵌入式设备的实时应用,其也没有给出多通道噪声协方差矩阵的估计方法,且该算法利用了位矩阵作为状态转移矩阵,在声源位置发生突变之后,卡尔曼滤波的性能明显下降。
[0007]现有文献“T.Dietzen,S.Doclo,A.Spriet,W.Tirry,M.Moonen,and T.van Waterschoot,“Low

Complexity Kalman filter for multi

channel linear

prediction

basedblind speechdereverberation,”in 2017IEEE Workshop on Applications of Signal Processing to Audio and Acoustics(WASPAA),2017,pp.284

288.”提到使用了一个小于1的常数乘单位矩阵作为状态转移矩阵,没有出现声源位置改变前后算法性能相差显著的现象,但是算法总体的性能较差。在实际的应用中,说话者在语音间隙的移动或者说话者的改变都会导致声源位置发生突变的场景的产生。因此,使用卡尔曼滤波去混响时,需要解决好声源位置发生突变带来的问题。
[0008]总之,现有技术中多通道去混响算法计算复杂度较高,难以在嵌入式产品中实时应用,在低信噪比环境下表现较差,且在混响环境改变时,现有技术跟踪混响的能力较差,需要较长时间才能收敛。

技术实现思路

[0009]本专利技术要解决的技术问题,在于提供一种基于卡尔曼滤波的低复杂度多通道去混响降噪方法,实现了混响路径的快速收敛,解决了噪声环境下的去混响问题,降低了运算复杂度,可满足在嵌入式产品的实时应用。
[0010]本专利技术要解决的技术问题是这样实现的:一种基于卡尔曼滤波的低复杂度多通道去混响降噪方法,包括如下步骤:
[0011]步骤S1、采集信号,并将采集信号经过预处理得到短时傅立叶域上的信号;
[0012]步骤S2、利用短时傅立叶域的采集信号,计算多通道噪声协方差矩阵;
[0013]步骤S3、利用上一帧估计的经过延迟的带混响无噪声信号以及当前帧的采集信号,基于卡尔曼滤波算法估计时变的多通道自回归参数;所述多通道自回归参数的估计过程中所用到的卡尔曼状态噪声的方差值根据上一帧的声源变化检测结果调整;
[0014]步骤S4、利用估计的自回归参数、当前帧的采集信号以及估计的多通道噪声协方差矩阵估计无噪声带混响信号;
[0015]步骤S5、将预估的无噪声带混响信号经过延迟,并结合自回归系数计算得到预估的无噪晚期混响信号;从预估的无噪声带混响信号中减去预估的无噪声晚期混响信号得到期望的直达声以及早期混响信号。
[0016]进一步的,所述步骤S1具体为:
[0017]假设混响环境下有未知数量的声源,且使用固定在任意位置的M个子麦进行采集,则给出采集信号的stft域的表达:
[0018]y(k,n)=[Y1(k,n),

,Y
M
(k,n)]T
[0019]其中,Y
m
(k,n)是第m路信号第k个子频带,第n帧的频域表达;
[0020]假设多通道麦克风信号有两部分组成:
[0021]y(k,n)=x(k,n)+v(k,n)
[0022]其中,向量x(k,n)以及v(k,n)分别表示阵列上麦克风采集的混响语音信号以及加性噪声;
[0023]所述混响语音信号x(k,n)表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卡尔曼滤波的低复杂度多通道去混响降噪方法,其特征在于:包括如下步骤:步骤S1、采集信号,并将采集信号经过预处理得到短时傅立叶域上的信号;步骤S2、利用短时傅立叶域的采集信号,计算多通道噪声协方差矩阵;步骤S3、利用上一帧估计的经过延迟的带混响无噪声信号以及当前帧的采集信号,基于卡尔曼滤波算法估计时变的多通道自回归参数;所述多通道自回归参数的估计过程中所用到的卡尔曼状态噪声的方差值根据上一帧的声源变化检测结果调整;步骤S4、利用估计的自回归参数、当前帧的采集信号以及估计的多通道噪声协方差矩阵估计无噪声带混响信号;步骤S5、将预估的无噪声带混响信号经过延迟,并结合自回归系数计算得到预估的无噪晚期混响信号;从预估的无噪声带混响信号中减去预估的无噪声晚期混响信号得到期望的直达声以及早期混响信号。2.根据权利要求1所述的方法,其特征在于:所述步骤S1具体为:假设混响环境下有未知数量的声源,且使用固定在任意位置的M个子麦进行采集,则给出采集信号的stft域的表达:y(k,n)=[Y1(k,n),

,Y
M
(k,n)]
T
其中,Y
m
(k,n)是第m路信号第k个子频带,第n帧的频域表达;假设多通道麦克风信号有两部分组成:y(k,n)=x(k,n)+v(k,n)其中,向量x(k,n)以及v(k,n)分别表示阵列上麦克风采集的混响语音信号以及加性噪声;所述混响语音信号x(k,n)表达式如下:其中,向量s(k,n)=[S1(k,n),

,S
M
(k,n)]
T
表示采集信号中希望获取的直达声和早期混响信号的stft域,S
m
(k,n)表示第m个子麦的第n帧第k个子频带频域表达,矩阵C
l
(k,n)∈C
M
×
M
,表示对于第n

l,l∈[D,D+1,

,L]帧的采集信号stft域x(k,n

l)∈C
M,1
的滤波参数;D为延迟参数,L表示滤波器长度,r(k,n)为晚期混响信号。3.根据权利要求1所述的方法,其特征在于:所述步骤S2中多通道噪声协方差矩阵的计算过程具体如下:步骤a1、预设瞬时后验信噪比阈值φ0以及长时后验信噪比阈值步骤a2、初始化采集信号协方差矩阵以及噪声协方差矩阵步骤a3、在算法的前L
init
帧内,假设初期采集信号只有噪声信号,所述L
init
为音频初期纯噪声的帧数;迭代计算采集信号协方差矩阵以及噪声协方差矩阵:
其中,α
v
为噪声信号的迭代系数;α
y
为采集信号的迭代系数,H代表矩阵共厄转置操作;步骤a4、在L
init
帧之后,进行如下计算:步骤a41、迭代估计采集信号协方差矩阵:步骤a42、考虑到语音信号和噪声信号的非相关性,估计语音信号协方差矩阵:步骤a43、计算瞬时后验信噪比:步骤a44、计算长时后验信噪比:其中,tr{.}代表矩阵求迹操作;步骤a45、计算先验信噪比:其中,M表示通道数即子麦的个数;步骤a46、计算平滑迭代语音存在概率:计算local尺度的语音不存在概率:计算加窗平滑的后验信噪比并计算平滑后的语音不存在概率:其中w
global
表示汉宁窗函数,窗长定义为2K1+1;计算第n帧各频点的后验信噪比均值,并计算帧尺度的语音不存在概率:计算第n帧各频点的后验信噪比均值,并计算帧尺度的语音不存在概率:结合三个尺度计算语音不存在概率
基于估计的语音不存在概率,计算多通道先验语音存在概率基于估计的语音不存在概率,计算多通道先验语音存在概率步骤a47、计算平滑迭代语音存在概率:其中,α
p
表示语音存在概率的平滑系数;步骤a48、基于语音存在概率决定噪声协方差矩阵估计的平滑系数,并更新多通道噪声协方差矩阵:协方差矩阵:其中,为噪声协方差矩阵,为上一帧估计的噪声协方差矩阵;至此,噪声协方差矩阵估计完成。4.根据权利要求1所述的方法,其特征在于:所述步骤3中的自回归参数的估计具体如下:步骤31、建立第一个卡尔曼模型:构造卡尔曼观测矩阵为:其中表示Kronecker乘积,I
M
表示M维的单位矩阵,上标T表示向量转置的操作,x(n)表示第n帧无噪声混响信号;同时定义自回归参数作为卡尔曼模块的状态向量为:c(n)=Vec{[C
L
(n)

C
D
(n)]
T
};C
L
(n)是状态向量中的一部分,下标L表示该部分是对第(n

L)帧的自回归参数,中间省略号表示省略了对应(n

L)到(n

D)帧的自回归参数,Vec{.}是矩阵拉直操作,表示将大括号的矩阵的列按照从左到右的顺序首尾拼接起来,得到一个新的向量c(n),c(n)的长度L
c
=M
×
M
×
(L

D);X(n)是一个形状为M
×
L
c
的稀疏矩阵;步骤32、第一个卡尔曼滤波模块计算步骤:步骤321、计算先验状态误差协方差:其中,φ
w
(n)表示状态噪声协方差;步骤322、计算状态误差e(n):e(n)=y(n)

X(n

D)c(n

1);其中,y(n)表示麦克风采集信号,X(n

D)表示观测矩阵,c(n

1)表示上一帧计算得到的自回归参数;步骤323、计算卡尔曼增益K(n):
其中,表示观测噪声协方差;步骤324、计算后验状态误差协方差步骤324、计算后验状态误差协方差步骤325、计算自回归参数c(n):c(n)=c(n

1)+K(n)e(n);步骤326、计算观测噪声步骤326、计算观测噪声5.根据权利要求4所述的方法,其特征在于:所述状态噪声协方差φ
w
(n)通过如下方式获得:状态噪声协方差φ
w
(n)的大小根据相邻两帧的自回归参数的变化量...

【专利技术属性】
技术研发人员:薛建清张捷阳
申请(专利权)人:福建星网智慧软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1