一种基于逐级幅度补偿网络的单通道语音增强方法技术

技术编号:39149182 阅读:9 留言:0更新日期:2023-10-23 14:58
本发明专利技术涉及一种基于逐级幅度补偿网络的单通道语音增强方法,采用一种基于编码器

【技术实现步骤摘要】
一种基于逐级幅度补偿网络的单通道语音增强方法


[0001]本专利技术涉及语音增强领域,尤其涉及一种基于逐级幅度补偿网络的单通道语音增强方法。

技术介绍

[0002]单通道语音增强是指从仅由一个麦克风捕获的噪声语音信号中去除背景噪声。由于没有来自其他麦克风的语音信号作为参考,单通道语音增强是一个极具挑战性的任务。近些年,利用深度学习的语音增强方法在这个领域有了突出的表现,特别是在处理非平稳噪声和低信噪比等难题时,深度学习方法明显优于传统的单通道语音增强算法。卷积神经网络和循环神经网络是两种常用于语音增强的方法。
[0003]2020年,有人提出了一种深度复数神经网络,它结合了复数卷积神经网络和LSTM神经网络,获得了2020年DNS(Deep Noise Suppression)挑战赛实时降噪赛道(Real

Time Track,RT)的第一名。但是,这种单支路语音增强系统会带来幅度和相位之间的补偿问题,可能导致实部和虚部收敛到局部次优解,这会降低具有挑战性的场景中的性能。
[0004]为了解决这个问题,提出了目标解耦策略,将原始优化目标分解为多个相互关联的子目标。为此,在时频域中设计了两种有效的网络架构,即多阶段深度神经网络和双路径深度神经网络。对于前者,网络联合优化每个阶段的输出,以逐步增强语音的质量。对于后者,网络的两条路径并行优化每条路径的相应目标,并合作重构增强后的语音频谱。然而,这些时频域方法都忽略了时域方法可以避免带来幅度和相位的补偿问题的特点。并且,双路径深度神经网络的各个分支的信息只是进行简单的交互融合,忽略了各个支路之间信息的动态调整过程,最终会影响增强后的语音的质量与可懂度。
[0005]CN202210885817.6一种基于渐进式融合校正网络的单通道语音增强方法,只利用了时频域的幅度谱特征和复数谱特征进行语音增强,同时不能保证因果性,计算复杂度大,模型参数量大,很难部署于实际的终端系统中,相比于上述方法,本专利技术充分利用了来自时域的信息,并且通过跨域信息融合模块有效提取时域、幅度域和复数域的信息,同时考虑到三个域之间的动态调整过程,能够提高增强后语音的质量与可懂度。本专利技术确保模型的因果性,并且具有很小的可训练参数,可以灵活地应用在大量实际场景中。
[0006]CN202210885819.5一种基于交互性时频注意力机制的单通道语音增强方法,仅仅利用了时频域的复数谱特征,不能有效地解决幅度和相位之间的补偿问题;相比于上述方法,本专利技术将传统的复数谱估计解耦为逐级优化幅度和相位,缓解了幅度和相位之间的补偿问题,避免幅度和相位之间的相互影响,提升语音增强的性能。
[0007]另外,与其它以前专利申请相比,以前的专利申请学习来自复数域的谐波信息或来自时域的波形信息,没有同时考虑来自复数域、幅度域和时域的信息,带来信息损失或幅度和相位的补偿问题,限制了语音增强的性能。本专利技术通过幅度谱估计支路对带噪信号进行初步去噪,然后与复数谱细化支路输出的残差相加,重构最终输出增强后的语音信号的频谱,该策略能够有效提高语音增强的性能。本专利技术中的跨域信息融合模块,通过多尺度卷
积块对来自复数域、幅度域和时域的三条支路进行多尺度的特征提取,能够完成更有效的幅度补偿,提升语音增强的性能。

技术实现思路

[0008]本专利技术技术解决问题:克服传统的复数谱估计带来的幅度和相位之间的补偿问题和没有充分利用时域波形信息的问题,提供一种基于逐级幅度补偿网络的单通道语音增强方法,利用幅度谱估计支路滤除主要的噪声成分,复数谱细化支路补绘缺失的细节,两个支路重构输出增强后的语音信号的频谱,能够有效地弥补幅度和相位之间的隐含补偿效果,提升语音增强的性能。
[0009]本专利技术结合了时域和时频域各自的优点,在网络中同时引入基于时频域的支路和基于时域的支路,同时有效地利用了时频谱中的谐波信息和时域波形的信息,通过一个跨域的信息融合模块,对各个阶段的幅度谱估计支路和复数谱细化支路进行逐级的幅度补偿和信息的动态调整,能够提高语音信号的质量和可理解性,具有在增强效果上比一般的语音增强神经网络有明显的优势。
[0010]本专利技术的技术解决问题是通过以下技术方案实现的:
[0011]第一方面,本专利技术提供一种基于逐级幅度补偿网络的单通道语音增强方法,包括以下内容:
[0012]步骤1:将带噪语音信号做短时傅里叶变换STFT后得到带噪语音信号频谱中每一帧的复数谱、幅度谱和相位;
[0013]步骤2:所述复数谱输入三支路网络中的复数谱细化支路;所述幅度谱输入三支路网络中的幅度谱估计支路;所述带噪语音信号分帧后输入三支路网络中的时域波形校正支路;
[0014]幅度谱估计支路、复数谱细化支路和时域波形校正支路每一个中间层输出的幅度谱支路的幅度、复数谱细化支路的幅度、时域信息分别输入至跨域信息融合模块;
[0015]所述跨域信息融合模块对幅度谱支路的幅度、复数谱细化支路的幅度和时域波形校正支路的时域信息分别进行特征提取、融合和投影,得到针对幅度谱支路和复数谱细化支路的幅度的两个跨域增强校正掩码,利用时域信息实现校正,完成对幅度谱支路和复数谱细化支路的幅度的补偿;
[0016]所述跨域信息融合模块包括三个阶段,分别为特征提取阶段、特征融合阶段和特征投影阶段;
[0017]在特征提取阶段中,对幅度谱估计支路幅度信息进行深层特征提取,得到针对幅度谱估计支路的特征图;对复数谱细化支路的幅度信息进行深层特征提取,得到针对复数谱细化支路的幅度信息的特征图;对时域波形支路的时域信息进行深层特征提取,得到针对时域波形校正支路的特征图;
[0018]在特征融合阶段中,对针对幅度谱估计支路的特征图、针对复数谱细化支路的特征图和针对时域波形校正支路的特征图进行融合,得到一个跨域融合后的特征图;
[0019]在特征投影阶段中,将所述跨域融合后的特征图分别投影到幅度谱估计支路和复数谱细化支路的幅度上,分别得到针对幅度谱估计支路和复数谱细化支路的幅度的两个跨域增强校正掩码;
[0020]输入跨域信息融合模块的幅度谱估计支路和复数谱细化支路的幅度信息分别与该中间层的跨域信息融合模块输出的跨域增强校正掩码相乘,完成对这两个支路的幅度补偿;
[0021]在幅度谱估计支路、复数谱细化支路和时域波形校正支路每个中间层引入多个跨域信息融合模块,对输入的带噪语音信号进行逐级幅度补偿,构成逐级幅度补偿网络;
[0022]幅度谱估计支路最后的输出作为估计出的针对幅度谱的理想比值掩码,滤除主要的噪声成分;复数谱细化支路中最后的输出作为初步去噪的语音信号与增强后的语音信号之间的残差;
[0023]步骤3:将步骤2所述幅度谱估计支路输出的理想比值掩码与步骤1的幅度谱点乘后,再与步骤1中的相位耦合成初步去噪的语音信号,所述初步去噪的语音信号的频谱与步骤2复数谱细化支路输出的所述残差相加,重构最终输出增强后的语音信号的频谱,对所述增强之后的语音信号的频谱再经过短时傅里本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于逐级幅度补偿网络的单通道语音增强方法,其特征在于,包括:步骤1:将带噪语音信号做短时傅里叶变换STFT后得到带噪语音信号频谱中每一帧的复数谱、幅度谱和相位;步骤2:所述复数谱输入三支路网络中的复数谱细化支路;所述幅度谱输入三支路网络中的幅度谱估计支路;所述带噪语音信号分帧后输入三支路网络中的时域波形校正支路;幅度谱估计支路、复数谱细化支路和时域波形校正支路每一个中间层输出的幅度谱支路的幅度、复数谱细化支路的幅度、时域信息分别输入至跨域信息融合模块;所述跨域信息融合模块对幅度谱支路的幅度、复数谱细化支路的幅度和时域波形校正支路的时域信息分别进行特征提取、融合和投影,得到针对幅度谱支路和复数谱细化支路的幅度的两个跨域增强校正掩码,利用时域信息实现校正,完成对幅度谱支路和复数谱细化支路的幅度的补偿;所述跨域信息融合模块包括三个阶段,分别为特征提取阶段、特征融合阶段和特征投影阶段;在特征提取阶段中,对幅度谱估计支路幅度信息进行深层特征提取,得到针对幅度谱估计支路的特征图;对复数谱细化支路的幅度信息进行深层特征提取,得到针对复数谱细化支路的幅度信息的特征图;对时域波形支路的时域信息进行深层特征提取,得到针对时域波形校正支路的特征图;在特征融合阶段中,对针对幅度谱估计支路的特征图、针对复数谱细化支路的特征图和针对时域波形校正支路的特征图进行融合,得到一个跨域融合后的特征图;在特征投影阶段中,将所述跨域融合后的特征图分别投影到幅度谱估计支路和复数谱细化支路的幅度上,分别得到针对幅度谱估计支路和复数谱细化支路的幅度的两个跨域增强校正掩码;输入跨域信息融合模块的幅度谱估计支路和复数谱细化支路的幅度信息分别与该中间层的跨域信息融合模块输出的跨域增强校正掩码相乘,完成对这两个支路的幅度补偿;在幅度谱估计支路、复数谱细化支路和时域波形校正支路每个中间层引入跨域信息融合模块,对输入的带噪语音信号进行逐级幅度补偿,构成逐级幅度补偿网络;幅度谱估计支路最后的输出作为估计出的针对幅度谱的理想比值掩码,滤除主要的噪声成分;复数谱细化支路中最后的输出作为初步去噪的语音信号与增强后的语音信号之间的残差;步骤3:将步骤2所述幅度谱估计支路输出的理想比值掩码与步骤1的幅度谱点乘后,再与步骤1中的相位耦合成初步去噪的语音信号,所述初步去噪的语音信号的频谱与步骤2复数谱细化支路输出的所述残差相加,重构最终输出增强后的语音信号的频谱,对所述增强之后的语音信号的频谱再经过短时傅里叶反变换iSTFT后得到增强后的语音信号。2.根据权利要求1所述的基于逐级幅度补偿网络的单通道语音增强方法,其特征在于:所述幅度谱估计支路包括实数卷积编码器、实数长短时记忆网络LSTM及实数卷积解码器;实数卷积编码器对输入的带噪语音信号的幅度谱进行深度特征提取,得到一个具有深度特征信息的特征图,将所述特征图输入实数长短时记忆网络LSTM,对时间依赖关系进行建模,再经过实数卷积解码器恢复增强后的语音信号的幅度谱,和原始带噪语音信号的相位一起重构初步增强后的语音信号;
复数谱细化支路包括复数卷积编码器、复数长短时记忆网络LSTM及复数卷积解码器;复数卷积编码器对输入的带噪语音信号的复数谱进行深度特征提取,得到一个具有深度特征信息的特征图,把这个特征图输入复数长短时记忆网络LSTM,对时间依赖关系进行建模,再经过复数卷积解码器恢复出初步增强后的语音复数谱缺失的细节;时域波形校正支路包括实数卷积编码器、实数长短时记忆网络LSTM及实数卷积解码器;实数卷积编码器对输入的分帧时域带噪语音波形进行深度特征提取,得到一个具有深度特征信息的特征图,将所述特征图输入实数长短时记忆网络LSTM,对时间依赖关系进行建模,再经过实数卷积解码器解码。3.根据权利要求2所述的基于逐级幅度补偿网络的单通道语音增强方法,其特征在于:所述复数卷积编码器由六个卷积块堆叠而成,每一个卷积块由一个复数形式的卷积层、复数形式的批归一化层以及复数形式的带参ReLU激活函数组成;复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到,设复数形式的滤波器矩阵W=W
r
+jW
i
,复数形式的输入向量X=X
r
+jX
i
,其中,W
r
和W
i
是实数张量滤波器矩阵,X
r
和X
i
是实数输入张量,实值部分用来模拟复数运算,则复数卷积运算的输出表示为:F
out
=(X
r
*W
r

X
i
*W
i
)+j(X
r
*W
i
+X
i
*W
r
)
ꢀꢀꢀꢀ
(1)式中,F
out
是复数形式卷积层的输出;同理,也有复数形式LSTM层,输出F
LSTM
定义为:F
LSTM
=(F
rr

F
ii
)+j(F
ri
+F
ir
)F
rr
=LSTM
r
(X
r
),F
ii
=LSTM
i
(X
i
)F
ri
=LSTM
i
(X
r
),F
ir
=LSTM
r
(X
i
)
ꢀꢀꢀꢀ
(2)式中,LSTM表示LSTM神经网络,下标r和i分别表示对应网络的实部和虚部;复数卷积解码器由六个对应大...

【专利技术属性】
技术研发人员:叶中付陈雯卓
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1