一种基于交互性时频注意力机制的单通道语音增强方法技术

技术编号：35479182 阅读：40 留言：0更新日期：2022-11-05 16:29

本发明专利技术涉及一种基于交互性时频注意力机制的单通道语音增强方法，采用复数形式的Transformer模型分别在时域、频域、通道域捕捉语音信号中长期的上下文关系，这既弥补了以往神经网络在时域捕捉长期上下文信息能力的不足，又通过频域注意力机制捕捉不同频带之间的相互关系，还利用复数形式的注意力机制取代了传统实数形式的注意力机制同时对幅度和相位进行增强；在时域注意力机制模块与频域注意力机制模块之间引入交互模块，从时域或者频域注意力分支中提取相关信息添加到另一分支中，弥补两个分支学习后的特征图的缺失；本发明专利技术既可以在没有特征缺失的情况下建模不同通道之间的相关性，又在两级Transformer模块之间引入残差连接，减小了训练过程中的梯度消失问题。减小了训练过程中的梯度消失问题。减小了训练过程中的梯度消失问题。

全部详细技术资料下载

【技术实现步骤摘要】
transformer:Aframeworkformodelingcomplex
‑
valuedsequence.”In:ICASSP2020
‑
2020IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2020,pp.4232
–
4236

技术实现思路

[0008]基于现有技术存在模型复杂度高，语音增强效果有限的问题，本专利技术提供一种基于交互性时频注意力机制的单通道语音增强方法，在增强效果和上比一般的语音增强神经网络有明显的优势，能够解决平稳或非平稳噪声干扰下的语音降噪问题。
[0009]本专利技术的目的是通过以下技术方案实现的：一种基于交互性时频注意力机制的单通道语音增强方法，包括：
[0010]步骤1：将带噪语音信号进行短时傅里叶变换STFT，得到带噪语音信号频谱中每一帧的实部和虚部，输入作为编码器的复数形式的深度卷积神经网络中，得到经过深度卷积神经网络特征压缩后的特征图；
[0011]步骤2：将步骤1得到的深度卷积神经网络进行特征压缩后的特征图分别输入到时域复数变换模块、频域复数变换模块和改进的复数形式的通道注意力模块中；时域复数变换模块和频域复数变换模块并行学习时域和频域的信息；在时域复数变换模块和频域复数变换模块之间引入交互模块，交互模块对时域注意力和频域注意力输出的特征图起到互补作用，交互模块对时域注意力的输出添加额外的频域信息，为频域注意力添加...

【技术保护点】

【技术特征摘要】
1.一种基于交互性时频注意力机制的单通道语音增强方法，其特征在于，包括以下步骤：步骤1：将带噪语音信号进行短时傅里叶变换STFT，得到带噪语音信号频谱中每一帧的实部和虚部，输入作为编码器的复数形式的深度卷积神经网络中，得到经过深度卷积神经网络特征压缩后的特征图；步骤2：将步骤1得到的深度卷积神经网络进行特征压缩后的特征图分别输入到时域复数变换模块、频域复数变换模块和改进的复数形式的通道注意力模块中；时域复数变换模块和频域复数变换模块并行学习时域和频域的信息；在时域复数变换模块和频域复数变换模块之间引入交互模块，交互模块对时域注意力和频域注意力输出的特征图起到互补作用，交互模块对时域注意力的输出添加额外的频域信息，为频域注意力添加额外的时域信息；时域复数变换模块和频域复数变换模块分别学习到时域特征图和频域特征图在时域和频域上的相关性，该相关性捕获时域长期上下文之间的关系与频域子带之间的跨频带关系；再将交互模块的输出进行加权，得到输出后的特征图；改进的复数形式的通道注意力模块利用一维卷积层与池化层在通道维度的加权信息对深度卷积神经网络中的每一层的特征图进行加权，最终得到深度卷积神经网络中每一层加权后的特征图；步骤3：将步骤2的输出的特征图输入到解码器的复数形式的深度反卷积神经网络中，深度反卷积神经网络与深度卷积神经网络利用步骤2中改进的复数形式通道注意力模块相连，构成编码器
‑
解码器结构，得到复理想比率掩码cIRM，并利用复理想比率掩码cIRM重构增强之后的语音信号的频谱，对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。2.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法，其特征在于：所述步骤1中，短时傅里叶变换STFT包括：对带噪语音进行降采样，使得所有音频信号的采样率均为16KHz，经过帧长为400，帧移为200，窗函数选择汉宁窗的短时傅里叶变换后，得到带噪语音信号频谱中每一帧的实部和虚部，如下所示：Y(t,f)＝S(t,f)+N(t,f)(1)式中，Y＝Y
r
+jY
i
S＝S
r
+jS
i
其中，Y(t，f)表示经过短时傅里叶变换后的单通道待增强语音频谱，t表示时间维度，f表示频率维度；S(t，f)和N(t，f)代表干净语音和背景噪声，Y和S表示Y(t，f)和S(t，f)的频谱，下标r和i分别代表频谱的实部和虚部，短时傅里叶变换点数为512，变换后的257维对应着频率范围从0到8000Hz。3.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法，其特征在于：所述步骤1中，复数形式的深度卷积神经网络包括：作为对带噪语音频谱进行特征提取的编码器，编码器中由有六个卷积块堆叠而成，每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参ReLU激活函数组成；复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到，设复数形式的滤波器矩阵W＝W
r
+jW
i
，复数形式的输入向量X＝X
r
+jX
i
，其中，W
r
和W
i
是实
数张量滤波器矩阵，X
r
和X
i
是实数输入张量，实值部分用来模拟复数运算，则复数卷积运算的输出表示为：F
out
＝(X
r
*W
r
‑
X
i
*W
i
)+j(X
r
*W
i
+X
i
*W
r
)(2)式中，F
out
是复数形式卷积层的输出；同理，也有复数形式的GRU层和复数形式的全连接层，输出F
gru
与F
linear
分别为：F
gru
＝(F
rr
‑
F
ii
)+j(F
ri
+F
ir
)F
rr
＝GRU
r
(X
r
)F
ir
＝GRU
r
(X
i
)F
ri
＝GRU
i
(X
r
)F
ii
＝GRU
i
(X
i
)(3)F
linear
＝(F
rr
‑
F
ii
)+j(F
ri
+F
ir
)F
rr
＝Linear
r
(X
r
)F
ir
＝Linear
r
(X
i
)F
ri
＝Linear
i
(X
r
)F
ii
＝Linear
i
(X
i
)(4}式中，GRU和Linear分别表示GRU神经网络和全连接神经网络，下标r和i分别表示对应网络的实部和虚部。4.根据权利要求1所述的...

【专利技术属性】
技术研发人员：叶中付，于润祥，赵紫微，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人