一种基于双通道卷积注意力网络的语音增强方法及系统技术方案

技术编号：30704570 阅读：22 留言：0更新日期：2021-11-06 09:47

本发明专利技术公开了一种基于双通道卷积注意力网络的语音增强方法，包括以下步骤：首先对时域带噪语音进行加窗分帧，并对分帧结果进行傅里叶变换转换到时频域，提取带噪语音的对数幅度谱特征作为模型的输入特征；然后将输入特征分别送入卷积神经网络通道和长短时记忆网络通道中进行深层特征提取，并在两个通道中分别添加卷积注意力模块和空间注意力模块，用于对两个通道中产生的特征图自适应调整；进一步完成增强语音对数幅度谱特征的预测；最后将预测结果和带噪语音相位结合得到增强语音的频域表示，并通过逆傅里叶变换转换回时域，再利用重叠相加的方法完成增强语音的整体合成。本发明专利技术能够有效提高了增强语音的质量和可懂度。明能够有效提高了增强语音的质量和可懂度。明能够有效提高了增强语音的质量和可懂度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双通道卷积注意力网络的语音增强方法及系统

[0001]本专利技术涉及语音信号处理领域，特别是涉及一种基于双通道卷积注意力网络的语音增强方法及系统。

技术介绍

[0002]随着经济水平以及科技能力的不断进步，越来越多的智能设备在各个领域逐步应用起来，新型智能设备的使用正不断改善人们的生活质量。现如今人机交互的方式正逐步摆脱传统的键盘式方法，而开始使用语音交互方式，并逐步应用在各种平台，如：微软的语音助手小娜；小米的语音助手小爱同学；苹果的语音助手Siri以及讯飞的语音输入法等。这些语音助手的出现极大方便了人们的生产生活，然而这些交互方式都存在一定的问题，如在环境嘈杂时，设备的唤醒率低的现象，严重情况下也会导致语音信号的失真，如何降低由于周围环境带来的不良影响是当前的首要的任务。因此，对包含环境噪声的语音信号进行增强是对现实生活都有益的一项工作。
[0003]语音增强的主要任务是通过去除带噪语音中的噪声来提升语音的质量和可懂度的技术。目前语音增强的方法主要有两种，基于统计学的传统语音增强方法和基于深度学习的语音增强方法。其中基于统计学的传统方法是通过一些假设来进行语音增强任务，在平稳噪声和高信噪比的前提下，增强语音取得了比较好的效果。但是实际应用中，这些假设很难得到满足，尤其是在低信噪比和非平稳噪声的环境中，增强效果往往不尽人意。基于深度学习技术的出现是为解决传统算法在实际应用中性能较差的问题，研究表明，使用全连接层堆叠的深度神经网络(Deep neural network...

【技术保护点】

【技术特征摘要】
1.一种基于双通道卷积注意力网络的语音增强方法，其特征在于，所述语音增强方法包括以下步骤：将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征，学习所述输入特征不同粒度的深层信息，同时在该通道内添加卷积注意力模块，完成深度信息输出特征图在通道以及空间两个维度的重构，得到第一输出结果；将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征，学习所述输入特征的序列信息，并在该通道内添加空间注意力模块，完成序列信息输出特征图在空间维度的重构，得到第二输出结果；将第一输出结果和第二输出结果进行特征融合，融合后的增强特征作为全连接层的输入，进行增强语音的对数幅度谱特征预测；将预测结果和带噪语音的相位结合得到增强语音的频域表示，并通过傅里叶逆变换转换回时域，再利用重叠相加的方法完成合成增强语音并输出。2.根据权利要求1所述的一种双通道卷积注意力网络的语音增强方法，其特征在于，所述带噪语音的对数幅度谱特征向量的提取方式包括：对时域带噪语音进行加窗分帧，并对分帧结果进行傅里叶变换转换到时频域，提取带噪语音的对数幅度谱特征向量。3.根据权利要求2所述的一种双通道卷积注意力网络的语音增强方法，其特征在于，所述对时域带噪语音进行加窗分帧，并对分帧结果进行傅里叶变换转换到时频域，提取带噪语音的对数幅度谱特征的步骤具体包括：对带噪语音降采样到8000Hz，然后采用窗长为32ms、采样点位256个的汉明窗进行分帧处理，帧与帧之间有50％的重叠，即帧移为16ms、采样点位128个，之后对每一帧结果进行256点的傅里叶变换，将时域信号转换到频域；对得到的每一帧的频域信号依次进行取模、取对数操作，表示如下：Y
t
＝ln(|X(t,d)|)其中，Y
t
代表第t时间帧、第d个频带的带噪语音X(t,d)的对数幅度谱特征；对带噪语音的对数幅度谱特征进行帧扩展，表示如下：Y＝[Y
t
‑
n
,Y
t
‑
n+1
…
Y
t
‑1,Y
t
,Y
t+1
…
Y
t+n
‑1，Y
t+n
]其中，Y代表对数幅度谱特征进行帧扩展值，t
‑
n，t
‑
n+1，
…
，t+n代表时间帧(t，n＝1，2，
…
，N，且t≠n，)，Y∈R
(2n+1)
×
d
，R代表特征图集合，2n+1代表输入网络的时间帧数，取值为15，d代表对应的特征维度，取值129；对经过帧扩展的特征向量按照均值为0，方差为1进行归一化处理，表示如下：其中，Y
′
代表帧扩展的特征向量，Y代表对数幅度谱特征进行帧扩展值，μ代表输入数据Y的均值，σ代表输入数据Y的方差。4.根据权利要求1
‑
3任一所述的一种双通道卷积注意力网络的语音增强方法，其特征在于，所述将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征，学习所述输入特征不同粒度的深层信息，同时在卷积层后添加卷积注意力模块，完成深层信息输出特征图的通道和空间两个维度的重构的步骤包括：对输入的带噪语音特征向量连续进行两次二维卷积操作，卷积操作表示如下：
M
i
＝f(W
·
Y
i
+b)上式中，Y
i
代表第i个输入的特征图，b为对应的偏置项，W为相应的局部权值矩阵，卷积核的大小依次为16、32，其中大小为1
×
3，步长为1
×
1，f为ReLU激活函数，公式表示如下：f(x)＝max(0,x)再经过两次连续的卷积操作后生成特征图为M∈R
C*H*W
，其中，R代表特征图集合，C代表特征图的通道数，H代表特征图的高度，W代表特征图的宽度；生成的特征图M，作为卷积注意力模块的输入，所述卷积注意力模块包括通道和空间两种注意力模块；首先进行通道维度的特征图计算，采用全局平均池化和全局最大池化两种池化方式，将输入特征图M维度压缩成一维，分别为和之后使用两个卷积核大小为3
×
3，步长为1
×
1的卷积层对池化结果进行调整，这里卷积核的个数分别为C/8和C，其中C为通道数；然后对输出结果进行逐点相加生成通道注意力权重，同时使用Sigmoid激活函数对通道注意力权重进行归一化；最后将通道注意力权重与该模块输入特征图M进行逐元素相乘完成通道维度的特征图重构，其计算过程为：M
chan
＝σ(f
conv
×
ReLU(f
conv
×
Avgpool(M))+f
conv
×
ReLU(f
conv
×
Maxpool(M)))其中，表示逐元素相乘，σ代表Sigmoid激活函数，M
chan
代表通道注意力权重，M
out1
代表通道注意力特征图，f
conv
表示卷积操作，Avgpool(
·
)以及Maxpool(
·
)分别对应全局平均池化和全局最大池化；生成的特征图M
out1
，作为空间注意力模块的输入；首先通道注意力特征图M
out1
分别经过最大池化和平均池化，完成通道维度的压缩，池化输出结果依次为以及之后在通道维度对池化输出结果进行拼接，拼接后的特征图通道数为2；然后采用卷积核大小为3
×
3，步长为1
×
1的卷积操作生成空间注意力权重，同时使用Sigmoid激活函数对空间注意力权重进行归一化处理；最后将空间注意力权重与该模块输入M
out1
进行逐元素相乘完成空间维度的特征图重构，其计算过程为：M
spat
＝σ(f
conv
[Avgpool(M
out1
)；Maxpool(M
out1
)])其中，σ代表Sigmoid激活函数，符号；代表池化结果的拼接操作，M
out1
代表通道注意力特征图，表示逐元素相乘，M
spat
代表空间注意力权重，M
out2
代表空间注意力特征图，f
conv
表示卷积操作，Avgpool(
·
)以及Maxpool(
·
)分别对应平均池化和最大池化；将重构后的空间注意力特征图M
out2
送入最大池化层来降低特征维度，最大池化函数表示为：M
p
＝max(M
out2
)其中，M
p
代表最大池化的特征图，M
out2
代表空间注意力特征图，池化层的大小和步长依次为1
×
3和...

【专利技术属性】
技术研发人员：雷斌，
申请(专利权)人：北京至芯开源科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人