一种基于双通道卷积注意力网络的语音增强方法及系统技术方案

技术编号:30704570 阅读:21 留言:0更新日期:2021-11-06 09:47
本发明专利技术公开了一种基于双通道卷积注意力网络的语音增强方法,包括以下步骤:首先对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征作为模型的输入特征;然后将输入特征分别送入卷积神经网络通道和长短时记忆网络通道中进行深层特征提取,并在两个通道中分别添加卷积注意力模块和空间注意力模块,用于对两个通道中产生的特征图自适应调整;进一步完成增强语音对数幅度谱特征的预测;最后将预测结果和带噪语音相位结合得到增强语音的频域表示,并通过逆傅里叶变换转换回时域,再利用重叠相加的方法完成增强语音的整体合成。本发明专利技术能够有效提高了增强语音的质量和可懂度。明能够有效提高了增强语音的质量和可懂度。明能够有效提高了增强语音的质量和可懂度。

【技术实现步骤摘要】
一种基于双通道卷积注意力网络的语音增强方法及系统


[0001]本专利技术涉及语音信号处理领域,特别是涉及一种基于双通道卷积注意力网 络的语音增强方法及系统。

技术介绍

[0002]随着经济水平以及科技能力的不断进步,越来越多的智能设备在各个领域 逐步应用起来,新型智能设备的使用正不断改善人们的生活质量。现如今人机 交互的方式正逐步摆脱传统的键盘式方法,而开始使用语音交互方式,并逐步 应用在各种平台,如:微软的语音助手小娜;小米的语音助手小爱同学;苹果 的语音助手Siri以及讯飞的语音输入法等。这些语音助手的出现极大方便了人 们的生产生活,然而这些交互方式都存在一定的问题,如在环境嘈杂时,设备 的唤醒率低的现象,严重情况下也会导致语音信号的失真,如何降低由于周围 环境带来的不良影响是当前的首要的任务。因此,对包含环境噪声的语音信号 进行增强是对现实生活都有益的一项工作。
[0003]语音增强的主要任务是通过去除带噪语音中的噪声来提升语音的质量和可 懂度的技术。目前语音增强的方法主要有两种,基于统计学的传统语音增强方 法和基于深度学习的语音增强方法。其中基于统计学的传统方法是通过一些假 设来进行语音增强任务,在平稳噪声和高信噪比的前提下,增强语音取得了比 较好的效果。但是实际应用中,这些假设很难得到满足,尤其是在低信噪比和 非平稳噪声的环境中,增强效果往往不尽人意。基于深度学习技术的出现是为 解决传统算法在实际应用中性能较差的问题,研究表明,使用全连接层堆叠的 深度神经网络(Deep neural network,DNN)模型与传统算法相比,增强后的语 音性能得到大幅度提升。依靠DNN强大的学习能力和非线性映射能力,越来越 多的深度学习方法被使用,并且也取得了很好的效果,尤其是在非平稳噪声以 及低信噪比的环境中。
[0004]使用传统方法进行语音增强的时候,都是对语音信号进行不合理的假设, 但是这些假设并不满足现实条件。而如今的深度学习方法中大多是通过构建单 独使用CNN或者LSTM等单通道的网络模型进行语音增强,这些方法在不可见 噪声中的性能受到一定的约束,同时随着网络层数的增加,其性能也将受到影 响,无法充分提取语音信号的深层特征。另外常见的卷积操作对训练中产生的 特征图处理方式是一致的,并没有在通道以及空间维度对有益的特征信息进行 区分,无法分辨带噪语音中关键信息,从而导致增强结果中受噪声等非关键信 息的影响很大。

技术实现思路

[0005]针对上述问题,本专利技术提供了一种可提高增强语音的质量的基于双通道卷 积注意力网络的语音增强方法及系统。
[0006]为了解决上述技术问题,本专利技术第一方面提供的技术方案为:一种基于双 通道卷积注意力网络的语音增强方法,所述语音增强方法包括以下步骤:
[0007]将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征,学习所述输 入特征不同粒度的深层信息,同时在该通道内添加卷积注意力模块,完成深度 信息输出特征图在通道以及空间两个维度的重构,得到第一输出结果;
[0008]将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征,学习所述 输入特征的序列信息,并在该通道内添加空间注意力模块,完成序列信息输出 特征图在空间维度的重构,得到第二输出结果;
[0009]将第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全 连接层的输入,进行增强语音的对数幅度谱特征预测;
[0010]将预测结果和带噪语音的相位结合得到增强语音的频域表示,并通过傅里 叶逆变换转换回时域,再利用重叠相加的方法完成合成增强语音并输出。
[0011]优选的,所述带噪语音的对数幅度谱特征向量的提取方式包括:对时域带 噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪 语音的对数幅度谱特征向量。
[0012]优选的,所述对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变 换转换到时频域,提取带噪语音的对数幅度谱特征的步骤具体包括:
[0013]对带噪语音降采样到8000Hz,然后采用窗长为32ms、采样点位256个的汉 明窗进行分帧处理,帧与帧之间有50%的重叠,即帧移为16ms、采样点位128 个,之后对每一帧结果进行256点的傅里叶变换,将时域信号转换到频域;
[0014]对得到的每一帧的频域信号依次进行取模、取对数操作,表示如下:
[0015]Y
t
=ln(|X(t,d))
[0016]其中,Y
t
代表第t时间帧、第d个频带的带噪语音X(t,d)的对数幅度谱特征; 对带噪语音的对数幅度谱特征进行帧扩展,表示如下:
[0017]Y=[Y
t

n
,Y
t

n+1

Y
t
‑1,Y
t
,Y
t+1

,Y
t+n
‑1…
Y
t+n
[0018]其中,Y代表对数幅度谱特征进行帧扩展值,t

n,t

n+1,

,t+n代表 时间帧(t,n=1,2,

,N,且t≠n,),Y∈R
(2n+1)
×
d
,R代表特征图集合,2n+1 代表输入网络的时间帧数,取值为15,d代表对应的特征维度,取值129;
[0019]对经过帧扩展的特征向量按照均值为0,方差为1进行归一化处理,表示如 下:
[0020][0021]其中,Y

代表帧扩展的特征向量,Y代表对数幅度谱特征进行帧扩展值,μ 代表输入数据Y的均值,σ代表输入数据Y的方差。
[0022]优选的,所述将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征, 学习所述输入特征不同粒度的深层信息,同时在卷积层后添加卷积注意力模块, 完成深层信息输出特征图的通道和空间两个维度的重构的步骤包括:
[0023]对输入的带噪语音特征向量连续进行两次二维卷积操作,卷积操作表示如 下:
[0024]M
i
=f(W
·
Y
i
+b)
[0025]上式中,Y
i
代表第i个输入的特征图,b为对应的偏置项,W为相应的局部 权值矩阵,卷积核的大小依次为16、32,其中大小为1
×
3,步长为1
×
1,f为ReLU 激活函数,公式表示如下:
[0026]f(x)=max(0,x)
[0027]再经过两次连续的卷积操作后生成特征图为M∈R
C*H*W
,其中,R代表特征 图集合,C代表特征图的通道数,H代表特征图的高度,W代表特征图的宽度;
[0028]生成的特征图M,作为卷积注意力模块的输入,所述卷积注意力模块包括 通道和空间两种注意力模块;首先进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双通道卷积注意力网络的语音增强方法,其特征在于,所述语音增强方法包括以下步骤:将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征,学习所述输入特征不同粒度的深层信息,同时在该通道内添加卷积注意力模块,完成深度信息输出特征图在通道以及空间两个维度的重构,得到第一输出结果;将带噪语音的对数幅度谱特征向量作为LSTM通道的输入特征,学习所述输入特征的序列信息,并在该通道内添加空间注意力模块,完成序列信息输出特征图在空间维度的重构,得到第二输出结果;将第一输出结果和第二输出结果进行特征融合,融合后的增强特征作为全连接层的输入,进行增强语音的对数幅度谱特征预测;将预测结果和带噪语音的相位结合得到增强语音的频域表示,并通过傅里叶逆变换转换回时域,再利用重叠相加的方法完成合成增强语音并输出。2.根据权利要求1所述的一种双通道卷积注意力网络的语音增强方法,其特征在于,所述带噪语音的对数幅度谱特征向量的提取方式包括:对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征向量。3.根据权利要求2所述的一种双通道卷积注意力网络的语音增强方法,其特征在于,所述对时域带噪语音进行加窗分帧,并对分帧结果进行傅里叶变换转换到时频域,提取带噪语音的对数幅度谱特征的步骤具体包括:对带噪语音降采样到8000Hz,然后采用窗长为32ms、采样点位256个的汉明窗进行分帧处理,帧与帧之间有50%的重叠,即帧移为16ms、采样点位128个,之后对每一帧结果进行256点的傅里叶变换,将时域信号转换到频域;对得到的每一帧的频域信号依次进行取模、取对数操作,表示如下:Y
t
=ln(|X(t,d)|)其中,Y
t
代表第t时间帧、第d个频带的带噪语音X(t,d)的对数幅度谱特征;对带噪语音的对数幅度谱特征进行帧扩展,表示如下:Y=[Y
t

n
,Y
t

n+1

Y
t
‑1,Y
t
,Y
t+1

Y
t+n
‑1,Y
t+n
]其中,Y代表对数幅度谱特征进行帧扩展值,t

n,t

n+1,

,t+n代表时间帧(t,n=1,2,

,N,且t≠n,),Y∈R
(2n+1)
×
d
,R代表特征图集合,2n+1代表输入网络的时间帧数,取值为15,d代表对应的特征维度,取值129;对经过帧扩展的特征向量按照均值为0,方差为1进行归一化处理,表示如下:其中,Y

代表帧扩展的特征向量,Y代表对数幅度谱特征进行帧扩展值,μ代表输入数据Y的均值,σ代表输入数据Y的方差。4.根据权利要求1

3任一所述的一种双通道卷积注意力网络的语音增强方法,其特征在于,所述将带噪语音的对数幅度谱特征向量作为CNN通道的输入特征,学习所述输入特征不同粒度的深层信息,同时在卷积层后添加卷积注意力模块,完成深层信息输出特征图的通道和空间两个维度的重构的步骤包括:对输入的带噪语音特征向量连续进行两次二维卷积操作,卷积操作表示如下:
M
i
=f(W
·
Y
i
+b)上式中,Y
i
代表第i个输入的特征图,b为对应的偏置项,W为相应的局部权值矩阵,卷积核的大小依次为16、32,其中大小为1
×
3,步长为1
×
1,f为ReLU激活函数,公式表示如下:f(x)=max(0,x)再经过两次连续的卷积操作后生成特征图为M∈R
C*H*W
,其中,R代表特征图集合,C代表特征图的通道数,H代表特征图的高度,W代表特征图的宽度;生成的特征图M,作为卷积注意力模块的输入,所述卷积注意力模块包括通道和空间两种注意力模块;首先进行通道维度的特征图计算,采用全局平均池化和全局最大池化两种池化方式,将输入特征图M维度压缩成一维,分别为和之后使用两个卷积核大小为3
×
3,步长为1
×
1的卷积层对池化结果进行调整,这里卷积核的个数分别为C/8和C,其中C为通道数;然后对输出结果进行逐点相加生成通道注意力权重,同时使用Sigmoid激活函数对通道注意力权重进行归一化;最后将通道注意力权重与该模块输入特征图M进行逐元素相乘完成通道维度的特征图重构,其计算过程为:M
chan
=σ(f
conv
×
ReLU(f
conv
×
Avgpool(M))+f
conv
×
ReLU(f
conv
×
Maxpool(M)))其中,表示逐元素相乘,σ代表Sigmoid激活函数,M
chan
代表通道注意力权重,M
out1
代表通道注意力特征图,f
conv
表示卷积操作,Avgpool(
·
)以及Maxpool(
·
)分别对应全局平均池化和全局最大池化;生成的特征图M
out1
,作为空间注意力模块的输入;首先通道注意力特征图M
out1
分别经过最大池化和平均池化,完成通道维度的压缩,池化输出结果依次为以及之后在通道维度对池化输出结果进行拼接,拼接后的特征图通道数为2;然后采用卷积核大小为3
×
3,步长为1
×
1的卷积操作生成空间注意力权重,同时使用Sigmoid激活函数对空间注意力权重进行归一化处理;最后将空间注意力权重与该模块输入M
out1
进行逐元素相乘完成空间维度的特征图重构,其计算过程为:M
spat
=σ(f
conv
[Avgpool(M
out1
);Maxpool(M
out1
)])其中,σ代表Sigmoid激活函数,符号;代表池化结果的拼接操作,M
out1
代表通道注意力特征图,表示逐元素相乘,M
spat
代表空间注意力权重,M
out2
代表空间注意力特征图,f
conv
表示卷积操作,Avgpool(
·
)以及Maxpool(
·
)分别对应平均池化和最大池化;将重构后的空间注意力特征图M
out2
送入最大池化层来降低特征维度,最大池化函数表示为:M
p
=max(M
out2
)其中,M
p
代表最大池化的特征图,M
out2
代表空间注意力特征图,池化层的大小和步长依次为1
×
3和...

【专利技术属性】
技术研发人员:雷斌
申请(专利权)人:北京至芯开源科技有限责任公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1