基于注意力门控的循环神经网络的单通道语音增强方法技术

技术编号:21774585 阅读:21 留言:0更新日期:2019-08-03 22:23
本发明专利技术公开了一种基于注意力门控的循环神经网络的单通道语音增强方法,包括对带噪的单通道语音进行分帧加窗,提取38维信号特征;构建用于单通道语音增强的深度循环神经网络;利用纯净语音库和噪声库构建训练数据集;训练构建的深度循环神经网络;将提取的带噪语音特征输入训练好的深度循环神经网络,输出带噪语音的频带增益估计值,并进行平滑、内插得到内插增益;将内插增益作用于带噪的单通道语音,得到增强后的语音频谱。本发明专利技术能够有效抑制包括非平稳噪声在内的噪声,同时保持足够低的计算复杂度,从而能够用于实时的单通道语音增强,方法巧妙,构思新颖,具有良好的应用前景。

A Single Channel Speech Enhancement Method Based on Attention Gated Cyclic Neural Network

【技术实现步骤摘要】
基于注意力门控的循环神经网络的单通道语音增强方法
本专利技术涉及语音增强
,具体涉及一种基于注意力门控的循环神经网络的单通道语音增强方法。
技术介绍
语音增强作为语音信号处理的一个分支,在语音通信、助听设备、自动语音识别(ASR)系统前端等领域具有重要的应用。语音增强一般分为单通道语音增强和多通道语音增强。单通道语音增强由于不存在麦克风阵列的空间信息,实现起来相对更加困难。早期提出的一些无监督的单通道语音增强算法,比如谱减法、维纳滤波法、基于最小均方误差(MMSE)的幅度谱估计或对数域的谱估计方法,由于噪声平稳性的假设,无法有效抑制非平稳噪声。随后,基于隐马尔可夫模型(HMM)、非负矩阵分解(NMF)和深度学习的有监督的单通道语音增强算法被提出,其中深度学习的应用使语音增强领域取得了突破性的进展。神经网络凭借强大的拟合能力,能够从带噪语音的特征中学习纯净目标语音的表示,而不需要噪声平稳性的假设。但是,目前提出的语音增强方法一般对非平稳噪声的抑制效果欠佳,而且,基于深度学习的语音增强方法往往由于其高计算复杂度而无法应用于实时语音增强中,如何解决以上问题,是当前亟需解决的。
技术实现思路
本专利技术的目的是解决现有语音增强方法对非平稳噪声的抑制效果欠佳,以及基于深度学习的语音增强方法由于高计算复杂度而无法满足实时要求的问题。本专利技术的基于注意力门控的循环神经网络的单通道语音增强方法,能够有效抑制包括非平稳噪声在内的噪声,同时保持足够低的计算复杂度,从而能够用于实时的单通道语音增强,方法巧妙,构思新颖,具有良好的应用前景。为了达到上述目的,本专利技术所采用的技术方案是:一种基于注意力门控的循环神经网络的单通道语音增强方法,包括以下步骤,步骤(A),对带噪的单通道语音进行分帧加窗,提取38维信号特征,包括Bark频率倒谱系数及其衍生参数、基音相关系数的离散余弦变换、基音周期和频谱非平稳性度量参数;步骤(B),构建用于单通道语音增强的深度循环神经网络;步骤(C),利用纯净语音库和噪声库构建训练数据集;步骤(D),利用训练数据的38维信号特征,18维理想频带增益和1维信号活性标志,训练步骤(B)构建的深度循环神经网络;步骤(E),将提取的带噪语音特征输入训练好的深度循环神经网络,输出带噪语音的频带增益估计值,并进行平滑、内插得到内插增益;步骤(F),将内插增益作用于带噪的单通道语音,得到增强后的语音频谱。前述的基于注意力门控的循环神经网络的单通道语音增强方法,步骤(A),提取38维信号特征,具体包括18个Bark频率倒谱系数,前6个Bark频率倒谱系数的一阶时间导数和二阶时间导数,前6个频带间基音相关系数的离散余弦变换,1个基音周期系数以及1个频谱非平稳性度量参数。前述的基于注意力门控的循环神经网络的单通道语音增强方法,步骤(B),构建用于单通道语音增强的深度循环神经网络,该深度循环神经网络包含六层,第一层为Dense层,激活函数为tanh,单元数为24;第二到五层为注意力门控LSTM层,激活函数为tanh,单元数分别为24,48,48和96;第六层为Dense层,激活函数为sigmoid,单元数为18。该网络的第二层输出通过一层的Dense层,得到1维信号活性标志。前述的基于注意力门控的循环神经网络的单通道语音增强方法,所述深度循环神经网络的前向传播过程如公式(1)至公式(5)所示:at=σ[Vatanh(Wact-1)](1)ot=σ(Wo·[ht-1,xt]+bo)(2)其中,t为帧序号;a,o,c,h分别为注意力门、输出门、细胞状态矢量和隐藏矢量,为细胞候补状态矢量,它们是同维度的;x为输入矢量;Va和Wa均为计算注意力门的参数矩阵;Wo,bo分别为计算输出门的权重矩阵和偏置矢量;Wc,bc分别为计算候补状态矢量的权重矩阵和偏置矢量;σ为sigmoid函数;为逐元素相乘。前述的基于注意力门控的循环神经网络的单通道语音增强方法,步骤(C),利用纯净语音库和噪声库构建训练数据集,具体是将每个样本通过双二阶滤波器,以改变混合信号的幅度,所述双二阶滤波器H(z)的形式如公式(6)所示:其中,r1...r4是在[-3/8,3/8]范围内均匀分布的随机值。前述的基于注意力门控的循环神经网络的单通道语音增强方法,步骤(D),训练步骤(B)构建的深度循环神经网络,包括以下步骤。(D1),计算频带b的频带增益gb,如公式(7)所示,其中,Es(b)和Ex(b)分别为纯净语音和带噪语音在频带b的能量,gb的值在[0,1]之间;(D2),将提取的38维信号特征作为所述深度循环神经网络的输入;(D3),将18维理想频带增益和1维信号活性标志作为所述循环神经网络的训练目标,损失函数L如公式(8)所示:L=Lg+αLvad(8)其中,Lg为频带增益估计值对应的损失函数,Lvad为VAD估计值对应的损失函数,α为加权系数。其中,频带增益估计值对应的损失函数Lg如公式(9)所示:其中,为频带增益估计值,Lbin为交叉熵损失函数;(D4),训练时,每训练完一个批次,对所有参数作截断处理,使其范围在[-0.5,0.5]之间。前述的基于注意力门控的循环神经网络的单通道语音增强方法,步骤(E),对网络输出的频带增益估计值进行平滑、内插,得到内插增益,具体过程如下,平滑后的频带增益如公式(10)所示:其中,为前一帧的平滑增益,λ为衰减因子,每个频点k的内插增益r(k),如公式(11)所示:其中,wb(k)为频带b在频点k的幅度。前述的基于注意力门控的循环神经网络的单通道语音增强方法,步骤(F),将内插增益作用于带噪的单通道语音,得到增强后的语音频谱如公式(12)所示,其中,αb为滤波系数,P(k)为基音延迟信号x(n-T)的频谱,X(k)为带噪的单通道语音的频谱。本专利技术的有益效果是:本专利技术的基于注意力门控的循环神经网络的单通道语音增强方法,通过在传统LSTM模型中使用注意力,使单元专注于当前输入的上下文信息中对输出有用的信息,从而提高网络的学习能力。使用深度循环神经网络从带噪特征中估计频带增益,而不需要任何假设,通过在训练集中包含多种噪声条件可以提高网络的泛化能力。此外,循环神经网络只需输出18个在0~1之间的频带增益估计值和1个VAD估计值,大大降低了计算复杂度。本专利技术的单通道语音增强方法能够有效抑制包括非平稳噪声在内的噪声,通过频带划分避免噪声抑制中常见的音乐噪声问题,同时保持足够低的计算复杂度,从而能够用于实时的单通道语音增强,方法巧妙,构思新颖,具有良好的应用前景。附图说明图1是本专利技术的基于注意力门控的循环神经网络的单通道语音增强方法的流程图;图2是本专利技术的深度循环神经网络的框架示意图。具体实施方式下面将结合说明书附图,对本专利技术作进一步的说明。如图1所示,本专利技术的基于注意力门控的循环神经网络的单通道语音增强方法,包括以下步骤。步骤(A),对带噪的单通道语音进行分帧加窗,提取38维信号特征,包括Bark频率倒谱系数及其衍生参数、基音相关系数的离散余弦变换、基音周期和频谱非平稳性度量参数,具体包括18个Bark频率倒谱系数,前6个Bark频率倒谱系数的一阶时间导数和二阶时间导数,前6个频带间基音相关系数的离散余弦变换,1个基音周期系数以及1本文档来自技高网...

【技术保护点】
1.基于注意力门控的循环神经网络的单通道语音增强方法,其特征在于:包括以下步骤,步骤(A),对带噪的单通道语音进行分帧加窗,提取38维信号特征,包括Bark频率倒谱系数及其衍生参数、基音相关系数的离散余弦变换、基音周期和频谱非平稳性度量参数;步骤(B),构建用于单通道语音增强的深度循环神经网络;步骤(C),利用纯净语音库和噪声库构建训练数据集;步骤(D),利用训练数据的38维信号特征,18维理想频带增益和1维信号活性标志,训练步骤(B)构建的深度循环神经网络;步骤(E),将提取的带噪语音特征输入训练好的深度循环神经网络,输出带噪语音的频带增益估计值,并进行平滑、内插得到内插增益;步骤(F),将内插增益作用于带噪的单通道语音,得到增强后的语音频谱。

【技术特征摘要】
1.基于注意力门控的循环神经网络的单通道语音增强方法,其特征在于:包括以下步骤,步骤(A),对带噪的单通道语音进行分帧加窗,提取38维信号特征,包括Bark频率倒谱系数及其衍生参数、基音相关系数的离散余弦变换、基音周期和频谱非平稳性度量参数;步骤(B),构建用于单通道语音增强的深度循环神经网络;步骤(C),利用纯净语音库和噪声库构建训练数据集;步骤(D),利用训练数据的38维信号特征,18维理想频带增益和1维信号活性标志,训练步骤(B)构建的深度循环神经网络;步骤(E),将提取的带噪语音特征输入训练好的深度循环神经网络,输出带噪语音的频带增益估计值,并进行平滑、内插得到内插增益;步骤(F),将内插增益作用于带噪的单通道语音,得到增强后的语音频谱。2.根据权利要求1所述的基于注意力门控的循环神经网络的单通道语音增强方法,其特征在于:步骤(A),提取38维信号特征,具体包括18个Bark频率倒谱系数,前6个Bark频率倒谱系数的一阶时间导数和二阶时间导数,前6个频带间基音相关系数的离散余弦变换,1个基音周期系数以及1个频谱非平稳性度量参数。3.根据权利要求1所述的基于注意力门控的循环神经网络的单通道语音增强方法,其特征在于:步骤(B),构建用于单通道语音增强的深度循环神经网络,该深度循环神经网络包含六层,第一层为Dense层,激活函数为tanh,单元数为24;第二到五层为注意力门控LSTM层,激活函数为tanh,单元数分别为24,48,48和96;第六层为Dense层,激活函数为sigmoid,单元数为18。该网络的第二层输出通过一层的Dense层,得到1维信号活性标志。4.根据权利要求3所述的基于注意力门控的循环神经网络的单通道语音增强方法,其特征在于:所述深度循环神经网络的前向传播过程如公式(1)至公式(5)所示:at=σ[Vatanh(Wact-1)](1)ot=σ(Wo·[ht-1,xt]+bo)(2)其中,t为帧序号;a,o,c,h分别为注意力门、输出门、细胞状态矢量和隐藏矢量,为细胞候补状态矢量,它们是同维度的;x为输入矢量;Va和Wa均为计算注意力门的参数矩阵;Wo,bo分别为计...

【专利技术属性】
技术研发人员:梁瑞宇孔凡留谢跃王青云程佳鸣孙世若赵力
申请(专利权)人:南京工程学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1