基于注意力门控的循环神经网络的单通道语音增强方法技术

技术编号：21774585 阅读：21 留言：0更新日期：2019-08-03 22:23

本发明专利技术公开了一种基于注意力门控的循环神经网络的单通道语音增强方法，包括对带噪的单通道语音进行分帧加窗，提取38维信号特征；构建用于单通道语音增强的深度循环神经网络；利用纯净语音库和噪声库构建训练数据集；训练构建的深度循环神经网络；将提取的带噪语音特征输入训练好的深度循环神经网络，输出带噪语音的频带增益估计值，并进行平滑、内插得到内插增益；将内插增益作用于带噪的单通道语音，得到增强后的语音频谱。本发明专利技术能够有效抑制包括非平稳噪声在内的噪声，同时保持足够低的计算复杂度，从而能够用于实时的单通道语音增强，方法巧妙，构思新颖，具有良好的应用前景。

A Single Channel Speech Enhancement Method Based on Attention Gated Cyclic Neural Network

全部详细技术资料下载

【技术实现步骤摘要】
基于注意力门控的循环神经网络的单通道语音增强方法
本专利技术涉及语音增强
，具体涉及一种基于注意力门控的循环神经网络的单通道语音增强方法。
技术介绍
语音增强作为语音信号处理的一个分支，在语音通信、助听设备、自动语音识别(ASR)系统前端等领域具有重要的应用。语音增强一般分为单通道语音增强和多通道语音增强。单通道语音增强由于不存在麦克风阵列的空间信息，实现起来相对更加困难。早期提出的一些无监督的单通道语音增强算法，比如谱减法、维纳滤波法、基于最小均方误差(MMSE)的幅度谱估计或对数域的谱估计方法，由于噪声平稳性的假设，无法有效抑制非平稳噪声。随后，基于隐马尔可夫模型(HMM)、非负矩阵分解(NMF)和深度学习的有监督的单通道语音增强算法被提出，其中深度学习的应用使语音增强领域取得了突破性的进展。神经网络凭借强大的拟合能力，能够从带噪语音的特征中学习纯净目标语音的表示，而不需要噪声平稳性的假设。但是，目前提出的语音增强方法一般对非平稳噪声的抑制效果欠佳，而且，基于深度学习的语音增强方法往往由于其高计算复杂度而无法应用于实时语音增强中，如何解决以上问题，是当前亟需解决的。
技术实现思路
本专利技术的目的是解决现有语音增强方法对非平稳噪声的抑制效果欠佳，以及基于深度学习的语音增强方法由于高计算复杂度而无法满足实时要求的问题。本专利技术的基于注意力门控的循环神经网络的单通道语音增强方法，能够有效抑制包括非平稳噪声在内的噪声，同时保持足够低的计算复杂度，从而能够用于实时的单通道语音增强，方法巧妙，构思新颖，具有良好的应用前景。为了达到上述目的，本专利技术所采用的...

【技术保护点】
1.基于注意力门控的循环神经网络的单通道语音增强方法，其特征在于：包括以下步骤，步骤(A)，对带噪的单通道语音进行分帧加窗，提取38维信号特征，包括Bark频率倒谱系数及其衍生参数、基音相关系数的离散余弦变换、基音周期和频谱非平稳性度量参数；步骤(B)，构建用于单通道语音增强的深度循环神经网络；步骤(C)，利用纯净语音库和噪声库构建训练数据集；步骤(D)，利用训练数据的38维信号特征，18维理想频带增益和1维信号活性标志，训练步骤(B)构建的深度循环神经网络；步骤(E)，将提取的带噪语音特征输入训练好的深度循环神经网络，输出带噪语音的频带增益估计值，并进行平滑、内插得到内插增益；步骤(F)，将内插增益作用于带噪的单通道语音，得到增强后的语音频谱。

【技术特征摘要】
1.基于注意力门控的循环神经网络的单通道语音增强方法，其特征在于：包括以下步骤，步骤(A)，对带噪的单通道语音进行分帧加窗，提取38维信号特征，包括Bark频率倒谱系数及其衍生参数、基音相关系数的离散余弦变换、基音周期和频谱非平稳性度量参数；步骤(B)，构建用于单通道语音增强的深度循环神经网络；步骤(C)，利用纯净语音库和噪声库构建训练数据集；步骤(D)，利用训练数据的38维信号特征，18维理想频带增益和1维信号活性标志，训练步骤(B)构建的深度循环神经网络；步骤(E)，将提取的带噪语音特征输入训练好的深度循环神经网络，输出带噪语音的频带增益估计值，并进行平滑、内插得到内插增益；步骤(F)，将内插增益作用于带噪的单通道语音，得到增强后的语音频谱。2.根据权利要求1所述的基于注意力门控的循环神经网络的单通道语音增强方法，其特征在于：步骤(A)，提取38维信号特征，具体包括18个Bark频率倒谱系数，前6个Bark频率倒谱系数的一阶时间导数和二阶时间导数，前6个频带间基音相关系数的离散余弦变换，1个基音周期系数以及1个频谱非平稳性度量参数。3.根据权利要求1所述的基于注意力门控的循环神经网络的单通道语音增强方法，其特征在于：步骤(B)，构建用于单通道语音增强的深度循环神经网络，该深度循环神经网络包含六层，第一层为Dense层，激活函数为tanh，单元数为24；第二到五层为注意力门控LSTM层，激活函数为tanh，单元数分别为24，48，48和96；第六层为Dense层，激活函数为sigmoid，单元数为18。该网络的第二层输出通过一层的Dense层，得到1维信号活性标志。4.根据权利要求3所述的基于注意力门控的循环神经网络的单通道语音增强方法，其特征在于：所述深度循环神经网络的前向传播过程如公式(1)至公式(5)所示：at＝σ[Vatanh(Wact-1)](1)ot＝σ(Wo·[ht-1，xt]+bo)(2)其中，t为帧序号；a，o，c，h分别为注意力门、输出门、细胞状态矢量和隐藏矢量，为细胞候补状态矢量，它们是同维度的；x为输入矢量；Va和Wa均为计算注意力门的参数矩阵；Wo，bo分别为计...

【专利技术属性】
技术研发人员：梁瑞宇，孔凡留，谢跃，王青云，程佳鸣，孙世若，赵力，
申请(专利权)人：南京工程学院，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人