当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于深层循环神经网络的语音增强方法及装置制造方法及图纸

技术编号:21955301 阅读:24 留言:0更新日期:2019-08-24 19:08
本发明专利技术公开了一种基于深层循环神经网络的语音增强方法,包括:获取语音数据集,对语音数据集进行预处理;对预处理后的语音数据集,进行字典训练,得到字典矩阵;根据字典矩阵,建立基于深层循环神经网络的模型;根据基于深层循环神经网络的模型,对基于深层循环神经网络的模型进行训练;使用训练好的基于深层循环神经网络的模型,对含噪声的语音信号进行语音增强处理,得到增强后的语音数据。本发明专利技术的一种基于深层循环神经网络的语音增强方法,使用更有效的方法提取语音特征,同时结合传统的非负矩阵分解(NMF)算法和深度学习的方法,实现了利用少量已有数据训练模型,并取得了有竞争力的语音增强效果。

A Speech Enhancement Method and Device Based on Deep Cyclic Neural Network

【技术实现步骤摘要】
一种基于深层循环神经网络的语音增强方法及装置
本专利技术涉及语音信号处理领域,尤其涉及一种基于深层循环神经网络的语音增强方法及装置。
技术介绍
语音信号作为一种最直接、最方便的交互方式,是人们获取信息和传播信息的重要载体。随着大数据和人工智能时代的到来,在人与人、人与机器及机器与机器之间实现语音交流和语音控制,已经成为时代发展的必然趋势。在现实生活中,由于外界环境的复杂多变,语音信号往往会被各种噪声所干扰。语音分离技术旨在从被干扰的信号中分离出人们感兴趣的目标信号,从而提升语音的质量和可懂度。早期人们从信号处理的角度提出了一些初步的分离算法,例如谱减法、维纳滤波法和基于最小均方差的语谱估计等方法。相比于基于信号处理的方法,基于模型的方法可以显著提高低信噪比条件下的语音分离性能。其中,非负矩阵分解(Non-negativeMatrixFactorization,NMF)是一种常用的模型,它可以捕捉到事物中包含的局部特性,通过矩阵分解的方法将信号分解为几个非负分量,从而挖掘出语音和噪音的局部基表示。然而,传统的基于NMF的语音增强算法无法有效利用已有数据对模型进行训练,而深度学习的方法近年来已经证明能够从大量数据中有效学习到数据的特征,不过使用端到端的神经网络模型实现语音增强需要大量的数据作为基础,这带来了实现成本上升的问题。此外,使用短时傅里叶变换时估计的实值掩模不能兼顾处理相位信息,需要使用更有效的变换来提取语音特征。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是无法有效利用已有数据对模型进行训练、估计的实值掩模不能兼顾处理相位信息,从而开发了一种基于深层循环神经网络的语音增强方法,使用更有效的方法提取语音特征,同时结合传统的NMF算法和深度学习的方法,实现了利用少量已有数据训练模型,并取得了有竞争力的语音增强效果。为实现上述目的,本专利技术提供了一种基于深层循环神经网络的语音增强方法,包括:获取语音数据集,对语音数据集进行预处理;对预处理后的语音数据集,进行字典训练,得到字典矩阵;根据字典矩阵,建立基于深层循环神经网络的模型;根据基于深层循环神经网络的模型,对基于深层循环神经网络的模型进行训练;根据训练好的基于深层循环神经网络的模型,对含噪语音的语音数据进行训练,得到增强后的语音数据。进一步地,获取语音数据集,对语音数据集进行预处理,具体包括:将语音数据集分割为训练集、验证集和测试集;根据窗函数和改进离散余弦变换的变换公式,设计卷积核,然后使用该卷积核构建卷积层,建立变换模块;根据变换模块,对训练集、验证集和测试集的语音信号进行改进离散余弦变换,得到对应的频域数据,频域数据是时域数据经过改进离散余弦变换(MDCT)得到的。;根据变换后的训练集、验证集和测试集,得到取绝对值的语音特征数据和不取绝对值的语音特征数据。进一步地,根据字典矩阵,建立基于深层循环神经网络的模型,具体包括:添加Masking层作为基于深层循环神经网络的模型的第一层,以屏蔽经过补长的频域数据(即这一层网络的输入数据)中的补长部分的数据;添加SISTA-RNN网络作为基于深层循环神经网络的模型的第二层,SISTA-RNN网络的输出包含估计的干净语音和噪声对应的系数矩阵H;添加一个Lambda层,将系数矩阵H分割为估计的干净语音对应的系数矩阵Hc,及噪声对应的系数矩阵Hn;添加两个TimeDistributed层,对系数矩阵Hc和系数矩阵Hn都进行非负约束,并分别字典矩阵做矩阵乘法,得到对应的干净语音频谱Yc和噪声频谱Yn;根据公式计算掩模矩阵M。进一步地,根据基于深层循环神经网络的模型,对基于深层循环神经网络的模型进行训练,具体包括:将掩模矩阵M与对应的时域数据相乘,得到估计的干净语音的频谱数据;根据窗函数和逆改进离散余弦变换的变换公式,设计卷积核,并使用该卷积核构建卷积层;将估计的干净语音的频谱数据输入构建的变换层,得到对应的频域数据,其中,逆改进离散余弦变换(IMDCT)的计算公式具体如下:式中k表示离散频率点,wk为长为N的窗函数;将频域数据与对应的标签数据求Loss,通过反向传播训练模型。本专利技术公开又提供了一种基于深层循环神经网络的语音增强装置,包括:预处理模块,用于获取语音数据集,对语音数据集进行预处理;字典训练模块,用于对预处理后的语音数据集,进行字典训练,得到字典矩阵;建立模型模块,用于根据字典矩阵,建立基于深层循环神经网络的模型;模型训练模块,用于根据基于深层循环神经网络的模型,对基于深层循环神经网络的模型进行训练;增强模块,用于根据训练好的基于深层循环神经网络的模型,对含噪语音的语音数据进行训练,得到增强后的语音数据。进一步地,获取语音数据集,对语音数据集进行预处理,具体包括:分割模块,用于将语音数据集分割为训练集、验证集和测试集;第一构建模块,用于根据窗函数和改进离散余弦变换的变换公式,设计卷积核,然后使用该卷积核构建卷积层,建立变换模块;第一变换模块,用于根据变换模块,对训练集、验证集和测试集的语音信号进行改进离散余弦变换,得到对应的频域数据;取值模块,用于根据变换后的训练集、验证集和测试集,得到取绝对值的语音特征数据和不取绝对值的语音特征数据。进一步地,根据字典矩阵,建立基于深层循环神经网络的模型,具体包括:第一添加模块,用于添加Masking层作为基于深层循环神经网络的模型的第一层,以屏蔽数据中的补长部分的数据;第二添加模块,用于添加SISTA-RNN网络作为基于深层循环神经网络的模型的第二层,SISTA-RNN网络的输出包含估计的干净语音和噪声对应的系数矩阵H;第三添加模块,用于添加一个Lambda层,将系数矩阵H分割为估计的干净语音对应的系数矩阵Hc,及噪声对应的系数矩阵Hn;第四添加模块,用于添加两个TimeDistributed层,对系数矩阵Hc和系数矩阵Hn都进行非负约束,并分别字典矩阵做矩阵乘法,得到对应的干净语音频谱Yc和噪声频谱Yn;计算模块,用于根据公式计算掩模矩阵M。进一步地,根据基于深层循环神经网络的模型,对基于深层循环神经网络的模型进行训练,具体包括:第一计算模块,用于将掩模矩阵M与对应的时域数据相乘,得到估计的干净语音的频谱数据;第二构建模块,用于根据窗函数和逆改进离散余弦变换的变换公式,设计卷积核,并使用该卷积核构建卷积层;第二变换模块,用于将估计的干净语音的频谱数据输入构建的变换层,得到对应的频域数据,其中,逆改进离散余弦变换(IMDCT)的计算公式具体如下:式中k表示离散频率点,wk为长为N的窗函数;训练模块,用于将频域数据与对应的标签数据求Loss,通过反向传播训练模型。本专利技术公开又提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如上述中任一项的方法。本专利技术公开又提供了一种存储有计算机程序的计算机可读存储介质,计算机程序使计算机执行时实现如上述中任一项的一种基于深层循环神经网络的语音增强方法。技术效果本专利技术公开的一种基于深层循环神经网络的语音增强方法,是将SISTA-RNN网络应用到语音增强算法,使用SISTA-RNN网络来求解NMF算法中的最优解,以实现利用已有数据训练模型,同时降低对语本文档来自技高网...

【技术保护点】
1.一种基于深层循环神经网络的语音增强方法,其特征在于,包括获取语音数据集,对所述语音数据集进行预处理;对预处理后的所述语音数据集,进行字典训练,得到字典矩阵;根据所述字典矩阵,建立基于深层循环神经网络的模型;根据所述基于深层循环神经网络的模型,对所述基于深层循环神经网络的模型进行训练;根据训练好的基于深层循环神经网络的模型,对含噪语音的语音数据进行训练,得到增强后的语音数据。

【技术特征摘要】
1.一种基于深层循环神经网络的语音增强方法,其特征在于,包括获取语音数据集,对所述语音数据集进行预处理;对预处理后的所述语音数据集,进行字典训练,得到字典矩阵;根据所述字典矩阵,建立基于深层循环神经网络的模型;根据所述基于深层循环神经网络的模型,对所述基于深层循环神经网络的模型进行训练;根据训练好的基于深层循环神经网络的模型,对含噪语音的语音数据进行训练,得到增强后的语音数据。2.如权利要求1所述的一种基于深层循环神经网络的语音增强方法,其特征在于,获取语音数据集,对所述语音数据集进行预处理,具体包括:将所述语音数据集分割为训练集、验证集和测试集;根据窗函数和改进离散余弦变换的变换公式,设计卷积核,然后使用该卷积核构建卷积层,建立变换模块;根据所述变换模块,对所述训练集、所述验证集和所述测试集的语音信号进行改进离散余弦变换,得到对应的频域数据;根据变换后的所述训练集、所述验证集和所述测试集,得到取绝对值的语音特征数据和不取绝对值的语音特征数据。3.如权利要求2所述的一种基于深层循环神经网络的语音增强方法,其特征在于,根据所述字典矩阵,建立基于深层循环神经网络的模型,具体包括:添加Masking层作为基于深层循环神经网络的模型的第一层,以屏蔽数据中的补长部分的数据;添加SISTA-RNN网络作为基于深层循环神经网络的模型的第二层,所述SISTA-RNN网络的输出包含估计的干净语音和噪声对应的系数矩阵H;添加一个Lambda层,将所述系数矩阵H分割为估计的干净语音对应的系数矩阵Hc,及噪声对应的系数矩阵Hn;添加两个TimeDistributed层,对所述系数矩阵Hc和所述系数矩阵Hn都进行非负约束,并分别所述字典矩阵做矩阵乘法,得到对应的干净语音频谱Yc和噪声频谱Yn;根据公式计算掩模矩阵M。4.如权利要求3所述的一种基于深层循环神经网络的语音增强方法,其特征在于,根据所述基于深层循环神经网络的模型,对所述基于深层循环神经网络的模型进行训练,具体包括:将所述掩模矩阵M与所述对应的时域数据相乘,得到估计的干净语音的频谱数据;根据窗函数和逆改进离散余弦变换的变换公式,设计卷积核,并使用该卷积核构建卷积层;将所述估计的干净语音的频谱数据输入构建的变换层,得到对应的频域数据,其中,逆改进离散余弦变换(IMDCT)的计算公式具体如下:式中k表示离散频率点,wk为长为N的窗函数;将所述频域数据与对应的标签数据求Loss,通过反向传播训练模型。5.一种基于深层循环神经网络的语音增强装置,其特征在于,包括预处理模块,用于获取语音数据集,对所述语音数据集进行预处理;字典训练模块,用于对预处理后的所述语音数据集,进行字典训练,得到字典矩阵;建立模型模块,用于根据所述字典矩阵,建立基于深层循环神经网络的模型;模型训练模块,用于根据所述基于深层循环神经网络的模型...

【专利技术属性】
技术研发人员:方勇刘昇栋朱梦尧
申请(专利权)人:上海大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1