基于人工智能的语音增强方法、服务器及存储介质技术

技术编号:23447853 阅读:19 留言:0更新日期:2020-02-28 21:31
本发明专利技术涉及数据处理技术,提供了一种基于人工智能的语音增强方法、服务器及存储介质。该方法首先获取语音数据作为训练样本,构建生成对抗网络,将带噪语音与其对应的去噪语音输入鉴别器,通过损失函数更新鉴别器参数,然后将带噪语音输入生成器,将输出的语音与该带噪语音一起输入鉴别器,计算损失更新鉴别器的参数,固定鉴别器的参数,将带噪语音输入生成器,将输出的语音与该带噪语音输入鉴别器,通过生成器的损失函数更新生成器的参数,将更新参数后的生成器作为语音增强模型,将待增强语音数据输入语音增强模型,生成增强后的语音数据。本发明专利技术可以提升基于生成对抗网络的语音增强模型的性能,进而提高语音增强的效果。

Speech enhancement method, server and storage medium based on Artificial Intelligence

【技术实现步骤摘要】
基于人工智能的语音增强方法、服务器及存储介质
本专利技术涉及人工智能
,尤其涉及一种基于人工智能的语音增强方法、服务器及存储介质。
技术介绍
语音增强的目的主要是从带噪语音中去除复杂的背景噪声,并保证在语音信号不失真的条件下提升语音可懂度。传统的语音增强算法大多是基于噪声估计,且处理的噪声类型单一,并不能很好的处理复杂背景下的语音去噪问题。随着神经网络的迅速发展,越来越多的神经网络模型也被应用到语音增强算法中。然而,由于语音噪声的分布通常复杂,现有的通过基于深度学习的语音增强方法,模型收敛不稳定,导致语音增强效果差。
技术实现思路
鉴于以上内容,本专利技术提供一种基于人工智能的语音增强方法、服务器及存储介质,其目的在于本提升语音增强的效果。为实现上述目的,本专利技术提供一种基于人工智能的语音增强方法,该方法包括:获取步骤:获取预设数量的带噪语音及与各带噪语音对应的去噪语音,作为训练样本,将所述训练样本分为第一数据集、第二数据集及第三数据集;构建步骤:构建生成式对抗网络,所述生成式对抗网络包括至少一个生成器和一个鉴别器;第一训练步骤:将所述第一数据集输入所述鉴别器,以最小化鉴别器的损失函数值为目标调整鉴别器的参数,当鉴别器的损失函数值小于第一预设阈值时更新所述鉴别器的参数,得到第一鉴别器,再将第二数据集的带噪语音输入所述生成器,将输出的语音和该带噪语音输入所述第一鉴别器,利用反向传播算法更新第一鉴别器的参数;第二训练步骤:将所述第三数据集的带噪语音输入所述生成器,将输出的语音及该带噪语音输入更新参数后的第一鉴别器,根据所述更新参数后的第一鉴别器的输出结果得到生成器的损失函数,以最小化生成器的损失函数值为目标调整生成器的参数,当生成器的损失函数值小于第二预设阈值时,更新所述生成器的参数,将更新参数后的生成器作为语音增强模型;及反馈步骤:接收用户发送的待增强的语音数据,将待增强语音数据输入所述语音增强模型,生成增强后的语音数据并反馈至所述用户。优选的,所述生成器由一个两层的卷积网络及一个两层的全连接神经网络组成,所述卷积网络及第一层全连接神经网络的激活函数为Relu函数,第二层全连接神经网络的激活函数为sigmoid函数。优选的,所述鉴别器由一个八层的卷积网络、一个一层的长短期记忆循环网络及一个二层的全连接神经网络组成,所述卷积网络、长短期记忆循环网络及第一层全连接神经网络的激活函数为Relu函数,第二层全连接神经网络的激活函数为sigmoid函数。优选的,所述生成器的损失函数为:其中,G表示生成器,D表示鉴别器,Z表示带噪语音,Z~Pz(Z)表示样本Z的分布,Xc表示与带噪语音输入生成器后输出的语音,E表示求样本Xc、Z输出的均值,Xc~Pdata(Xc)表示样本Xc的分布,G(Z,Xc)表示生成器将样本Z和样本Xc转换为合成数据,D(G(Z,Xc),Xc)表示所述鉴别器对G(Z,Xc)和Xc的真实度的评分。优选的,所述鉴别器的损失函数为:其中,D表示鉴别器,X表示去噪语音,Xc表示与带噪语音输入生成器后输出的语音,X,Xc~Pdata(X,Xc)表示关于训练样本特征X和Xc的分布,D(X,Xc)表示鉴别器对X和Xc的真实度评分,Z~Pz(z)样本Z的分布,Xc~Pdata(Xc)表示样本Xc的分布,E表示求样本X、Xc或样本Z、Xc输出的均值,G(Z,Xc)表示生成器将样本Z和样本Xc转换为合成数据,D(G(Z,Xc),Xc)表示鉴别器对G(Z,Xc)和Xc的真实度评分。为实现上述目的,本专利技术还提供一种服务器,该服务器包括:存储器及处理器,其特征在于,所述存储器上存储基于人工智能的语音增强程序,所述基于人工智能的语音增强程序被所述处理器执行,实现如下步骤:获取步骤:获取预设数量的带噪语音及与各带噪语音对应的去噪语音,作为训练样本,将所述训练样本分为第一数据集、第二数据集及第三数据集;构建步骤:构建生成式对抗网络,所述生成式对抗网络包括至少一个生成器和一个鉴别器;第一训练步骤:将所述第一数据集输入所述鉴别器,以最小化鉴别器的损失函数值为目标调整鉴别器的参数,当鉴别器的损失函数值小于第一预设阈值时更新所述鉴别器的参数,得到第一鉴别器,再将第二数据集的带噪语音输入所述生成器,将输出的语音和该带噪语音输入所述第一鉴别器,利用反向传播算法更新第一鉴别器的参数;第二训练步骤:将所述第三数据集的带噪语音输入所述生成器,将输出的语音及该带噪语音输入更新参数后的第一鉴别器,根据所述更新参数后的第一鉴别器的输出结果得到生成器的损失函数,以最小化生成器的损失函数值为目标调整生成器的参数,当生成器的损失函数值小于第二预设阈值时,更新所述生成器的参数,将更新参数后的生成器作为语音增强模型;及反馈步骤:接收用户发送的待增强的语音数据,将待增强语音数据输入所述语音增强模型,生成增强后的语音数据并反馈至所述用户。优选的,所述生成器由一个两层的卷积网络及一个两层的全连接神经网络组成,所述卷积网络及第一层全连接神经网络的激活函数为Relu函数,第二层全连接神经网络的激活函数为sigmoid函数。优选的,所述鉴别器由一个八层的卷积网络、一个一层的长短期记忆循环网络及一个二层的全连接神经网络组成,所述卷积网络、长短期记忆循环网络及第一层全连接神经网络的激活函数为Relu函数,第二层全连接神经网络的激活函数为sigmoid函数。优选的,所述生成器的损失函数为:其中,G表示生成器,D表示鉴别器,Z表示带噪语音,Z~Pz(Z)表示样本Z的分布,Xc表示与带噪语音输入生成器后输出的语音,E表示求样本Xc、Z输出的均值,Xc~Pdata(Xc)表示样本Xc的分布,G(Z,Xc)表示生成器将样本Z和样本Xc转换为合成数据,D(G(Z,Xc),Xc)表示所述鉴别器对G(Z,Xc)和Xc的真实度的评分。为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于人工智能的语音增强程序,所述基于人工智能的语音增强程序被处理器执行时,可实现如上所述基于人工智能的语音增强方法中的任意步骤。相比现有技术的基于人工智能的语音增强方法,本专利技术提出的基于人工智能的语音增强方法、服务器及存储介质,通过获取带噪语音及其对应的去噪语音作为训练样本,构建包括鉴别器和生成器的生成式对抗网络,并基于带噪语音及生成器输出的语音多次调整、更新鉴别器的参数得到第一鉴别器,再基于第一鉴别器得到生成器的损失函数,最后通过最小化生成器的损失函数值调整生成器的参数得到语音增强模型,应用于语音数据增强。本专利技术提供的基于人工智能的语音增强方法应用的上述生成式对抗网络,没有RNN中类似的递归操作,相较于神经网络时效性更高、数据处理速度更快,从而实现快速增强语音。此外,上述生成式对抗网络的生成器和鉴别器处理的是原始音频,不需要手动提取特征,还可以从不同说话者和不同类型噪声中学习语音特征并将其结合本文档来自技高网...

【技术保护点】
1.一种基于人工智能的语音增强方法,应用于服务器,其特征在于,所述方法包括:/n获取步骤:获取预设数量的带噪语音及与各带噪语音对应的去噪语音,作为训练样本,将所述训练样本分为第一数据集、第二数据集及第三数据集;/n构建步骤:构建生成式对抗网络,所述生成式对抗网络包括至少一个生成器和一个鉴别器;/n第一训练步骤:将所述第一数据集输入所述鉴别器,以最小化鉴别器的损失函数值为目标调整鉴别器的参数,当鉴别器的损失函数值小于第一预设阈值时更新所述鉴别器的参数,得到第一鉴别器,再将第二数据集的带噪语音输入所述生成器,将输出的语音和该带噪语音输入所述第一鉴别器,利用反向传播算法更新第一鉴别器的参数;/n第二训练步骤:将所述第三数据集的带噪语音输入所述生成器,将输出的语音及该带噪语音输入更新参数后的第一鉴别器,根据所述更新参数后的第一鉴别器的输出结果得到生成器的损失函数,以最小化生成器的损失函数值为目标调整生成器的参数,当生成器的损失函数值小于第二预设阈值时,更新所述生成器的参数,将更新参数后的生成器作为语音增强模型;及/n反馈步骤:接收用户发送的待增强的语音数据,将待增强语音数据输入所述语音增强模型,生成增强后的语音数据并反馈至所述用户。/n...

【技术特征摘要】
1.一种基于人工智能的语音增强方法,应用于服务器,其特征在于,所述方法包括:
获取步骤:获取预设数量的带噪语音及与各带噪语音对应的去噪语音,作为训练样本,将所述训练样本分为第一数据集、第二数据集及第三数据集;
构建步骤:构建生成式对抗网络,所述生成式对抗网络包括至少一个生成器和一个鉴别器;
第一训练步骤:将所述第一数据集输入所述鉴别器,以最小化鉴别器的损失函数值为目标调整鉴别器的参数,当鉴别器的损失函数值小于第一预设阈值时更新所述鉴别器的参数,得到第一鉴别器,再将第二数据集的带噪语音输入所述生成器,将输出的语音和该带噪语音输入所述第一鉴别器,利用反向传播算法更新第一鉴别器的参数;
第二训练步骤:将所述第三数据集的带噪语音输入所述生成器,将输出的语音及该带噪语音输入更新参数后的第一鉴别器,根据所述更新参数后的第一鉴别器的输出结果得到生成器的损失函数,以最小化生成器的损失函数值为目标调整生成器的参数,当生成器的损失函数值小于第二预设阈值时,更新所述生成器的参数,将更新参数后的生成器作为语音增强模型;及
反馈步骤:接收用户发送的待增强的语音数据,将待增强语音数据输入所述语音增强模型,生成增强后的语音数据并反馈至所述用户。


2.如权利要求1所述的基于人工智能的语音增强方法,其特征在于,所述生成器由一个两层的卷积网络及一个两层的全连接神经网络组成,所述卷积网络及第一层全连接神经网络的激活函数为Relu函数,第二层全连接神经网络的激活函数为sigmoid函数。


3.如权利要求1所述的基于人工智能的语音增强方法,其特征在于,所述鉴别器由一个八层的卷积网络、一个一层的长短期记忆循环网络及一个二层的全连接神经网络组成,所述卷积网络、长短期记忆循环网络及第一层全连接神经网络的激活函数为Relu函数,第二层全连接神经网络的激活函数为sigmoid函数。


4.如权利要求1所述的基于人工智能的语音增强方法,其特征在于,所述生成器的损失函数为:



其中,G表示生成器,D表示鉴别器,Z表示带噪语音,Z~Pz(Z)表示样本Z的分布,Xc表示与带噪语音输入生成器后输出的语音,E表示求样本Xc、Z输出的均值,Xc~Pdata(Xc)表示样本Xc的分布,G(Z,Xc)表示生成器将样本Z和样本Xc转换为合成数据,D(G(Z,Xc),Xc)表示所述鉴别器对G(Z,Xc)和Xc的真实度的评分。


5.如权利要求1至4任意一项所述的基于人工智能的语音增强方法,其特征在于,所述鉴别器的损失函数为:



其中,D表示鉴别器,X表示去噪语音,Xc表示与带噪语音输入生成器后输出的语音,X,Xc~Pdata(X,Xc)表示关于训练样本特征X和Xc的分布,D(X,Xc)表示鉴别器对X和Xc的真实度评分,Z~Pz(z)样本Z的分布,Xc~Pdata(Xc)表示样本Xc的分布,E表示求样本X、Xc...

【专利技术属性】
技术研发人员:王健宗赵峰
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1