【技术实现步骤摘要】
基于人工智能的语音增强方法、服务器及存储介质
本专利技术涉及人工智能
,尤其涉及一种基于人工智能的语音增强方法、服务器及存储介质。
技术介绍
语音增强的目的主要是从带噪语音中去除复杂的背景噪声,并保证在语音信号不失真的条件下提升语音可懂度。传统的语音增强算法大多是基于噪声估计,且处理的噪声类型单一,并不能很好的处理复杂背景下的语音去噪问题。随着神经网络的迅速发展,越来越多的神经网络模型也被应用到语音增强算法中。然而,由于语音噪声的分布通常复杂,现有的通过基于深度学习的语音增强方法,模型收敛不稳定,导致语音增强效果差。
技术实现思路
鉴于以上内容,本专利技术提供一种基于人工智能的语音增强方法、服务器及存储介质,其目的在于本提升语音增强的效果。为实现上述目的,本专利技术提供一种基于人工智能的语音增强方法,该方法包括:获取步骤:获取预设数量的带噪语音及与各带噪语音对应的去噪语音,作为训练样本,将所述训练样本分为第一数据集、第二数据集及第三数据集;构建步骤:构建生成式对抗网络,所述生成式对抗网络包括至少一个生成器和一个鉴别器;第一训练步骤:将所述第一数据集输入所述鉴别器,以最小化鉴别器的损失函数值为目标调整鉴别器的参数,当鉴别器的损失函数值小于第一预设阈值时更新所述鉴别器的参数,得到第一鉴别器,再将第二数据集的带噪语音输入所述生成器,将输出的语音和该带噪语音输入所述第一鉴别器,利用反向传播算法更新第一鉴别器的参数;第二训练步骤:将所述第三数据集的带噪语 ...
【技术保护点】
1.一种基于人工智能的语音增强方法,应用于服务器,其特征在于,所述方法包括:/n获取步骤:获取预设数量的带噪语音及与各带噪语音对应的去噪语音,作为训练样本,将所述训练样本分为第一数据集、第二数据集及第三数据集;/n构建步骤:构建生成式对抗网络,所述生成式对抗网络包括至少一个生成器和一个鉴别器;/n第一训练步骤:将所述第一数据集输入所述鉴别器,以最小化鉴别器的损失函数值为目标调整鉴别器的参数,当鉴别器的损失函数值小于第一预设阈值时更新所述鉴别器的参数,得到第一鉴别器,再将第二数据集的带噪语音输入所述生成器,将输出的语音和该带噪语音输入所述第一鉴别器,利用反向传播算法更新第一鉴别器的参数;/n第二训练步骤:将所述第三数据集的带噪语音输入所述生成器,将输出的语音及该带噪语音输入更新参数后的第一鉴别器,根据所述更新参数后的第一鉴别器的输出结果得到生成器的损失函数,以最小化生成器的损失函数值为目标调整生成器的参数,当生成器的损失函数值小于第二预设阈值时,更新所述生成器的参数,将更新参数后的生成器作为语音增强模型;及/n反馈步骤:接收用户发送的待增强的语音数据,将待增强语音数据输入所述语音增强模型 ...
【技术特征摘要】
1.一种基于人工智能的语音增强方法,应用于服务器,其特征在于,所述方法包括:
获取步骤:获取预设数量的带噪语音及与各带噪语音对应的去噪语音,作为训练样本,将所述训练样本分为第一数据集、第二数据集及第三数据集;
构建步骤:构建生成式对抗网络,所述生成式对抗网络包括至少一个生成器和一个鉴别器;
第一训练步骤:将所述第一数据集输入所述鉴别器,以最小化鉴别器的损失函数值为目标调整鉴别器的参数,当鉴别器的损失函数值小于第一预设阈值时更新所述鉴别器的参数,得到第一鉴别器,再将第二数据集的带噪语音输入所述生成器,将输出的语音和该带噪语音输入所述第一鉴别器,利用反向传播算法更新第一鉴别器的参数;
第二训练步骤:将所述第三数据集的带噪语音输入所述生成器,将输出的语音及该带噪语音输入更新参数后的第一鉴别器,根据所述更新参数后的第一鉴别器的输出结果得到生成器的损失函数,以最小化生成器的损失函数值为目标调整生成器的参数,当生成器的损失函数值小于第二预设阈值时,更新所述生成器的参数,将更新参数后的生成器作为语音增强模型;及
反馈步骤:接收用户发送的待增强的语音数据,将待增强语音数据输入所述语音增强模型,生成增强后的语音数据并反馈至所述用户。
2.如权利要求1所述的基于人工智能的语音增强方法,其特征在于,所述生成器由一个两层的卷积网络及一个两层的全连接神经网络组成,所述卷积网络及第一层全连接神经网络的激活函数为Relu函数,第二层全连接神经网络的激活函数为sigmoid函数。
3.如权利要求1所述的基于人工智能的语音增强方法,其特征在于,所述鉴别器由一个八层的卷积网络、一个一层的长短期记忆循环网络及一个二层的全连接神经网络组成,所述卷积网络、长短期记忆循环网络及第一层全连接神经网络的激活函数为Relu函数,第二层全连接神经网络的激活函数为sigmoid函数。
4.如权利要求1所述的基于人工智能的语音增强方法,其特征在于,所述生成器的损失函数为:
其中,G表示生成器,D表示鉴别器,Z表示带噪语音,Z~Pz(Z)表示样本Z的分布,Xc表示与带噪语音输入生成器后输出的语音,E表示求样本Xc、Z输出的均值,Xc~Pdata(Xc)表示样本Xc的分布,G(Z,Xc)表示生成器将样本Z和样本Xc转换为合成数据,D(G(Z,Xc),Xc)表示所述鉴别器对G(Z,Xc)和Xc的真实度的评分。
5.如权利要求1至4任意一项所述的基于人工智能的语音增强方法,其特征在于,所述鉴别器的损失函数为:
其中,D表示鉴别器,X表示去噪语音,Xc表示与带噪语音输入生成器后输出的语音,X,Xc~Pdata(X,Xc)表示关于训练样本特征X和Xc的分布,D(X,Xc)表示鉴别器对X和Xc的真实度评分,Z~Pz(z)样本Z的分布,Xc~Pdata(Xc)表示样本Xc的分布,E表示求样本X、Xc...
【专利技术属性】
技术研发人员:王健宗,赵峰,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。