一种语音降噪处理方法、电子设备及存储介质技术

技术编号:38742976 阅读:10 留言:0更新日期:2023-09-08 23:26
本申请实施例提供一种语音降噪处理方法、电子设备及存储介质,包括:S10,建立训练样本;所述训练样本中包括:弱噪声环境下的第一语音数据、以及强噪声环境下的第二语音数据;S20,对训练样本中的第一语音数据和第二语音数据进行融合,得到语音降噪训练数据;S30,对语音降噪训练数据进行分帧,获得多帧语音降噪训练数据单元;S40,通过第一语音数据、多帧语音降噪训练数据单元对生成式对抗网络模型进行训练,得到训练后的生成式对抗网络模型;S50,通过训练后的生成式对抗网络模型对待处理的语音识别数据进行降噪,获得目标语音识别数据;具有降噪效果较好的有益效果,适用于语音降噪的技术领域。的技术领域。的技术领域。

【技术实现步骤摘要】
一种语音降噪处理方法、电子设备及存储介质


[0001]本申请涉及语音降噪的
,具体涉及一种语音降噪处理方法、电子设备及存储介质。

技术介绍

[0002]移动通讯技术的发展,尤其是语音、视频等交互式实时通讯软件(如微信、QQ)的发展,极大的拉近了通讯双方的空间距离,起到了消离时空隔阂的作用与效果。
[0003]然而,在实时语音及视频通讯中,信号采集不可避免的会带有非目标通讯者的噪声,严重影响交互中的语音品质以及软件应用的体验感;因此,语音降噪是交互式语音应用中不可缺少的重要组成。
[0004]噪声按照时间变化的特性,又可以分为稳态噪声和非稳态噪声。当声音强度起伏小于l0dB的连续噪声被认为是稳态噪声,而起伏大于10dB的连续噪声和脉冲噪声被认为是非稳态噪声;其中:非稳态噪声具有相当的不稳定特性。
[0005]在传统的语音降噪中,通常在时频域利用统计学模型对语音和噪声进行建模,从而去除噪声;由于稳态噪声的频率比较固定,传统的语音降噪对于该类型的噪声具有较好的效果;然而,对于非稳态噪声的去除,则具有较大的缺陷,导致除噪效果差。

技术实现思路

[0006]为了解决上述技术缺陷之一,本申请实施例中提供了一种降噪效果较好的语音降噪处理方法、电子设备及存储介质。
[0007]根据本申请实施例的第一个方面,提供了一种语音降噪处理方法,包括:
[0008]S10,建立训练样本;所述训练样本中包括:弱噪声环境下的第一语音数据、以及强噪声环境下的第二语音数据;
[0009]S20,对训练样本中的第一语音数据和第二语音数据进行融合,得到语音降噪训练数据;
[0010]S30,对语音降噪训练数据进行分帧,获得多帧语音降噪训练数据单元;
[0011]S40,通过第一语音数据、多帧语音降噪训练数据单元对生成式对抗网络模型进行训练,得到训练后的生成式对抗网络模型;
[0012]S50,通过训练后的生成式对抗网络模型对待处理的语音识别数据进行降噪,获得目标语音识别数据。
[0013]优选地,还包括:S60,生成所述目标语音识别数据所指示的深度处理的中间训练数据的可视化图表。
[0014]优选地,所述S40,通过第一语音数据、多帧语音降噪训练数据单元对生成式对抗网络模型进行训练,得到训练后的生成式对抗网络模型;包括:
[0015]利用语音降噪训练数据对预先构建的生成器和判别器分类模型进行交替训练,直至满足预设迭代结束条件;其中:所述交替训练包括:
[0016]固定所述生成器的损失函数,基于所述语音降噪训练数据和生成器生成的数据,对所述判别器分类模型进行训练;
[0017]固定所述判别器的损失函数,对所述生成器进行训练。
[0018]优选地,所述固定所述判别器的损失函数,对所述生成器进行训练,包括:
[0019]S401,将多帧语音降噪训练数据单元输入至生成器,得到第一降噪数据;
[0020]S402,将第一降噪数据数输入至判别器中,得到第一判别结果;
[0021]S403,基于第一语音数据和第一降噪数据之间的误差,建立损失函数;
[0022]S405,基于损失函数、第一判别结果,优化生成器的参数,得到训练后的生成器。
[0023]优选地,所述S50,通过训练后的生成式对抗网络模型对待处理的语音识别数据进行降噪,获得目标语音识别数据;包括:
[0024]S501,将待处理的语音识别数据输入值至生成式对抗网络模型的判别器中,若,判别器的结果为待处理的语音识别数据为强噪声环境下的第二语音数据,则执行S502;否则,直接将待处理的语音作为目标语音输出;
[0025]S502,通过训练后的生成器对待处理的语音识别数据进行降噪,得到目标语音识别数据。
[0026]优选地,弱噪声环境指:噪声小于等于预设阈值;
[0027]强噪声环境指:噪声大于预设阈值。
[0028]优选地,还包括:
[0029]确定训练样本的时域特征值和目标值;
[0030]其中,时域特征值包括:噪声阈值、长时能量值、短时能量值和噪声包络跟踪值;
[0031]所述噪声阈值用于表征训练样本的幅值范围;
[0032]所述目标值包括:第一语音数据的语音活动检测值和所述第二语音数据的全带信噪比。
[0033]优选地,所述第二语音数据,还包括:
[0034]由第一语音数据混合不同噪声得到的含仿真噪声信息的第二语音数据。
[0035]根据本申请实施例的第二个方面,提供了一种电子设备,包括:
[0036]存储器;处理器;以及计算机程序;
[0037]其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如上所述的方法。
[0038]根据本申请实施例的第三个方面,提供了一种计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行以实现如上所述的方法。
[0039]本申请实施例由于采用以上技术方案,具有以下技术效果:
[0040]本申请中,通过第一语音数据、多帧语音降噪训练数据单元对生成式对抗网络模型进行训练,得到训练后的生成式对抗网络模型,该生成式对抗网络模型能够对多种频率及响度的噪声进行甄别并降噪,保障了目标语音的质量,降噪效果好,实用性极强。
附图说明
[0041]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0042]图1为本申请实施例提供的一种语音降噪处理方法的流程图;
[0043]图2为本申请实施例中对所述生成器进行训练的流程图。
具体实施方式
[0044]为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0045]在实现本申请的过程中,专利技术人发现:多层神经网络能够描述信号中的非线性结构,通过生成帧和目标帧的相似性,能够训练目标网络达到降噪的过程。
[0046]实施例一
[0047]如图1所示,本申请实施例中提供了一种语音降噪处理方法,包括:
[0048]S10,建立训练样本;所述训练样本中包括:弱噪声环境下的第一语音数据、以及强噪声环境下的第二语音数据;
[0049]S20,对训练样本中的第一语音数据和第二语音数据进行融合,得到语音降噪训练数据;
[0050]S30,对语音降噪训练数据进行分帧,获得多帧语音降噪训练数据单元;
[0051]S40,通过第一语音数据、多帧语音降噪训练数据单元对生成式对抗网络模型进行训练,得到训练后的生成式对抗网络模型;
[0052]S50,通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音降噪处理方法,其特征在于,包括:S10,建立训练样本;所述训练样本中包括:弱噪声环境下的第一语音数据、以及强噪声环境下的第二语音数据;S20,对训练样本中的第一语音数据和第二语音数据进行融合,得到语音降噪训练数据;S30,对语音降噪训练数据进行分帧,获得多帧语音降噪训练数据单元;S40,通过第一语音数据、多帧语音降噪训练数据单元对生成式对抗网络模型进行训练,得到训练后的生成式对抗网络模型;S50,通过训练后的生成式对抗网络模型对待处理的语音识别数据进行降噪,获得目标语音识别数据。2.根据权利要求1所述的一种语音降噪处理方法,其特征在于,还包括:S60,生成所述目标语音识别数据所指示的深度处理的中间训练数据的可视化图表。3.根据权利要求1所述的一种语音降噪处理方法,其特征在于,所述S40,通过第一语音数据、多帧语音降噪训练数据单元对生成式对抗网络模型进行训练,得到训练后的生成式对抗网络模型;包括:利用语音降噪训练数据对预先构建的生成器和判别器分类模型进行交替训练,直至满足预设迭代结束条件;其中:所述交替训练包括:固定所述生成器的损失函数,基于所述语音降噪训练数据和生成器生成的数据,对所述判别器分类模型进行训练;固定所述判别器的损失函数,对所述生成器进行训练。4.根据权利要求3所述的一种语音降噪处理方法,其特征在于,所述固定所述判别器的损失函数,对所述生成器进行训练,包括:S401,将多帧语音降噪训练数据单元输入至生成器,得到第一降噪数据;S402,将第一降噪数据数输入至判别器中,得到第一判别结果;S403,基于第一语音数据和第一降噪数据之间的误差,建立损失函数;...

【专利技术属性】
技术研发人员:高宝明王志宇孙国繁高磊蔡晓龙张阳阳张广勇
申请(专利权)人:国网山西省电力公司超高压变电分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1