一种基于深度学习相位更加友好的语音降噪系统及方法技术方案

技术编号:28052329 阅读:24 留言:0更新日期:2021-04-14 13:15
本发明专利技术公开一种基于深度学习相位更加友好的语音降噪系统,属于基于深度学习的语音增强技术领域。包括:一个生成器和一个判别器。在对抗式训练中,将作为频域发生器的深度神经网络产生的估计的傅里叶频谱,用带噪语音相位的短时傅立叶反变换变换成估计波形,并利用时域鉴别器进行判断。在前向过程中,语音降噪系统仍然使用带噪声语音的相位作为处理后的语音频谱的相位,但语音降噪系统系统已经被训练得更适应带噪语音相位。本发明专利技术解决了现有技术中基于频谱降噪系统中相位不匹配的情况下,寻找处理后的频谱的幅值对应的相位比较耗时且直接用噪声相位会因为相位不匹配而导致的降噪效果不好的问题。效果不好的问题。效果不好的问题。

【技术实现步骤摘要】
一种基于深度学习相位更加友好的语音降噪系统及方法


[0001]本专利技术属于基于深度学习的语音增强
,尤其涉及一种基于深度学习相位更加友好的语音降噪系统及方法。

技术介绍

[0002]语音增强是一种非常重要的语音处理方法,它可以通过去除噪音,从带噪语音中获得去噪后的语音。除了谱减法和维纳滤波等传统算法外,基于神经网络的方法由于其复杂的非线性网络能够有效降低非平稳噪声而日益流行。大多数基于神经网络的方法是使用基于傅里叶频谱的频域系统,而不是原始波形(时域)。
[0003]这些方法通过短时傅里叶变换(STFT)将输入的带噪语音波形转换成对应语音的傅里叶频谱,通过时频掩模对幅值谱进行修改,并通过短时傅里叶反变换(ISTFT)将增强后的频谱转换回对应的时域波形。在整个前馈过程中,之前的方案保持有噪声的相位谱不变。进一步的研究表明,通过修改相位谱,语音增强性能可以大大提高。但在实时频域语音增强中,精确的相位谱往往需要很长时间才能找到,这使得相位不匹配问题一直没有得到很好的解决。

技术实现思路

[0004]本专利技术的目的是提供一种基于深度学习相位更加友好的语音降噪系统及方法,以解决现有技术中找到精确的相位谱比较耗时,使得相位不匹配的问题。
[0005]为了实现上述目的,本专利技术提供如下技术方案:
[0006]一种基于深度学习相位更加友好的语音降噪系统,包括:
[0007]一个对抗网络,其包括一个生成器和一个判别器;
[0008]训练所述生成器,其能够接收短时傅里叶变换转换来的带噪语音幅度谱,所述生成器能够将带噪语音幅度谱转换为时频掩膜;
[0009]所述生成器通过神经网络估产生估计傅里叶频谱,通过带噪语音相位的短时傅立叶反变换将所述估计傅里叶频谱转变为估计波形;
[0010]训练所述判别器,其与所述生成器能够训练平衡;所述生成器和所述判别器之间使用短时傅立叶反变换做从频域转到时域的转换;
[0011]所述对抗网络能够接收一个真数据和一个假数据对;所述真数据对是干净语音波形和噪声语音波形的拼接,所述假数据对是降噪后语音波形和带噪语音波形的拼接;对于所述真数据对,所述判别器输出为1,对于所述假数据对,所述判别器输出为0;
[0012]所述生成器的前向过程中使用带噪声语音的相位作为处理后的语音频谱的相位;
[0013]在相同的频谱图的幅值的情况下,Griffin

Lim算法无限迭代即时间代价很大的情况下,Griffin

Lim算法能够得到最高分;所述Griffin

Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分;
[0014]通过ISTFT算法和Griffin

Lim算法比较所述语音降噪系统的客观可理解度所得
分数和语音质量知觉评价所得分数;同一频谱图经过两个算法得到分数的差值,表示相位对语音降噪系统的影响;所述分数的差值越小代表Griffin

Lim算法对相位失配的补偿越多,效果越好。
[0015]本专利技术还可以做如下改进:
[0016]进一步地,所述生成器包括一个七层卷积网络、一层长短时记忆网络、一个第一层全连接神经网络和一个第二层全连接神经网络;
[0017]所述卷积网络、所述长短时记忆网络和所述第一层全连接神经网络的激活函数为Relu函数,所述第二层全连接神经网络的激活函数为sigmoid 函数。
[0018]进一步地,所述ISTFT算法在所述客观可理解度和所述语音质量知觉评价所得分数,与所述Griffin

Lim算法在客观可理解度和语音质量知觉评价所得分数的相减能够得到一个差值;所述差值越小表示在不增加推理时间的情况下,所述差值越小所述语音降噪系统的降噪效果越好。
[0019]进一步地,当迭代次数无限时,最小均方差减小到0;
[0020]估计的去噪后的语音幅值谱增强,使x(n)是由增强幅值谱恢复的完美语音波形,x(n)的相位将是增强后频谱幅值对应的相位。
[0021]进一步地,将时频掩膜和对应的带噪语音时频谱相乘得到去噪后语音时频谱;
[0022]将去噪后语音时频谱和带噪语音相位做短时傅里叶反变换,转换为时域语音;将时域语音通过参数固定的鉴别器和生成器的损失函数更新生成器的参数,将生成器的模型前向作为语音增强模型。
[0023]进一步地,计算带噪语音分别与干净语音和去噪后语音的组合起来的数据,将所得数据分别输入到判别器;计算损失更新判别器的参数,之后固定判别器当前的参数。
[0024]进一步地,所述生成器前向过程中,将带噪语音相位和去噪后语音的频谱一起做istft生成时域语音;
[0025]所述生成器的训练损失函数如下:
[0026][0027]其中,λ作为超参,λ是用于在不同的噪声环境或者数据集下的不同约束条件。
[0028]进一步地,将所述干净语音的数据集作为降噪的目标,获得一组包含各种类型噪声的作为噪声集;
[0029]将随机噪声片段和干净语音组合成为带噪语音作为系统的输入语音;真数据对即时域的干净语音和时域带噪语音采样后对应的数组连接起来组成的数组。
[0030]一种基于深度学习相位更加友好的语音降噪方法,包括:
[0031]S101,一个对抗网络,其包括一个生成器和一个判别器;
[0032]S102,训练所述生成器,其能够接收短时傅里叶变换转换来的带噪语音幅度谱,所述生成器能够将带噪语音幅度谱转换为时频掩膜;
[0033]所述生成器通过神经网络估产生估计傅里叶频谱,通过带噪语音相位的短时傅立叶反变换将所述估计傅里叶频谱转变为估计波形;
[0034]S103,训练所述判别器,其与所述生成器能够训练平衡;所述生成器和所述判别器
之间使用短时傅立叶反变换做从频域转到时域的转换;
[0035]所述对抗网络能够接收一个真数据和一个假数据对;所述真数据对是干净语音波形和噪声语音波形的拼接,所述假数据对是降噪后语音波形和带噪语音波形的拼接;对于所述真数据对,所述判别器输出为1,对于所述假数据对,所述判别器输出为0;
[0036]S104,所述生成器的前向过程中使用带噪声语音的相位作为处理后的语音频谱的相位;
[0037]S105,Griffin

Lim算法在无限迭代的情况下,能够得到最高分;所述 Griffin

Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分;
[0038]S106,通过ISTFT算法和Griffin

Lim算法比较所述语音降噪系统的客观可理解度所得分数和语音质量知觉评价所得分数;
[0039]ISTFT算法和Griffin

Lim算法的分数差值越小代表,所述语音降噪系统对带噪语音相位不匹配的弥补越多即降噪本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习相位更加友好的语音降噪系统,其特征在于,包括:一个对抗网络,其包括一个生成器和一个判别器;训练所述生成器,其能够接收短时傅里叶变换转换来的带噪语音幅度谱,所述生成器能够将带噪语音幅度谱转换为时频掩膜;所述生成器通过神经网络估产生估计傅里叶频谱,通过带噪语音相位的短时傅立叶反变换将所述估计傅里叶频谱转变为估计波形;训练所述判别器,其与所述生成器能够训练平衡;所述生成器和所述判别器之间使用短时傅立叶反变换做从频域转到时域的转换;所述对抗网络能够接收一个真数据和一个假数据对;所述真数据对是干净语音波形和噪声语音波形的拼接,所述假数据对是降噪后语音波形和带噪语音波形的拼接;对于所述真数据对,所述判别器输出为1,对于所述假数据对,所述判别器输出为0;所述生成器的前向过程中使用带噪声语音的相位作为处理后的语音频谱的相位;在相同的频谱图的幅值的情况下,Griffin

Lim算法无限迭代或时间代价很大的情况下,Griffin

Lim算法能够得到最高分;所述Griffin

Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分;通过ISTFT算法和Griffin

Lim算法比较所述语音降噪系统的客观可理解度所得分数和语音质量知觉评价所得分数;同一频谱图经过两个算法得到分数的差值,表示相位对语音降噪系统的影响;所述分数的差值越小代表Griffin

Lim算法对相位失配的补偿越多,效果越好。2.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统,其特征是,所述生成器包括一个七层卷积网络、一层长短时记忆网络、一个第一层全连接神经网络和一个第二层全连接神经网络;所述卷积网络、所述长短时记忆网络和所述第一层全连接神经网络的激活函数为Relu函数,所述第二层全连接神经网络的激活函数为sigmoid 函数。3.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统,其特征是,所述ISTFT算法在所述客观可理解度和所述语音质量知觉评价所得分数,与所述Griffin

Lim算法在客观可理解度和语音质量知觉评价所得分数的相减能够得到一个差值;所述差值越小表示在不增加推理时间的情况下,所述语音降噪系统的降噪效果越好。4.如权利要求3所述的基于深度学习相位更加友好的语音降噪系统,其特征是,当迭代次数无限时,最小均方差减小到0;估计的去噪后的语音幅值谱增强,使x(n)是由增强幅值谱恢复的完美语音波形,x(n)的相位将是增强后频谱幅值对应的相位。5.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统,其...

【专利技术属性】
技术研发人员:李培硕欧阳鹏尹首一
申请(专利权)人:北京清微智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1