语音降噪的训练方法、语音降噪系统及语音降噪方法技术方案

技术编号:35861805 阅读:43 留言:0更新日期:2022-12-07 10:51
本发明专利技术的语音降噪的训练方法,基于深度学习来进行,其包括以下步骤:构建噪声和语音的训练样本;对不带噪声的语音和带噪声的语音进行傅里叶变换,以获取各自的幅值和相位特征;将带噪声的语音的幅值输入到神经网络中,通过神经网络处理而得到降噪后的幅值;将降噪后的幅值与不带噪声的语音的幅值通过模型训练损失函数进行训练,以优化神经网络的权值。以优化神经网络的权值。以优化神经网络的权值。

【技术实现步骤摘要】
语音降噪的训练方法、语音降噪系统及语音降噪方法


[0001]本专利技术涉及一种语音降噪的训练方法、语音降噪系统及语音降噪方法。

技术介绍

[0002]在交互式的实时语音应用中,信号采集通常会带有非目标说话人的噪声,这些噪声会严重影响交互中的语音品质,从而降低了例如语音对话,语音会议等场景中的用户体验,因此语音降噪是交互式语音应用中不可缺少的一部分。
[0003]噪声按照时间变化的特性,可以分为稳态噪声和非稳态噪声。一般声音强度起伏小于lOdB的连续噪声被认为是稳态噪声,而起伏大于1OdB的连续噪声和脉冲噪声被认为是非稳态噪声。在传统的语音降噪中,通常在时频域利用统计学模型对语音和噪声进行建模,从而去除噪声,由于稳态噪声的频率比较固定,因此具有较好的效果,但这种方式对非稳态噪声的去除存在一定的局限性。例如,当估计的背景噪声过小,则会有噪声残留,残余的噪声会形成“音乐噪声”,如果估计的背景噪声过大,则会导致语音被消除。
[0004]深度学习(DL,Deep Learning)是机器学习(ML,Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI,Artificial Intelligence)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术,因此,基于深度学习的语音降噪方法对稳态和非稳态效果均有比较好的效果。

技术实现思路

[0005]专利技术所要解决的技术问题
[0006]然而,基于深度学习的语音降噪需要芯片具有足够的计算能力,且对存储单元也具有相应的要求,因而在资源受限的情况下,无法发挥出较好的效果。
[0007]此外,基于深度学习的语音降噪虽然能直接应用到资源受限的离线终端,但在进行实时交互的情况下,依然存在资源受限的问题,进而无法发挥出较好的效果。
[0008]本专利技术是鉴于上述问题而完成的,其目的在于提供一种语音降噪的训练方法、语音降噪系统及语音降噪方法,即使在实时交互的情况下,也能应用在资源受限的边缘端、例如耳机通话等应用场景中。
[0009]解决技术问题所采用的技术方案
[0010]本专利技术的一个实施方式所涉及的语音降噪的训练方法基于深度学习来进行,其特征在于,包括以下步骤:构建噪声和语音的训练样本;对不带噪声的语音和带噪声的语音进行傅里叶变换,以获取各自的幅值和相位特征;将带噪声的语音的幅值输入到神经网络中,通过神经网络处理而得到降噪后的幅值;将降噪后的幅值与不带噪声的语音的幅值通过模型训练损失函数进行训练,以优化神经网络的权值。
[0011]本专利技术的一个实施方式所涉及的语音降噪系统的特征在于,包括:神经网络模块,该神经网络模块应用本专利技术的一个实施方式所涉及的语音降噪的训练方法,对带噪声的语音进行降噪处理;以及信号处理模块,该信号处理模块设置在所述神经网络模块的后级,对从所述神经网络模块输出的降噪后的语音进行信号处理,进一步去除噪声。
[0012]本专利技术的一个实施方式所涉及的语音降噪方法的特征在于,包括:获取音频信号,其中,所述音频信号包括语音信号、稳态噪声信号和非稳态噪声信号;利用神经网络模块对所述音频信号执行使所述非稳态噪声信号减小的第一降噪处理,以生成第一降噪信号;利用信号处理模块对所述第一降噪信号执行使所述稳态噪声信号减小的第二降噪处理,进而生成第二降噪信号。
[0013]专利技术效果
[0014]根据本专利技术所涉及的语音降噪的训练方法、语音降噪系统及语音降噪方法,通过采用神经网络

传统信号处理级联的方法,噪声语音首先通过神经网络过滤非稳态噪声,然后进一步通过传统信号处理方法压制稳态噪声,从而能同时兼顾和平衡降噪效果与功耗。也就是说,采用级联的方法,由神经网络主要解决(高能量的)非稳态噪声,进而再使用传统信号处理的方法来压制稳态的底噪,从而能兼顾和平衡降噪效果与功耗。因此,即使在实时交互的情况下,也能应用在资源受限的边缘端、例如耳机通话等应用场景中。
附图说明
[0015]图1是示出本专利技术所涉及的语音降噪的训练方法的步骤的流程图。
[0016]图2是示出本专利技术所涉及的语音降噪系统的结构的框图。
[0017]图3是示出本专利技术所涉及的语音降噪系统的降噪效果的图。
[0018]图4是本专利技术所涉及的语音降噪方法的信号路径图。
[0019]标号说明
[0020]1000 语音降噪系统
[0021]100 神经网络模块
[0022]200 信号处理模块
[0023]101 输入的语音
[0024]102 非稳态噪声去除后的语音
[0025]103 非稳态噪声和稳态噪声去除后的语音
具体实施方式
[0026]以下,参照附图,对本专利技术的实施方式进行详细说明
[0027]一、语音降噪的训练方法
[0028]图1是示出本专利技术所涉及的语音降噪的训练方法的步骤的流程图。该训练方法用于使基于神经网络的语音降噪模型的参数进一步优化,从而能使经由该语音降噪模型降噪后的语音更为干净,且能进一步抑制非稳态噪声。
[0029]本专利技术所涉及的语音降噪的训练方法基于深度学习来进行,其主要目的在于,通过对语音降噪进行训练,从而能更准确、高效地去除语音中的噪声(特别是语音中难以通过传统的信号处理方法来去除的非稳态噪声)。
[0030]语音降噪的训练方法的具体步骤如下:
[0031](1)在图1的步骤ST1中,建立数据集、即构建噪声和语音的训练样本。
[0032](2)在图1的步骤ST2中,对不带噪声的语音(即:干净的语音)和带噪声的语音进行傅里叶变化,以获取各自的幅值和相位特征。通过傅里叶变化,能从时域转换到频域,从而能进行降维以减少数据量。由于仅对幅值特征进行训练,因此能高效地完成训练,且节省资源。
[0033](3)在图1的步骤ST3中,将带噪的语音的幅值输入到神经网络中,通过神经网络的处理而得到降噪后的幅值,这也是预测出的不带噪声的语音的幅值(即、预测出的去噪后的语音的幅值)。
[0034](4)在图1的步骤ST4中,利用模型训练损失函数,对降噪后的幅值与实际的不带噪声的语音的幅值进行训练。具体而言,通过模型训练损失函数计算它们之间的损失,并基于该损失来反向传播、迭代神经网络中的权值。通过大量、不断地学习和迭代,从而可以得到神经网络中的最优权值。在确定了最优权值以后,学习的过程实际上也就完成了。
[0035]关于模型训练损失函数,从去除非稳态噪声的目的出发,可以采用对数功率谱的正则(以下有时简称为“对数正则”)。即,在进行傅里叶变换并得到相应的频域参数后,先对其取对数(log),然后再取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音降噪的训练方法,基于深度学习来进行,其特征在于,包括以下步骤:构建噪声和语音的训练样本;对不带噪声的语音和带噪声的语音进行傅里叶变换,以获取各自的幅值和相位特征;将带噪声的语音的幅值输入到神经网络中,通过神经网络处理而得到降噪后的幅值;将降噪后的幅值与不带噪声的语音的幅值通过模型训练损失函数进行训练,以优化神经网络的权值。2.如权利要求1所述的语音降噪的训练方法,其特征在于,所述模型训练损失函数为对数功率谱的正则。3.如权利要求2所述的语音降噪的训练方法,其特征在于,所述对数功率谱的正则采用四次正则。4.如权利要求1

3中任一项所述的语音降噪的训练方法,其特征在于,所述神经网络为循环神经网络、长短时记忆网络或门控循环单元。5.如权利要求1所述的语音降噪的训练方法,其特征在于,在优化神经网络的权值后,还包括:将降噪后的幅值与带噪声的语音的相位特征结合,通过傅里叶逆变换以得到降噪后的语音。6.一种语音降噪系统,其特征在于,包括:神经网络模块,该神经网络模块应用权利要求1

...

【专利技术属性】
技术研发人员:陈锦明李倩
申请(专利权)人:恒玄科技上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1