一种跳跃网络的实时语音降噪方法技术

技术编号:30145491 阅读:23 留言:0更新日期:2021-09-23 15:19
本发明专利技术公开了一种跳跃网络的实时语音降噪方法,所述方法是基于多层短时傅里叶变换损失函数,包括:利用频段屏蔽和信号混响数据增强方法构建网络训练的音频训练集;构建跳跃的Unet轻量网络结构;利用多层短时傅里叶变换损失函数训练模型,使用训练后的模型进行降噪。本发明专利技术采用跳跃的Unet网络结构将模型轻量化,并利用基于多层短时傅里叶变换的损失函数,和噪声移位,信号混响等数据增强手段,大大提高模型对不同噪声类型处理的泛化能力。模型对不同噪声类型处理的泛化能力。模型对不同噪声类型处理的泛化能力。

【技术实现步骤摘要】
一种跳跃网络的实时语音降噪方法


[0001]本专利技术涉及一种语音降噪方法,特别是涉及一种跳跃网络的语音降噪方法。

技术介绍

[0002]语音增强技术一直是一个热门的研究领域,其在生活中有着具大的实用性,比如视频会议,语音通信等,利用语音增强降噪技术,能够极大提高人们语音视频的通话质量。传统的语音降噪方法主要使用谱减法和基于统计模型的方法,此类算法在应对非平稳的噪声信号往往不能取得很好的效果。传统如维纳滤波等方法很难处理非平稳或多人谈话的噪声信号,后面出现的深度神经网络的去噪方法对此有所改善,但往往处理速度较慢,难以在实际应用中发挥效果。
[0003]近年来,随着深度学习的不断发展,深度学习也被用来对音频信号进行降噪处理,也取得了很不错的效果。普通的深度神经网络参数量大,模型复杂,因此处理音频时间较长。

技术实现思路

[0004]针对上述技术问题,本专利技术的目的在于提供一种跳跃网络的语音降噪方法,采用了一种更轻量的网络结构,将带噪的音频信息作为网络的输入信息传到输入层,用纯净不带噪声的音频信息作为输出目标数据去做一个有监督的训练。
[0005]本专利技术的技术方案如下:一种跳跃网络的实时语音降噪方法,所述方法是基于多层短时傅里叶变换损失函数,其特征在于,包括如下步骤:S1:利用频段屏蔽和信号混响数据增强方法构建网络训练的音频训练集,其中频段屏蔽让音频通过带阻滤波器去掉音频中的部分频率,而信号混响通过把音频进行不断衰减和延时后添加到原有的音频中;S2:构建跳跃的Unet轻量网络结构,通过把特征进行卷积和转置卷积,得到不同通道数的特征,连接相加相同通道数的特征,使Unet轻量网络能够同时学习高层次和低层次特征之间的关系;S3:利用多层短时傅里叶变换损失函数以及绝对均值误差作为模型的损失函数,通过Adam优化算法训练模型,使用训练后的模型进行降噪。
[0006]本专利技术优选的技术方案在于,步骤S1中的构建网络训练的音频训练集包括如下步骤:S101:通过Valentini数据集和DNS2020基准数据集获取纯净语音信号和噪声信号作为模型的训练数据; S102:将多种噪声信号进行叠加,得到混合噪声信号;S103:随机截取混合噪声信号和语音信号进行合成,获得带有混合噪声的语音信号;
S104:对语音信号和原始的噪声信号进行延迟,衰减处理添加到带有混合噪声的语音信号中,获得带有混响的噪声语音信号。
[0007]本专利技术优选的技术方案在于,步骤S2具体包括:S201:构建编码模块,音频信号经过一维卷积模块,再通过relu激活函数对小于零的数值作置零处理,之后继续由两倍通道数的卷积核进行卷积处理,最后经过门控线性单元得到编码后的信号;S202:编码后的信号经过LSTM信号处理模块进行处理,其中LSTM信号处理模块通过单向LSTM网络或者双向LSTM网络构建的; S203:构建解码模块,编码后的信号经过LSTM信号处理模块处理后,通过一维卷积模块降低通道数,再通过门控线性单元处理信号,最后通过一维转置卷积模块得到语音增强后的音频;S204:对编码模块的输出通道数等于解码模块的输入通道数的模块进行连接以构建跳跃的Unet轻量网络结构。
[0008]本专利技术优选的技术方案在于,步骤S3具体包括:S301:对输入的噪声信号与纯净音频信号构建损失函数;S302:对输入的噪声信号与纯净音频信号分别经过不同参数的短时傅里叶变换构建损失函数;S303:把编码模块、解码模块以及LSTM的模型参数输入到Adam优化器中优化学习,训练出最终模型;S304:把带有噪声的语音信号直接输入到上面训练好的最终模型中,得到语音增强后的语音信号。
[0009]本专利技术优选的技术方案在于,所述门控线性单元的公式如下:其中,X是卷积模块的输出,W、b、V、c都是可学习的参数,

为元素积,σ(
·
)是sigmoid函数。
[0010]本专利技术优选的技术方案在于,所述损失函数的公式如下:其中为纯净的语音信号,为增强后的语音信号,T为音频长度,不同的样本之间T值不一样。
[0011]本专利技术优选的技术方案在于,所述损失函数的公式如下:其中,为短时傅里叶变换,为纯净的语音信号,为增强后的语音信号,T为音频长度,不同的样本之间T值不一样,变换参数傅里叶变换点数选择为512、1024和2048,帧移相对应为50、120和240,窗口长度相对应为240、600和1200。
[0012]与现有技术相比,本专利技术具有以下有益效果:本专利技术可以获得较好的语音降噪效果,本专利技术的方法具有失真小,泛化能力强,降噪效果好的优点。
附图说明
[0013]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0014]图1为本专利技术实施例一种跳跃网络的语音降噪方法的示意图;图2为本专利技术实施例1的一种跳跃网络的语音降噪方法的流程图;图3为跳跃去噪网络的示意图;图4为LSTM网络的示意图。
具体实施方式
[0015]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。
[0016]如图1

2所示,本专利技术具体实施例的语音降噪方法是基于多层短时傅里叶变换损失函数,包括:S1:利用频段屏蔽和信号混响数据增强方法构建网络训练的音频训练集,其中频段屏蔽是让音频通过带阻滤波器,去掉音频中部分的频率,而信号混响是通过把音频进行不断的衰减和延时然后添加到原有音频中;S2:构建跳跃的Unet轻量网络结构,如图3所示,通过把特征进行卷积和转置卷积,得到不同通道数的特征,连接相加相同通道数的特征,使模型能够同时学习高层次和低层次特征之间的关系,得到更好的效果;S3:利用多层短时傅里叶变换损失函数以及绝对均值误差作为模型的损失函数,通过Adam优化算法训练模型,使用训练后的模型进行降噪。
[0017]步骤S1中的构建网络训练的音频训练集包括如下步骤:S101:通过Valentini数据集和DNS2020基准数据集获取纯净语音信号和噪声信号作为模型的训练数据;其中,Valentini是由爱丁堡大学语音技术研究中心提供的用来作为语音增强和语音合成算法的训练数据集,DNS2020是微软举行的深度语音去噪挑战赛,里面提供了大量的纯净语音信号以及噪声信号。
[0018]S102:将多种的噪声信号进行叠加,得到混合噪声信号;S103:随机截取混合噪声信号和语音信号进行合成,获得带有混合噪声的语音信号;S104:对语音信号和原始的噪声信号进行延迟,衰减处理添加到带有混合噪声的语音信号中,获得带有混响的噪声语音信号。
[0019]其中步骤S1中的音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跳跃网络的实时语音降噪方法,所述方法是基于多层短时傅里叶变换损失函数,其特征在于,包括如下步骤:S1:利用频段屏蔽和信号混响数据增强方法构建网络训练的音频训练集,其中频段屏蔽让音频通过带阻滤波器去掉音频中的部分频率,而信号混响通过把音频进行不断衰减和延时后添加到原有的音频中;S2:构建跳跃的Unet轻量网络结构,通过把特征进行卷积和转置卷积,得到不同通道数的特征,连接相加相同通道数的特征,使Unet轻量网络能够同时学习高层次和低层次特征之间的关系;S3:利用多层短时傅里叶变换损失函数以及绝对均值误差作为模型的损失函数,通过Adam优化算法训练模型,使用训练后的模型进行降噪。2.根据权利要求1所述的实时语音降噪方法,其特征在于,步骤S1中的构建网络训练的音频训练集包括如下步骤:S101:通过Valentini数据集和DNS2020基准数据集获取纯净语音信号和噪声信号作为模型的训练数据;S102:将多种噪声信号进行叠加,得到混合噪声信号;S103:随机截取混合噪声信号和语音信号进行合成,获得带有混合噪声的语音信号;S104:对语音信号和原始的噪声信号进行延迟,衰减处理添加到带有混合噪声的语音信号中,获得带有混响的噪声语音信号。3.根据权利要求2所述的实时语音降噪方法,其特征在于,步骤S2具体包括:S201:构建编码模块,音频信号经过一维卷积模块,再通过relu激活函数对小于零的数值作置零处理,之后继续由两倍通道数的卷积核进行卷积处理,最后经过门控线性单元得到编码后的信号; S202:编码后的信号经过LSTM信号处理模块进行处理,其中LSTM信号处理模块通过单向LSTM网络或者双向LSTM网络构建...

【专利技术属性】
技术研发人员:黄祥康吴庆耀白剑黄海亮梁瑛玮张海林鲁和平李长杰陈焕然李乐王浩洪行健冷冬丁一
申请(专利权)人:广州易方信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1