一种跳跃网络的实时语音降噪方法技术

技术编号：30145491 阅读：23 留言：0更新日期：2021-09-23 15:19

本发明专利技术公开了一种跳跃网络的实时语音降噪方法，所述方法是基于多层短时傅里叶变换损失函数，包括：利用频段屏蔽和信号混响数据增强方法构建网络训练的音频训练集；构建跳跃的Unet轻量网络结构；利用多层短时傅里叶变换损失函数训练模型，使用训练后的模型进行降噪。本发明专利技术采用跳跃的Unet网络结构将模型轻量化，并利用基于多层短时傅里叶变换的损失函数，和噪声移位，信号混响等数据增强手段，大大提高模型对不同噪声类型处理的泛化能力。模型对不同噪声类型处理的泛化能力。模型对不同噪声类型处理的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种跳跃网络的实时语音降噪方法

[0001]本专利技术涉及一种语音降噪方法，特别是涉及一种跳跃网络的语音降噪方法。

技术介绍

[0002]语音增强技术一直是一个热门的研究领域，其在生活中有着具大的实用性，比如视频会议，语音通信等，利用语音增强降噪技术，能够极大提高人们语音视频的通话质量。传统的语音降噪方法主要使用谱减法和基于统计模型的方法，此类算法在应对非平稳的噪声信号往往不能取得很好的效果。传统如维纳滤波等方法很难处理非平稳或多人谈话的噪声信号，后面出现的深度神经网络的去噪方法对此有所改善，但往往处理速度较慢，难以在实际应用中发挥效果。
[0003]近年来，随着深度学习的不断发展，深度学习也被用来对音频信号进行降噪处理，也取得了很不错的效果。普通的深度神经网络参数量大，模型复杂，因此处理音频时间较长。

技术实现思路

[0004]针对上述技术问题，本专利技术的目的在于提供一种跳跃网络的语音降噪方法，采用了一种更轻量的网络结构，将带噪的音频信息作为网络的输入信息传到输入层，用纯净不带噪声的音频信息作为输出目标数据去做一个有监督的训练。
[0005]本专利技术的技术方案如下：一种跳跃网络的实时语音降噪方法，所述方法是基于多层短时傅里叶变换损失函数，其特征在于，包括如下步骤：S1：利用频段屏蔽和信号混响数据增强方法构建网络训练的音频训练集，其中频段屏蔽让音频通过带阻滤波器去掉音频中的部分频率，而信号混响通过把音频进行不断衰减和延时后添加到原有的音频中；S2：构建跳跃的Unet轻量网络结构，通...

【技术保护点】

【技术特征摘要】
1.一种跳跃网络的实时语音降噪方法，所述方法是基于多层短时傅里叶变换损失函数，其特征在于，包括如下步骤：S1：利用频段屏蔽和信号混响数据增强方法构建网络训练的音频训练集，其中频段屏蔽让音频通过带阻滤波器去掉音频中的部分频率，而信号混响通过把音频进行不断衰减和延时后添加到原有的音频中；S2：构建跳跃的Unet轻量网络结构，通过把特征进行卷积和转置卷积，得到不同通道数的特征，连接相加相同通道数的特征，使Unet轻量网络能够同时学习高层次和低层次特征之间的关系；S3：利用多层短时傅里叶变换损失函数以及绝对均值误差作为模型的损失函数，通过Adam优化算法训练模型，使用训练后的模型进行降噪。2.根据权利要求1所述的实时语音降噪方法，其特征在于，步骤S1中的构建网络训练的音频训练集包括如下步骤：S101：通过Valentini数据集和DNS2020基准数据集获取纯净语音信号和噪声信号作为模型的训练数据；S102：将多种噪声信号进行叠加，得到混合噪声信号；S103：随机截取混合噪声信号和语音信号进行合成，获得带有混合噪声的语音信号；S104：对语音信号和原始的噪声信号进行延迟，衰减处理添加到带有混合噪声的语音信号中，获得带有混响的噪声语音信号。3.根据权利要求2所述的实时语音降噪方法，其特征在于，步骤S2具体包括：S201：构建编码模块，音频信号经过一维卷积模块，再通过relu激活函数对小于零的数值作置零处理，之后继续由两倍通道数的卷积核进行卷积处理，最后经过门控线性单元得到编码后的信号； S202：编码后的信号经过LSTM信号处理模块进行处理，其中LSTM信号处理模块通过单向LSTM网络或者双向LSTM网络构建...

【专利技术属性】
技术研发人员：黄祥康，吴庆耀，白剑，黄海亮，梁瑛玮，张海林，鲁和平，李长杰，陈焕然，李乐，王浩，洪行健，冷冬，丁一，
申请(专利权)人：广州易方信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人