语音降噪网络的训练方法及装置、电子设备、存储介质制造方法及图纸

技术编号：37677019 阅读：26 留言：0更新日期：2023-05-26 04:42

本申请提供一种语音降噪网络的训练方法及装置、电子设备、计算机可读存储介质，包括：对样本数据集中样本语音数据进行短时傅里叶变换，得到样本时频域特征；样本语音数据包括噪声语音数据和干净语音数据，样本时频域特征包括噪声时频域特征，以及干净时频域特征；通过神经网络模型对噪声时频域特征进行计算，得到预测时频域特征；通过损失函数评估预测时频域特征与干净时频域特征之间的差异，得到函数值，并判断函数值是否小于预设损失阈值；其中，训练过程中阶段性切换损失函数；若是，确定神经网络模型收敛，得到语音降噪网络。本申请方案，在不增加模型参数的情况下，训练得到兼顾降噪量和语音保真效果的语音降噪网络。降噪量和语音保真效果的语音降噪网络。降噪量和语音保真效果的语音降噪网络。

全部详细技术资料下载

【技术实现步骤摘要】
语音降噪网络的训练方法及装置、电子设备、存储介质

[0001]本申请涉及音频处理
，特别涉及一种语音降噪网络的训练方法及装置、电子设备、计算机可读存储介质。

技术介绍

[0002]随着技术的方案，借助神经网络模型实现的语音降噪算法得到广泛的应用。然而，神经网络模型较小时，直接端到端训练得到的语音降噪网络无法兼顾语音失真和降噪量两方面的效果。换而言之，这种情况下，语音降噪网络如果要实现降噪后语音失真较小的效果，则降噪效果不佳；语音降噪网络如果要实现降噪量大的效果，则语音失真比较严重。
[0003]一般可以通过增加模型参数来解决这一问题，主要包括增加神经网络模型的深度和宽度。这一方法会增大神经网络模型，导致计算量和内存使用的增加。对于一些硬件资源较为有限的设备而言，这一方法会导致语音降噪过程对自身运行状态产生负面影响。
[0004]有鉴于此，亟需一种无需增加模型参数而训练出语音降噪网络的方案。

技术实现思路

[0005]本申请实施例的目的在于提供一种语音降噪网络的训练方法及装置、电子设备、计...

【技术保护点】

【技术特征摘要】
1.一种语音降噪网络的训练方法，其特征在于，包括：对样本数据集中样本语音数据进行短时傅里叶变换，得到样本时频域特征；其中，所述样本语音数据包括噪声语音数据和对应于噪声语音数据的干净语音数据，所述样本时频域特征包括所述噪声语音数据变换得到的噪声时频域特征，以及所述干净语音数据变换得到的干净时频域特征；通过神经网络模型对所述噪声时频域特征进行计算，得到预测时频域特征；通过损失函数评估所述预测时频域特征与所述干净时频域特征之间的差异，得到函数值，基于所述函数值对所述神经网络模型的模型参数进行调整；判断所述函数值是否小于预设损失阈值；其中，训练过程中阶段性切换损失函数；若是，确定所述神经网络模型收敛，得到语音降噪网络。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：若所述函数值不小于所述损失阈值，返回所述通过神经网络模型对所述噪声时频域特征进行计算，得到预测时频域特征的步骤。3.根据权利要求1所述的方法，其特征在于，在所述对样本数据集中样本语音数据进行短时傅里叶变换，得到样本时频域特征之前，所述方法还包括：获取多个干净语音数据，并分别为每一干净语音数据生成对应的噪声语音数据；其中，所述噪声语音数据包括干净语音数据和噪声数据；将每一干净语音数据作为其对应的噪声语音数据的样本标签；基于多个携带样本标签的噪声语音数据，构建所述样本数据集。4.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括第一全连接层、第一特征处理模块、第二特征处理模块、第三特征处理模块和第二全连接层；其中，所述第一全连接层与所述第一特征处理模块连接，所述第一全连接层、所述第一特征处理模块与所述第二特征处理模块残差连接，所述第一全连接层、所述第一特征处理模块、所述第二特征处理模块与所述第三特征处理模块残差连接，所述第三特征处理模块与所述第二全连接层连接。5.根据权利要求4所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：陈锦明，李倩，
申请(专利权)人：恒玄科技上海股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人