单声道语音降噪方法、系统、设备及可读存储介质技术方案

技术编号：27979674 阅读：21 留言：0更新日期：2021-04-06 14:14

本发明专利技术属于语音降噪领域，公开了一种单声道语音降噪方法、系统、设备及可读存储介质，包括获取待降噪的单声道语音；构建基于LSTM神经网络的初始降噪模型；获取预设数量的增强训练样本，采用预设数量的增强训练样本训练初始降噪模型，得到降噪模型；通过降噪模型将待降噪的单声道语音降噪，得到人声音频。降噪过程不受限于双声道的限制，能够实现任何单声道语音的降噪处理，基于同一通语音中整个时间序列的噪音类别大致相同的特性，通过采用LSTM神经网络为基础进行模型的训练，便于学习到整个时间序列的噪音规律，进而达到较好的降噪效果。同时，基于噪声影响因素的复杂性，通过增强训练样本对初始降噪模型再次训练，进一步提升降噪模型的降噪效果。

全部详细技术资料下载

【技术实现步骤摘要】
单声道语音降噪方法、系统、设备及可读存储介质
本专利技术属于语音降噪领域，涉及一种单声道语音降噪方法、系统、设备及可读存储介质。
技术介绍
几年之前，我们在通话的时候还经常会听到各种噪音，非常影响通话质量，但现如今，随着智能手机的普及，我们已经可以明显感觉到通话时杂音的减少。这是由于现在的大部分智能手机都使用了高通的芯片，而这些芯片大多都搭载了高通专有的CVC技术，CVC技术是一种通话降噪技术，其工作原理是在通话的时候，通过手机内置的双麦克风获取声音，其中，主麦克风在说话人嘴边，可以接收到较大的说话人声；副麦克风离说话人的嘴较远，接收到的说话人声较小，而两个麦克风却可以接收到几乎相同大小的环境噪声，通过结合主副麦克风收集到的声音信号，就可以通过一定算法，分辨出哪些声音是我们想要的说话人声，从而实现降噪通话。但是，该技术却仍然有着如下缺陷。首先，该技术无法处理单声道音频，必须要求手机拥有双麦克风，对于单麦克风手机没有作用；而且，对说话人通话的姿势有一定要求，要求说话人声源离主麦克风很近，若说话人离麦克风远或者带了单麦克...

【技术保护点】
1.一种单声道语音降噪方法，其特征在于，包括以下步骤：/n获取待降噪的单声道语音；/n构建基于LSTM神经网络的初始降噪模型；/n获取预设数量的增强训练样本，采用预设数量的增强训练样本训练初始降噪模型，得到降噪模型；/n通过降噪模型将待降噪的单声道语音降噪，得到人声音频。/n

【技术特征摘要】
1.一种单声道语音降噪方法，其特征在于，包括以下步骤：
获取待降噪的单声道语音；
构建基于LSTM神经网络的初始降噪模型；
获取预设数量的增强训练样本，采用预设数量的增强训练样本训练初始降噪模型，得到降噪模型；
通过降噪模型将待降噪的单声道语音降噪，得到人声音频。

2.根据权利要求1所述的单声道语音降噪方法，其特征在于，所述构建基于LSTM神经网络的初始降噪模型包括：
获取若干人声音频和若干噪音音频并随机组合，得到若干混合音频，各混合音频中均包括一人声音频及至少一个噪音音频；
将混合音频进行分帧加窗处理及傅里叶变换，得到若干混合音频帧频谱；
将若干混合音频帧频谱分为训练集和测试集，建立用于二分类的LSTM神经网络模型，通过训练集训练LSTM神经网络模型，通过测试集测试训练后的LSTM神经网络模型，当测试结果的合格率符合预设的合格率阈值时测试合格，得到初始降噪模型。

3.根据权利要求2所述的单声道语音降噪方法，其特征在于，所述通过训练集训练LSTM神经网络模型包括：
将训练集内的混合音频帧频谱输入LSTM神经网络模型，得到人声频谱和噪音频谱并进行逆傅里叶变换，得到预测的人声音频及噪音音频；
根据预测的人声音频与实际的人声音频之间的误差，迭代更新LSTM神经网络模型中的各参数，至训练次数达到预设值或预测的人声音频与实际的人声音频之间的误差不再下降。

4.根据权利要求1所述的单声道语音降噪方法，其特征在于，所述获取预设数量的增强训练样本，采用预设数量的增强训练样本训练初始降噪模型包括：
获取若干初始降噪模型降噪不合格的单声道语音，作为预设数量的增强训练样本；
获取若干通过人声音频和若干噪音音频组合形成的测试样本；
采用无监督学习的方式，通过预设数量的增强训练样本训练初始降噪...

【专利技术属性】
技术研发人员：王健宗，程宁，张之勇，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人