一种改进多分辨率残差U型网络的语音增强方法技术

技术编号：31024092 阅读：22 留言：0更新日期：2021-11-30 03:21

一种深度神经网络，特别涉及一种改进多分辨率残差U型网络语音增强方法，为使得传统的多分辨率残差U型网络更加适用于时频域上的语音增强任务，针对其在解码阶段恢复出低信噪比下的语音细节的能力弱、容易造成语音特征丢失的问题进行改进，同时改变了卷积核的大小以适应语音信号转化到时频域后通常得到的语音特征图的尺寸是宽度远大于高度的特点，属于语音增强领域。本发明专利技术包括：S1、将纯净和带噪语音通过短时傅里叶变换得到两种语音信号的幅度谱；S2、以带噪语音幅度谱作为网络的输入，纯净语音幅度谱作为训练目标；通过改进的多分辨率残差U型网络拟合网络输入与训练目标之间的非线性关系，进而得到基于改进的多分辨率残差U型网络的语音增强模型；S3、通过STFT获取带噪语音的幅度谱；将其通过改进的多分辨率残差U型网络模型，即可得到目标语音的幅度谱；S4、将幅度谱与带噪语音相位结合，进行波形重建，重建后即可得到增强语音。后即可得到增强语音。后即可得到增强语音。

全部详细技术资料下载

【技术实现步骤摘要】
一种改进多分辨率残差U型网络的语音增强方法

[0001]本专利技术涉及一种深度神经网络，特别涉及一种改进多分辨率残差U型网络语音增强方法，属于语音增强领域。

技术介绍

[0002]单通道语音增强是一种有趣且充满挑战的技术，其主要目的在于提高语音质量，增强语音可懂度，使噪声环境中的目标语音更加清晰。因其较为实际的功能，使得工程上有许多应用，例如，助听器、通讯设备以及鲁棒性语音识别等领域，单通道语音增强都起到了重要作用。
[0003]单通道算法可分有监督与无监督的语音增强算法。无监督语音增强算法其重点在于对噪声部分的研究，实现此类语音增强算法大多需要利用先验条件。1978年将维纳滤波法用于语音增强领域，这是由Lim和Oppenheim提出的，需要假设噪声是平稳的，根据估计带噪语音和噪音的功率谱来构造以最小均方误差为条件的传递函数。但是这种方法滤除噪声效果不理想。1979年Boll等人提出谱减法，假定噪声是平稳的加性噪声，与语音信号不相关，首先采用语音端点检测找到语音信号中噪声段；其次在噪声段估计其功率谱；最后将估计的功率...

【技术保护点】

【技术特征摘要】
1.一种改进的多分辨率残差U型网络的语音增强方法，其特征在于固有的语音特征保留的更完全、训练中丢失的语音特性少、信息融合的能力强、网络细节恢复得更好；所述方法包括：S1、将纯净和带噪语音通过短时傅里叶变换(Short
‑
Time Fourier transform,STFT)得到两种语音信号的幅度谱；S2、以带噪语音幅度谱作为网络的输入，纯净语音幅度谱作为训练目标；通过改进的多分辨率残差U型网络拟合网络输入与训练目标之间的非线性关系，进而得到基于改进的多分辨率残差U型网络的语音增强模型；S3、通过STFT获取带噪语音的幅度谱；将其通过改进的多分辨率残差U...

【专利技术属性】
技术研发人员：兰朝风，刘春东，周贤武，韩玉兰，郭小霞，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人