一种基于约束朴素生成对抗网络的语音增强方法技术

技术编号：23364270 阅读：49 留言：0更新日期：2020-02-18 17:50

本发明专利技术公开了一种基于约束朴素生成对抗网络的语音增强方法，包括步骤：1)噪声数据收集和标记；2)语音分帧加窗；3)幅度压缩；4)输入约束朴素生成对抗网络训练；5)幅度解压缩；6)逆短时傅里叶变换，生成增强语音。本发明专利技术的优点是：通过生成对抗网络中的生成模型和判别模型之间的对抗学习，不断增强生成模型生成样本的能力，最终得到干净语音样本的分布；对语音或噪声的统计分布没有任何假设；采取复数谱映射的方法，在训练样本中增加了相位信息。本发明专利技术巧妙地解决了语音和噪声信号分布难以估计问题，有助于提高语音可懂度，避免相位失真。

A speech enhancement method based on constrained naive generation countermeasure network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于约束朴素生成对抗网络的语音增强方法
本专利技术涉及语音处理
，具体涉及一种基于约束朴素生成对抗网络的语音增强方法。
技术介绍
语音作为人类交流的主要媒介，已经在移动通信、多媒体技术等领域发挥了重要作用。在人工智能方兴未艾的大背景下，语音识别、声纹识别等技术的广泛应用也对语音信号的质量提出了更高的要求。然而在实际的语音采集和对话交流场景中，语音信号往往会受到各种噪声的干扰，主要包括背景噪声、信道噪声和干扰噪声。语音增强是解决噪声污染的有效技术。传统的语音增强方法主要有四种：(1)谱减法，是利用语音的短时平稳性将含噪语音信号的功率谱减去噪声信号的功率谱，便可得到纯净语音信号的功率谱估计。此方法容易产生“音乐噪声”问题；(2)维纳滤波器法，是在假定语音和加性噪声都服从高斯分布的条件下，从给定的含噪语音中通过维纳滤波器估计出语音的谱系数。当滤波器参数的调节到达极限或者处于非稳态噪声环境时，维纳滤波法的效果不佳；(3)基于谱幅度最小均方误差估计法(MMSE)，是假设语音幅度谱满足某种分布，如高斯分布、伽玛分布等，...

【技术保护点】
1.一种基于约束朴素生成对抗网络的语音增强方法，其特征在于：所述方法包括以下步骤，/n(1)、噪声数据收集和标记；/n(2)、语音分帧加窗；/n(3)、幅度压缩；/n(4)、输入约束朴素生成对抗网络训练；/n(5)、幅度解压缩；/n(6)、逆短时傅里叶变换，生成增强语音。/n

【技术特征摘要】
1.一种基于约束朴素生成对抗网络的语音增强方法，其特征在于：所述方法包括以下步骤，
(1)、噪声数据收集和标记；
(2)、语音分帧加窗；
(3)、幅度压缩；
(4)、输入约束朴素生成对抗网络训练；
(5)、幅度解压缩；
(6)、逆短时傅里叶变换，生成增强语音。

2.根据权利要求1所述的一种基于约束朴素生成对抗网络的语音增强方法，其特征在于：所述步骤(1)中噪声数据收集和标记具体包括以下步骤：
(1.1)数据收集：采用NOIZEUS库的语音作为纯净语音，采用NOISEX～92噪声库中的噪声作为噪声信号，采样频率均为8KHz；
(1.2)数据标记：每种噪声分别以-5dB，0dB，5dB，10dB和15dB的信噪比叠加到纯净语音，以此作为含噪语音数据集。

3.根据权利要求1所述的一种基于约束朴素生成对抗网络的语音增强方法，其特征在于：所述步骤(2)中语音分帧加窗是指采用长度为512，帧移为50％的汉明窗对含噪语音分帧，短时傅里叶变换的点数为1024。

4.根据权利要求1所述的一种基于约束朴素生成对抗网络的语音增强方法，其特征在于：所述步骤(3)中幅度压缩是指使用双曲正切函数对复数谱串接向量进行幅度压缩，把取值范围限制在[-1,1]，双曲正切函数定义为

【专利技术属性】
技术研发人员：袁丛琳，孙成立，
申请(专利权)人：南昌航空大学，
类型：发明
国别省市：江西;36

全部详细技术资料下载我是这个专利的主人