一种深度生成对抗网络的语音增强方法技术

技术编号：33347272 阅读：44 留言：0更新日期：2022-05-08 09:45

一种深度生成对抗网络的语音增强方法，包括训练阶段和增强阶段。训练阶段将带噪语音信号输入生成器中输出生成语音信号，并作为输入信号输入到第二个生成器中，同时将生成语音信号连同原始带噪语音信号一起输入判别器中；判别器分别对生成的语音信号进行判别，并将反馈信息分别返回各自生成器中，整个深度生成对抗网络获得具有增强能力。增强阶段则将带噪语音信号输入第一个生成器中，通过整个已训练完毕的深度生成对抗网络模型处理，由最后一个生成器输出增强语音信号。使整个模型能够在更宽松的条件下稳定的向更优的方向训练，提高了深度生成对抗网络的增强效果，在不同噪声干扰条件下，提升了噪声适应性和增强效果。提升了噪声适应性和增强效果。提升了噪声适应性和增强效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种深度生成对抗网络的语音增强方法

[0001]本专利技术涉及语音增强处理方法的
，尤其涉及深度生成对抗网络的语音增强方法的

技术介绍

[0002]语音增强的历史最早起源于上世纪初的贝尔实验室，研究人员为了改善电话的通信质量，在信号的增强方向进行了大量研究，随后的几十年中，更多研究者对语音增强技术进行了更深入的研究，根据增强模式的不同将语音增强大概分为两个阶段：无监督增强阶段和有监督增强阶段。
[0003]无监督增强阶段，通常也称为传统语音增强阶段，所谓无监督是指处理过程无需使用大数据预先进行有监督的离线训练。1979年Boll提出谱减法(Spectral Subtraction,SS，通过假设语音与噪声相互独立，在频域减去噪声频谱实现增强。虽然谱减法的增强效果明显，但需以平稳噪声为条件，若噪声估计不准确，则会出现明显的失真或产生容易引起听觉疲劳的“音乐噪声”。同年Lim等提出维纳滤波法(Weiner Filter,WF)，以波形在统计意义上的最优线性估计为基本思想设计滤波器。维纳滤...

【技术保护点】

【技术特征摘要】
1.一种深度生成对抗网络的语音增强方法，其特征在于包括如下步骤：步骤1：数据预处理：所有语音数据使用前均需要进行相应的预处理，分别是对语音信号进行重采样、分帧和预加重；步骤2：构建数据集：仿真实验的数据集由训练集和测试集两部分组成，训练集用于SEWDGAN
‑
div增强模型的训练，测试集用于验证SEWDGAN
‑
div增强模型的实际增强效果；步骤3：生成器模型构建：生成器结构采用U
‑
NET网络的全卷积网络，分为编码和解码两个部分；步骤4：判别器模型构建：判别器结构采用生成器的编码部分，除最后输出层为全连接层以外，其他各层均为卷积层或卷积池化层；步骤5：构建基于Wasserstein divergence的深度生成对抗网络模型：网络的总体结构由n生成器和1个判别器组成，其中n个生成器分别以“串联”的方式进行连接，每个生成器输出的生成信号一方面作为输入信号输入下个生成器，另一方面输入判别器中进行判别；步骤6：模型训练：基于Wasserstein divergence的深度生成对抗网络模型的训练采用分批次训练的方法，使用双时间尺度更新规则的训练方法，通过将判别器的学习率设置高于生成器的学习率，以达到判别器的判别能力领先生成器的生成能力；步骤7：使用训练好的模型进行语音增强处理：将带噪语音信号输入第一个生成器G1中，通过整个已训练完毕的深度生成对抗网络模型处理，最终由最后一个生成器Gn输出增强语音信号。2.根据权利要求1所述的深度生成对抗网络的语音增强方法，其特征在于上述步骤1的数据预处理，还包括：所有语音数据使用前均需要进行相应的预处理，分别是对语音信号进行重采样、分帧和预加重；其中重采样是指以16kHz的采样率对所有语音信号进行重新采样，语音信号无论是训练阶段还是测试阶段均以语音帧为单位进行处理，将所有语音信号按照每帧长度为8192个采样点进行分帧，并...

【专利技术属性】
技术研发人员：张洪德，韩鑫怡，朱晓晶，马宝红，陈春明，刘博文，田田，赵芳，
申请(专利权)人：中国人民解放军陆军工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人