一种深度生成对抗网络的语音增强方法技术

技术编号:33347272 阅读:44 留言:0更新日期:2022-05-08 09:45
一种深度生成对抗网络的语音增强方法,包括训练阶段和增强阶段。训练阶段将带噪语音信号输入生成器中输出生成语音信号,并作为输入信号输入到第二个生成器中,同时将生成语音信号连同原始带噪语音信号一起输入判别器中;判别器分别对生成的语音信号进行判别,并将反馈信息分别返回各自生成器中,整个深度生成对抗网络获得具有增强能力。增强阶段则将带噪语音信号输入第一个生成器中,通过整个已训练完毕的深度生成对抗网络模型处理,由最后一个生成器输出增强语音信号。使整个模型能够在更宽松的条件下稳定的向更优的方向训练,提高了深度生成对抗网络的增强效果,在不同噪声干扰条件下,提升了噪声适应性和增强效果。提升了噪声适应性和增强效果。提升了噪声适应性和增强效果。

【技术实现步骤摘要】
一种深度生成对抗网络的语音增强方法


[0001]本专利技术涉及语音增强处理方法的
,尤其涉及深度生成对抗网络的语音增强方 法的


技术介绍

[0002]语音增强的历史最早起源于上世纪初的贝尔实验室,研究人员为了改善电话的通信质 量,在信号的增强方向进行了大量研究,随后的几十年中,更多研究者对语音增强技术进 行了更深入的研究,根据增强模式的不同将语音增强大概分为两个阶段:无监督增强阶段 和有监督增强阶段。
[0003]无监督增强阶段,通常也称为传统语音增强阶段,所谓无监督是指处理过程无需使用 大数据预先进行有监督的离线训练。1979年Boll提出谱减法(Spectral Subtraction,SS,通 过假设语音与噪声相互独立,在频域减去噪声频谱实现增强。虽然谱减法的增强效果明显, 但需以平稳噪声为条件,若噪声估计不准确,则会出现明显的失真或产生容易引起听觉疲 劳的“音乐噪声”。同年Lim等提出维纳滤波法(Weiner Filter,WF),以波形在统计意义上的 最优线性估计为基本思想设计滤波器。维纳滤波法相比谱减法将“音本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种深度生成对抗网络的语音增强方法,其特征在于包括如下步骤:步骤1:数据预处理:所有语音数据使用前均需要进行相应的预处理,分别是对语音信号进行重采样、分帧和预加重;步骤2:构建数据集:仿真实验的数据集由训练集和测试集两部分组成,训练集用于SEWDGAN

div增强模型的训练,测试集用于验证SEWDGAN

div增强模型的实际增强效果;步骤3:生成器模型构建:生成器结构采用U

NET网络的全卷积网络,分为编码和解码两个部分;步骤4:判别器模型构建:判别器结构采用生成器的编码部分,除最后输出层为全连接层以外,其他各层均为卷积层或卷积池化层;步骤5:构建基于Wasserstein divergence的深度生成对抗网络模型:网络的总体结构由n生成器和1个判别器组成,其中n个生成器分别以“串联”的方式进行连接,每个生成器输出的生成信号一方面作为输入信号输入下个生成器,另一方面输入判别器中进行判别;步骤6:模型训练:基于Wasserstein divergence的深度生成对抗网络模型的训练采用分批次训练的方法,使用双时间尺度更新规则的训练方法,通过将判别器的学习率设置高于生成器的学习率,以达到判别器的判别能力领先生成器的生成能力;步骤7:使用训练好的模型进行语音增强处理:将带噪语音信号输入第一个生成器G1中,通过整个已训练完毕的深度生成对抗网络模型处理,最终由最后一个生成器Gn输出增强语音信号。2.根据权利要求1所述的深度生成对抗网络的语音增强方法,其特征在于上述步骤1的数据预处理,还包括:所有语音数据使用前均需要进行相应的预处理,分别是对语音信号进行重采样、分帧和预加重;其中重采样是指以16kHz的采样率对所有语音信号进行重新采样,语音信号无论是训练阶段还是测试阶段均以语音帧为单位进行处理,将所有语音信号按照每帧长度为8192个采样点进行分帧,并...

【专利技术属性】
技术研发人员:张洪德韩鑫怡朱晓晶马宝红陈春明刘博文田田赵芳
申请(专利权)人:中国人民解放军陆军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1