【技术实现步骤摘要】
一种深度生成对抗网络的语音增强方法
[0001]本专利技术涉及语音增强处理方法的
,尤其涉及深度生成对抗网络的语音增强方 法的
技术介绍
[0002]语音增强的历史最早起源于上世纪初的贝尔实验室,研究人员为了改善电话的通信质 量,在信号的增强方向进行了大量研究,随后的几十年中,更多研究者对语音增强技术进 行了更深入的研究,根据增强模式的不同将语音增强大概分为两个阶段:无监督增强阶段 和有监督增强阶段。
[0003]无监督增强阶段,通常也称为传统语音增强阶段,所谓无监督是指处理过程无需使用 大数据预先进行有监督的离线训练。1979年Boll提出谱减法(Spectral Subtraction,SS,通 过假设语音与噪声相互独立,在频域减去噪声频谱实现增强。虽然谱减法的增强效果明显, 但需以平稳噪声为条件,若噪声估计不准确,则会出现明显的失真或产生容易引起听觉疲 劳的“音乐噪声”。同年Lim等提出维纳滤波法(Weiner Filter,WF),以波形在统计意义上的 最优线性估计为基本思想设计滤波器。维纳滤 ...
【技术保护点】
【技术特征摘要】
1.一种深度生成对抗网络的语音增强方法,其特征在于包括如下步骤:步骤1:数据预处理:所有语音数据使用前均需要进行相应的预处理,分别是对语音信号进行重采样、分帧和预加重;步骤2:构建数据集:仿真实验的数据集由训练集和测试集两部分组成,训练集用于SEWDGAN
‑
div增强模型的训练,测试集用于验证SEWDGAN
‑
div增强模型的实际增强效果;步骤3:生成器模型构建:生成器结构采用U
‑
NET网络的全卷积网络,分为编码和解码两个部分;步骤4:判别器模型构建:判别器结构采用生成器的编码部分,除最后输出层为全连接层以外,其他各层均为卷积层或卷积池化层;步骤5:构建基于Wasserstein divergence的深度生成对抗网络模型:网络的总体结构由n生成器和1个判别器组成,其中n个生成器分别以“串联”的方式进行连接,每个生成器输出的生成信号一方面作为输入信号输入下个生成器,另一方面输入判别器中进行判别;步骤6:模型训练:基于Wasserstein divergence的深度生成对抗网络模型的训练采用分批次训练的方法,使用双时间尺度更新规则的训练方法,通过将判别器的学习率设置高于生成器的学习率,以达到判别器的判别能力领先生成器的生成能力;步骤7:使用训练好的模型进行语音增强处理:将带噪语音信号输入第一个生成器G1中,通过整个已训练完毕的深度生成对抗网络模型处理,最终由最后一个生成器Gn输出增强语音信号。2.根据权利要求1所述的深度生成对抗网络的语音增强方法,其特征在于上述步骤1的数据预处理,还包括:所有语音数据使用前均需要进行相应的预处理,分别是对语音信号进行重采样、分帧和预加重;其中重采样是指以16kHz的采样率对所有语音信号进行重新采样,语音信号无论是训练阶段还是测试阶段均以语音帧为单位进行处理,将所有语音信号按照每帧长度为8192个采样点进行分帧,并...
【专利技术属性】
技术研发人员:张洪德,韩鑫怡,朱晓晶,马宝红,陈春明,刘博文,田田,赵芳,
申请(专利权)人:中国人民解放军陆军工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。