一种基于声纹比对和生成对抗网络的语音增强方法技术

技术编号：20330305 阅读：35 留言：0更新日期：2019-02-13 06:28

本发明专利技术公开一种基于声纹比对和生成对抗网络的语音增强方法，1）建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统；2）训练声纹识别编码器提取目标说话者的声纹特征，得目标声纹特征；3）将带噪音频转化成语谱图送入噪声分离系统中的生成器中，得预测干净音频；4）将预测干净音频和真实干净音频送入噪声分离系统中的鉴别器训练；5）调整鉴定器权重参数，使鉴定器更好地分辨出真实干净音频和预测干净音频的区别，得到产生近乎真实的干净音频的生成器；6）将说话者的声音送入已经训练好的生成器中，生成预测干净语谱图，得到增强的语音信号。该方法规模小、计算低、易于移植、保持一定的空间不变性且去噪效果好。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于声纹比对和生成对抗网络的语音增强方法
本专利技术涉及语音增强
，具体是一种基于声纹比对和生成对抗网络的语音增强方法。
技术介绍
随着社会的发展，电子产品的普及，人们对语音质量的要求越来越高。如何提高电子产品在嘈杂环境下的移动通信质量已经成为当下最热门的研究方向。而语音增强可以提高噪声环境下语音的质量和可理解性，语音增强不仅在助听器和人工耳蜗领域有着重要的应用，而且已成功应用于语音识别和说话人识别系统中的预处理阶段。经典的语音增强的方法有谱减法、维纳滤波、基于统计模型的方法和子空间算法。自80年代以来，神经网络也被应用于语音增强。近些年，去噪自编码架构已被广泛采用。例如，循环去噪自编码在对音频信号上下文信息的处理上表现良好。最近长短期记忆网络也被应用于去噪任务。尽管上述这些方法都可以取得不错的效果，但是却需要大量的数据和计算量，难以移植到嵌入式设备。而且，这些方法往往依赖于训练集，输出的干净音频是基于训练集输出干净音频的平均值，会比较模糊，对细节的处理并不尽如人意。
技术实现思路
本专利技术的目的在于克服现有技术的不足，而提供一种基于声纹比对和生成对抗网络的语音增强方法，该方法规模小、计算更低、易于移植、保持一定的空间不变性且去噪效果好。实现本专利技术目的的技术方案是：一种基于声纹比对和生成对抗网络的语音增强方法，包括如下步骤：1)建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统；2)训练声纹识别编码器提取目标说话者的声纹特征，得到目标声纹特征；3)将带噪的音频转化成语谱图送入噪声分离系统中的生成器中，生成器根据声纹识别编码器...

【技术保护点】
1.一种基于声纹比对和生成对抗网络的语音增强方法，其特征在于，包括如下步骤：1)建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统；2)训练声纹识别编码器提取目标说话者的声纹特征，得到目标声纹特征；3)将带噪的音频转化成语谱图送入噪声分离系统中的生成器中，生成器根据声纹识别编码器提取的目标声纹特征分离出目标说话人的声音，得到预测干净音频；4)将步骤3)得到的预测干净音频和步骤1)语音分离系统中真实干净音频送入噪声分离系统中的鉴别器进行训练,使鉴别器分辨出说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布；5)调整鉴定器权重参数，使鉴定器更好地分辨出真实干净音频和生成器产生的预测干净音频的区别，根据鉴别器区分结果更新生成器的权重参数，直至鉴别器分辨不出生成器产生的预测音频和真实的干净音频的区别，得到可以产生近乎真实的干净音频的生成器；6)通过传声器收集说话者的声音，经短时傅里叶变换转化成语谱图送入已经训练好的生成器中，生成预测干净语谱图，再通过反短时傅里叶变换转化成语音模拟信号，语音模拟信号经扬声器播放出来，即得到增强的语音信号。

【技术特征摘要】
1.一种基于声纹比对和生成对抗网络的语音增强方法，其特征在于，包括如下步骤：1)建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统；2)训练声纹识别编码器提取目标说话者的声纹特征，得到目标声纹特征；3)将带噪的音频转化成语谱图送入噪声分离系统中的生成器中，生成器根据声纹识别编码器提取的目标声纹特征分离出目标说话人的声音，得到预测干净音频；4)将步骤3)得到的预测干净音频和步骤1)语音分离系统中真实干净音频送入噪声分离系统中的鉴别器进行训练,使鉴别器分辨出说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布；5)调整鉴定器权重参数，使鉴定器更好地分辨出真实干净音频和生成器产生的预测干净音频的区别，根据鉴别器区分结果更新生成器的权重参数，直至鉴别器分辨不出生成器产生的预测音频和真实的干净音频的区别，得到可以产生近乎真实的干净音频的生成器；6)通过传声器收集说话者的声音，经短时傅里叶变换转化成语谱图送入已经训练好的生成器中，生成预测干净语谱图，再通过反短时傅里叶变换转化成语音模拟信号，语音模拟信号经扬声器播放出来，即得到增强的语音信号。2.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法，其特征在于，所述的应声纹识别编码器为2000NISISpeakerRecongnitionEvaluation语音库的应声纹识别编码器；所述的噪声分离系统为100-nonspeech噪音库的噪声分离系统；所述的语音分离系统为TIMIT语音库的语音分离系统。3.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法，其特征在于，步骤2)中，所述的声纹识别编码器提取目标说话人的声纹特征，具体是：将音频信号转换为宽度为25ms和步长为10ms的帧，经过mel滤波器对每帧进行滤波，并且从结果中提取尺寸为40的能量谱作为网络输入，在这些帧上构建固定长度的滑动窗口，并在每个窗口上运行长短期记忆网络，然后将长短期记忆网络最后帧输出作为该滑动窗口的声纹特征(d-vector)表示。4.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法，其特征在于，所述的生成器，是由一个8层的卷积网络、一个1层的长短期记忆循环网络和一个2层的全连接网络组成，每层都用Relu激活函数，最后一层全连接网络使用sigmoid激活函数，输入信号的语谱图经过卷积层后，参考音频的声纹特征(d-vector)会被逐帧拼接到卷积层的输出上，一同输入长短期记忆层，最终，网络的...

【专利技术属性】
技术研发人员：钟艳如，张家豪，赵帅杰，李芳，蓝如师，罗笑南，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：广西,45

全部详细技术资料下载我是这个专利的主人