一种基于声纹比对和生成对抗网络的语音增强方法技术

技术编号:20330305 阅读:35 留言:0更新日期:2019-02-13 06:28
本发明专利技术公开一种基于声纹比对和生成对抗网络的语音增强方法,1)建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统;2)训练声纹识别编码器提取目标说话者的声纹特征,得目标声纹特征;3)将带噪音频转化成语谱图送入噪声分离系统中的生成器中,得预测干净音频;4)将预测干净音频和真实干净音频送入噪声分离系统中的鉴别器训练;5)调整鉴定器权重参数,使鉴定器更好地分辨出真实干净音频和预测干净音频的区别,得到产生近乎真实的干净音频的生成器;6)将说话者的声音送入已经训练好的生成器中,生成预测干净语谱图,得到增强的语音信号。该方法规模小、计算低、易于移植、保持一定的空间不变性且去噪效果好。

【技术实现步骤摘要】
一种基于声纹比对和生成对抗网络的语音增强方法
本专利技术涉及语音增强
,具体是一种基于声纹比对和生成对抗网络的语音增强方法。
技术介绍
随着社会的发展,电子产品的普及,人们对语音质量的要求越来越高。如何提高电子产品在嘈杂环境下的移动通信质量已经成为当下最热门的研究方向。而语音增强可以提高噪声环境下语音的质量和可理解性,语音增强不仅在助听器和人工耳蜗领域有着重要的应用,而且已成功应用于语音识别和说话人识别系统中的预处理阶段。经典的语音增强的方法有谱减法、维纳滤波、基于统计模型的方法和子空间算法。自80年代以来,神经网络也被应用于语音增强。近些年,去噪自编码架构已被广泛采用。例如,循环去噪自编码在对音频信号上下文信息的处理上表现良好。最近长短期记忆网络也被应用于去噪任务。尽管上述这些方法都可以取得不错的效果,但是却需要大量的数据和计算量,难以移植到嵌入式设备。而且,这些方法往往依赖于训练集,输出的干净音频是基于训练集输出干净音频的平均值,会比较模糊,对细节的处理并不尽如人意。
技术实现思路
本专利技术的目的在于克服现有技术的不足,而提供一种基于声纹比对和生成对抗网络的语音增强方法,该方法规模小、计算更低、易于移植、保持一定的空间不变性且去噪效果好。实现本专利技术目的的技术方案是:一种基于声纹比对和生成对抗网络的语音增强方法,包括如下步骤:1)建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统;2)训练声纹识别编码器提取目标说话者的声纹特征,得到目标声纹特征;3)将带噪的音频转化成语谱图送入噪声分离系统中的生成器中,生成器根据声纹识别编码器提取的目标声纹特征分离出目标说话人的声音,得到预测干净音频;4)将步骤3)得到的预测干净音频和步骤1)语音分离系统中真实干净音频送入噪声分离系统中的鉴别器进行训练,使鉴别器分辨出说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布;5)调整鉴定器权重参数,使鉴定器更好地分辨出真实干净音频和生成器产生的预测干净音频的区别,根据鉴别器区分结果更新生成器的权重参数,直至鉴别器分辨不出生成器产生的预测音频和真实的干净音频的区别,得到可以产生近乎真实的干净音频的生成器;6)通过传声器收集说话者的声音,经短时傅里叶变换转化成语谱图送入已经训练好的生成器中,生成预测干净语谱图,再通过反短时傅里叶变换转化成语音模拟信号,语音模拟信号经扬声器播放出来,即得到增强的语音信号。所述的应声纹识别编码器为2000NISISpeakerRecongnitionEvaluation语音库的应声纹识别编码器;所述的噪声分离系统为100-nonspeech噪音库的噪声分离系统;所述的语音分离系统为TIMIT语音库的语音分离系统。步骤2)中,所述的声纹识别编码器提取目标说话人的声纹特征,具体是:将音频信号转换为宽度为25ms和步长为10ms的帧,经过mel滤波器对每帧进行滤波,并且从结果中提取尺寸为40的能量谱作为网络输入,在这些帧上构建固定长度的滑动窗口,并在每个窗口上运行长短期记忆网络,然后将长短期记忆网络最后帧输出作为该滑动窗口的声纹特征(d-vector)表示。所述的生成器,是由一个8层的卷积网络、一个1层的长短期记忆循环网络和一个2层的全连接网络组成,每层都用Relu激活函数,最后一层全连接网络使用sigmoid激活函数,输入信号的语谱图经过卷积层后,参考音频的声纹特征(d-vector)会被逐帧拼接到卷积层的输出上,一同输入长短期记忆层,最终,网络的输出是一段与输入语谱图维度相同的掩码(mask),将输出掩码与输入语谱图相乘,即可得到输出音频的预测干净音频谱图所述的鉴别器,是由一个2层的卷积网络和一个2层的全连接神经网络组成,每层都用Relu激活函数,最后一层全连接网络使用sigmoid激活函数,生成器将生成的预测干净音频谱图送入鉴别器,再将步骤1)中真实干净音频X送入鉴别器,训练鉴别器神经网络,鉴别器对生成器产生的预测干净音频谱图判定为虚假数据给予低分(接近0),对步骤1)中真实干净音频X判定为真实数据给予高分(接近1),以此学习真实数据和预测数据的分布,使鉴别器分辨出步骤6)中说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布。所述的调整鉴定器权重参数,具体是将真实虚假的消息传递给生成器,生成器调整网络模型的参数,修正其输出的语谱图,使其更接近于真实的分布,消除被鉴别器判定为虚假的噪音信号,即使生成器产生的预测干净语谱图可以“骗过”鉴别器,鉴别器判定生成器产生的预测干净语谱图是从TIMIT语音库中得到的真实干净音频的语谱图X,在神经网络反向传播的过程中,鉴别器能够更好地分辨出真实干净音频和生成器产生的预测干净音频的区别,也就是更好地找到真实干净音频的特征;同样的,生成器也会随着不断更新的鉴别器,调整其参数,使其产生的预测语谱图向着真实干净音频语谱图移动。所述的生成器、鉴别器,相互博弈,相互对抗,生成对抗网络算法,算法公式如下:为解决经典方法面临梯度消失的问题,采用最小二乘生成对抗网络(theleast-squaresGAN)代替交叉熵损失(thecross-entropyloss),则:上述公式中,G表示生成器(Generator),D表示鉴别器(Discriminator),V代表损失值,data表示步骤1)语音分离系统中真实干净音频的语音库,x表示data中抽取出的真实干净语音音频,noise表示步骤1)语音分离系统中的带噪音频语音库,n表示从noise中抽取与x对应的带噪音频,G(n)表示生成器对带噪语音进行去噪处理,得到预测干净音频D(G(n))表示鉴别器对预测干净音频进行判定为虚假数给予低分(接近0),对真实干净音频X判定为真实数据给予高分(接近1)。本专利技术提供的一种基于声纹比对和生成对抗网络的语音增强方法,该方法规模小、计算更低、易于移植、保持一定的空间不变性且去噪效果好。附图说明图1为本专利技术方法的流程图;图2为本专利技术中的声纹识别编码器示意图;图3为本专利技术中的生成器示意图;图4为本专利技术中的鉴别器示意图。具体实施方式下面结合附图和实施例对本专利技术做进一步阐述,但不是对本专利技术的限定。实施例:如图1所示,一种基于声纹比对和生成对抗网络的语音增强方法,包括如下步骤:1)建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统;2)训练声纹识别编码器提取目标说话者的声纹特征,得到目标声纹特征;3)将带噪的音频转化成语谱图送入噪声分离系统中的生成器中,生成器根据声纹识别编码器提取的目标声纹特征分离出目标说话人的声音,得到预测干净音频;4)将步骤3)得到的预测干净音频和步骤1)语音分离系统中真实干净音频送入噪声分离系统中的鉴别器进行训练,使鉴别器分辨出说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布;5)调整鉴定器权重参数,使鉴定器更好地分辨出真实干净音频和生成器产生的预测干净音频的区别,根据鉴别器区分结果更新生成器的权重参数,直至鉴别器分辨不出生成器产生的预测音频和真实的干净音频的区别,得到可以产生近乎真实的干净音频的生成器;6)通过传声器收集说话者的声音,经短时傅里叶变换转化成语谱图送入已经训练好的生本文档来自技高网...

【技术保护点】
1.一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,包括如下步骤:1)建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统;2)训练声纹识别编码器提取目标说话者的声纹特征,得到目标声纹特征;3)将带噪的音频转化成语谱图送入噪声分离系统中的生成器中,生成器根据声纹识别编码器提取的目标声纹特征分离出目标说话人的声音,得到预测干净音频;4)将步骤3)得到的预测干净音频和步骤1)语音分离系统中真实干净音频送入噪声分离系统中的鉴别器进行训练,使鉴别器分辨出说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布;5)调整鉴定器权重参数,使鉴定器更好地分辨出真实干净音频和生成器产生的预测干净音频的区别,根据鉴别器区分结果更新生成器的权重参数,直至鉴别器分辨不出生成器产生的预测音频和真实的干净音频的区别,得到可以产生近乎真实的干净音频的生成器;6)通过传声器收集说话者的声音,经短时傅里叶变换转化成语谱图送入已经训练好的生成器中,生成预测干净语谱图,再通过反短时傅里叶变换转化成语音模拟信号,语音模拟信号经扬声器播放出来,即得到增强的语音信号。

【技术特征摘要】
1.一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,包括如下步骤:1)建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统;2)训练声纹识别编码器提取目标说话者的声纹特征,得到目标声纹特征;3)将带噪的音频转化成语谱图送入噪声分离系统中的生成器中,生成器根据声纹识别编码器提取的目标声纹特征分离出目标说话人的声音,得到预测干净音频;4)将步骤3)得到的预测干净音频和步骤1)语音分离系统中真实干净音频送入噪声分离系统中的鉴别器进行训练,使鉴别器分辨出说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布;5)调整鉴定器权重参数,使鉴定器更好地分辨出真实干净音频和生成器产生的预测干净音频的区别,根据鉴别器区分结果更新生成器的权重参数,直至鉴别器分辨不出生成器产生的预测音频和真实的干净音频的区别,得到可以产生近乎真实的干净音频的生成器;6)通过传声器收集说话者的声音,经短时傅里叶变换转化成语谱图送入已经训练好的生成器中,生成预测干净语谱图,再通过反短时傅里叶变换转化成语音模拟信号,语音模拟信号经扬声器播放出来,即得到增强的语音信号。2.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,所述的应声纹识别编码器为2000NISISpeakerRecongnitionEvaluation语音库的应声纹识别编码器;所述的噪声分离系统为100-nonspeech噪音库的噪声分离系统;所述的语音分离系统为TIMIT语音库的语音分离系统。3.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,步骤2)中,所述的声纹识别编码器提取目标说话人的声纹特征,具体是:将音频信号转换为宽度为25ms和步长为10ms的帧,经过mel滤波器对每帧进行滤波,并且从结果中提取尺寸为40的能量谱作为网络输入,在这些帧上构建固定长度的滑动窗口,并在每个窗口上运行长短期记忆网络,然后将长短期记忆网络最后帧输出作为该滑动窗口的声纹特征(d-vector)表示。4.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法,其特征在于,所述的生成器,是由一个8层的卷积网络、一个1层的长短期记忆循环网络和一个2层的全连接网络组成,每层都用Relu激活函数,最后一层全连接网络使用sigmoid激活函数,输入信号的语谱图经过卷积层后,参考音频的声纹特征(d-vector)会被逐帧拼接到卷积层的输出上,一同输入长短期记忆层,最终,网络的...

【专利技术属性】
技术研发人员:钟艳如张家豪赵帅杰李芳蓝如师罗笑南
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1