一种基于循环生成对抗网络的骨导语音增强方法技术

技术编号:38993431 阅读:5 留言:0更新日期:2023-10-07 10:24
本发明专利技术公开了一种基于循环生成对抗网络的骨导语音增强方法,具体包括:在训练阶段提取骨导语音和相应气导语音的梅尔倒谱系数送入构建好的循环生成对抗网络进行训练,保存训练好的循环生成对抗网络中生成器的网络参数。在应用阶段将待增强的的骨导语音信号利用WORLD声码器提取基频,梅尔倒谱系数和非周期性参数等三种特征,利用训练阶段完成后保存的生成器网络参数构建特征映射模型,将其中的梅尔倒谱系数输入训练好的神经网络模型进行映射,将映射后的梅尔倒谱系数与骨导语音的基频和非周期性参数特征经WORLD声码器的语音合成功能获得增强后的骨导语音。功能获得增强后的骨导语音。功能获得增强后的骨导语音。

【技术实现步骤摘要】
一种基于循环生成对抗网络的骨导语音增强方法


[0001]本专利技术涉及语音信号处理和深度学习领域,属于基于深度学习的语音增强方法,具体为一种基于循环生成对抗网络的骨导语音增强方法,用于对骨导语音进行增强,便于使用骨导设备进行通信。

技术介绍

[0002]骨导语音与外界环境隔离,对噪声有较好的鲁棒性。但是骨导语音带宽有限,高频部分严重缺失,使得骨导语音听起来很沉闷。骨导语音在一些噪声环境中可以很好地发挥作用,因此单独增强骨导语音来弥补其清晰度的不足是有意义的。骨导语音增强方面常用的思想是基于源

滤波器模型的谱包络映射。在深度学习技术被广泛应用之前常用的方法是基于高斯混合模型的方法。近年来,深度学习在信号处理领域崭露头角。随着深度学习在语音处理中的发展和应用,实现骨导语音和气导语音之间复杂而详细的频谱映射成为可能。源滤波器模型的理论认为一段语音信号等同于一个声源信号经过一个滤波器后得到,声源就是肺部气流和声带的共同作用下形成的激励,至于声源信号经过的部位如声道口腔等就相当于一个滤波器,骨导语音和气导语音可以认为是相同的激励通过不同的传播路径和方式所产生,也即声源相同而声源信号经过的滤波器不同。
[0003]与本专利技术相关的现有技术如下:
[0004]现有技术方案一:由郑昌艳等人发表的“一种基于深度双向长短期记忆循环神经网络(BLSTM)的喉传声器语音增强框架”文章中。首先训练一个BLSTM型网络用于骨导语音到与之对应的气导语音之间的幅度谱映射,在应用模型的时候将骨导语音进行短时傅里叶变换,分别获取其幅度谱和相位谱,将其幅度谱通过训练好的网络进行转换,转换成对应的气导语音的幅度谱,然后将转换后的幅度谱结合转换之前获得的相位谱获得完整的语音频谱,将语音频谱进行短时傅里叶逆变换后获得转换后的语音。
[0005]现有技术方案二:在王鹤鸣等人发表的“基于注意力融合机制的骨导和空气传导在复数域的语音增强”文章中,训练了一个卷积循环网络(CRN)进行骨导语音和气导语音的复数域的频谱映射,即获取骨导语音和气导语音的复数域频谱后不将其分为幅度谱和相位谱。并且为了充分利用气导语音全频带带宽和骨导语音的噪声鲁棒性,在CRN中引入了基于注意的融合的机制和密集连接的策略进行语音增强。
[0006]上述相关技术具有如下缺陷:
[0007]首先,通过BLSTM网络对骨导语音的幅度谱进行映射,BLSTM网络对骨导语音相对于气导语音缺失严重的高频成分的恢复效果很一般,导致转换后的语音依旧可能出现不清晰的情况。
[0008]其次,采用将卷积神经网络(CNN)和循环神经网络(RNN)组合在一起的CRN的网络形式,增加了网络的复杂程度和训练难度。在此基础上,采用注意力融合的机制,进一步大大增加了网络的计算量和参数量。
[0009]最后,上述两种方案提供的处理方法均对采集到的信号进行了短时傅里叶变换方
法处理,将变换后的结果分为幅度谱和相位谱,通过训练一个神经网络映射模型进行骨导语音和相应的空气传导语音的幅度谱之间的映射,将映射后的幅度谱与骨导语音的相位谱进行结合,在通过短时傅里叶逆变换获得增强后的语音。但是两种方案均未考虑骨导语音和气导语音的相位不匹配的问题,虽然人耳对语音信息的相位不敏感,但是这依旧可能因为相位不匹配的问题导致转换后的语音质量下降。

技术实现思路

[0010]为克服现有技术存在的问题,本专利技术公开了一种基于循环生成对抗网络的骨导语音增强方法,包括:
[0011]训练过程:
[0012]S1:获取训练所用音频并对其中的骨导语音和气导语音利用声码器进行特征提取,将提取的梅尔倒谱系数作为训练数据;
[0013]S2:构建循环生成对抗网络;
[0014]S3:将步骤S1中得到的训练数据输入步骤S2中构建好的循环生成对抗网络模型进行训练,根据模型输出的梅尔倒谱系数和步骤S1中提取的梅尔倒谱系数之间的误差设计损失函数,训练一次后保存训练好的网络参数用于应用过程;
[0015]应用过程:
[0016]S4:将需要增强的骨导语音通过声码器提取梅尔倒谱系数、基频信息和非周期性参数信息;
[0017]S5:构建特征映射模型,将待增强的骨导语音的梅尔倒谱系数映射为增强后的梅尔倒谱系数;
[0018]S6:将步骤S4中提取的骨导语音的基频信息、非周期性参数信息和经过步骤S5后获得的增强梅尔倒谱系数通过声码器合成增强后的骨导语音;
[0019]在实施方式中步骤S1的训练所用音频的获取过程,通过骨导麦克风和气导麦克风设备以16kHz的采样率同步录制多个说话人的多段成对的骨导、气导语音,语音的长度控制在8~11秒左右,录制语音的说话人类型保证男声、女声的数量相当。梅尔倒谱系数提取过程利用WORLD声码器实现。通过WORLD声码器的内置功能函数提取出数据集中所有的骨导语音和相对应的气导语音的梅尔倒谱系数(MCEPs)。
[0020]在实施方式中步骤S2和S3的循环生成对抗网络模型的构建及训练过程,首先,利用卷积层(CONV)、距离标准化层(IN)、门控线性单元层(GLU)等深度学习中比较常见的隐藏层搭建循环生成对抗网络(CycleGAN)需要用到的生成器和鉴别器,并使用均值为零且标准差为0.02的正态分布随机数进行网络参数的初始化。其次,利用步骤S1中的获得的成对训练数据对构建好的循环生成对抗网络进行训练。训练过程使用随机梯度下降算法训练循环生成对抗网络,并采用Adam优化器进行优化。训练一次后得到训练好的生成器的模型参数用于应用过程。
[0021]在实施方式中步骤S4的待增强骨导语音的特征提取过程,特征提取过程利用WORLD声码器实现,首先通过WORLD声码器中封装好的DIO、CheapTrick、Platinum等三个函数依次提取骨导语音的基频(F0),谱包络(spec)和非周期性参数(aps)等三个特征,然后,将谱包络(spec)特征通过WORLD声码器内置的Code_spectral_envelope函数转换为梅尔倒
谱系数特征(MCEPs)。
[0022]在实施方式中步骤S5的特征映射模型构建过程及特征映射过程,首先根据循环生成对抗网络的生成器结构构建特征映射模型,将训练过程结束后获得的的生成器模型参数导入模型,然后将步骤S4中提取的梅尔倒谱系数输入构建好的语音特征映射模型进行特征映射,获得增强后的梅尔倒谱系数;
[0023]在实施方式中步骤S6的语音合成过程利用WORLD声码器实现。将经过步骤S5后获得的增强梅尔倒谱系数与步骤S4中提取的骨导语音的基频和非周期性参数一起通过WORLD声码器内置的Synthesis函数进行语音合成,合成后的输出即为增强后的骨导语音。
[0024]由于采用了上述技术方案,本专利技术提供的一种基于循环生成对抗网络的骨导语音增强方法,具有如下有益效果:
[0025]1、本专利技术在对语音进行特征提取的操作时,没有对语音短时傅里叶变换结果的幅度谱和相位谱进行分离本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于循环生成对抗网络的骨导语音增强方法,其特征在于包括:获取音频数据,利用声码器对音频数据中的骨导语音和气导语音进行特征提取,将提取的梅尔倒谱系数作为训练数据;构建循环生成对抗网络;将训练数据输入至循环生成对抗网络中进行训练,根据模型输出的梅尔倒谱系数和上述提取的梅尔倒谱系数之间的误差设计损失函数,将完成训练的循环生成对抗网络用于应用过程;应用过程中:采用声码器提取需要增强的骨导语音梅尔倒谱系数、基频信息和非周期性参数信息;构建特征映射模型,将待增强的骨导语音的梅尔倒谱系数映射为增强后的梅尔倒谱系数;将提取的骨导语音的基频信息、非周期性参数信息和获得的增强梅尔倒谱系数通过声码器合成增强后的骨导语音。2.根据权利要求1所述的方法,其特征是在于:采用WORLD声码器的内置功能函数提取出音频数据集中所有的骨导语音和相对应的气导语音的梅尔倒谱系数。3.根据权利要求2所述的方法,其特征是在于:构建循环生成对抗网络时:利用卷积层、距离标准化层以及门控线性单元层搭建循环生成对抗网络,所述循环生成对抗网络包括生成器网络和鉴别器网络,使用正态分布随机数对循环生成对抗网络参数进行...

【专利技术属性】
技术研发人员:陈喆殷福亮王伟
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1