【技术实现步骤摘要】
一种基于生成对抗网络的端到端语音增强方法
本专利技术涉及语音信号处理
,尤其涉及一种基于生成对抗网络的端到端语音增强方法。
技术介绍
单通道语音增强已经研究数十年,但其在自动语音识别、助听设备及免提移动通信等各种应用系统中仍面临着极大的挑战。传统语音增强算法通常基于统计学方法,包括噪声估计和语音估计。由于传统语音增强算法基于对语音信号和噪声信号的统计学模型假设,其性能很大程度上依赖于噪声估计的准确性。为了在语音和噪声信号处理过程避免使用特定失真度准则和模型假设,研究者们提出大量基于数据驱动的语音增强方法,其中,近年来,生成对抗网络(GAN)称为深度学习领域研究的新热点,其结构和训练方法与传统的深度神经网络有很大的区别。传统的深度神经网络(DNN)一般直接使用原始数据作为网络的学习目标,反向传播的误差一般是网络的输出与真实数据的欧式距离等函数。而GAN尝试隐式地使用神经网络去拟合高维度数据的分布,即该方法属于机器学习领域的生成式模型方法。生成对抗网络最大的特点是,使用竞争对抗的方式同时训练一对网络模型,而不是分别单独训练模型。用个通俗易懂的类比来说明:一个神经 ...
【技术保护点】
1.一种基于生成对抗网络的端到端语音增强方法,其特征在于,将带噪语音信号直接输入预先训练好的深度神经网络进行信号处理并输出增强语音信号;其中,深度神经网络通过以下步骤训练得到:步骤S1:初步训练生成对抗网络,其中,所述生成对抗网络包括两个深度神经网络:生成器G和判别器D,所述生成器G用于产生生成信号以逼近真实语音信号;所述判别器D用于判别所述生成器G产生的生成信号是否为真实语音信号并以此输出‘1’或‘0’;所述步骤S1进一步包括:步骤S11:获取第一训练数据,其中,第一训练数据包括模拟带噪语音及其相对应的纯净语音,均从标准数据集中直接得到,以纯净语音作为标签数据;步骤S12 ...
【技术特征摘要】
1.一种基于生成对抗网络的端到端语音增强方法,其特征在于,将带噪语音信号直接输入预先训练好的深度神经网络进行信号处理并输出增强语音信号;其中,深度神经网络通过以下步骤训练得到:步骤S1:初步训练生成对抗网络,其中,所述生成对抗网络包括两个深度神经网络:生成器G和判别器D,所述生成器G用于产生生成信号以逼近真实语音信号;所述判别器D用于判别所述生成器G产生的生成信号是否为真实语音信号并以此输出‘1’或‘0’;所述步骤S1进一步包括:步骤S11:获取第一训练数据,其中,第一训练数据包括模拟带噪语音及其相对应的纯净语音,均从标准数据集中直接得到,以纯净语音作为标签数据;步骤S12:将第一训练数据输入到生成对抗网络,并以对抗学习的方式训练生成对抗网络;步骤S2:通过传统基于统计学语音增强算法对模拟带噪语音进行知识蒸馏后,再次训练生成对抗网络,所述步骤S2进一步包括:步骤S21:获取第二训练数据,其中,第二训练数据包括模拟带噪语音及该模拟带噪语音经过传统基于统计学语音增强算法处理后产生第一增强语音,以第一增强语音作为标签数据;步骤S22:将第二训练数据输入到生成对抗网络,并以对抗学习的方式再次训练生成对抗网络;步骤S3:利用真实带噪语音对经上述步骤训练得到的生成器G进行微调,所述步骤S3进一步包括:步骤S31:获取第三训练数据,第三训练数据包括真实带噪语音及该真实带噪语音经过传统基...
【专利技术属性】
技术研发人员:吴建锋,秦会斌,秦宏帅,
申请(专利权)人:杭州派尼澳电子科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。