基于深度域自适应网络的助听器语音增强方法技术

技术编号:26422476 阅读:32 留言:0更新日期:2020-11-20 14:18
本发明专利技术公开了一种基于深度域自适应网络的助听器语音增强方法,包括:分别从带噪语音和干净语音中提取帧级对数功率谱特征;构建基于编码器‑解码器结构的深度学习模型作为基线语音增强模型;在基线语音增强模型的基础上,构建基于深度域自适应网络的迁移学习语音增强模型;迁移学习语音增强模型在特征编码器和重建解码器之间引入域适配层和相对鉴别器;利用域对抗性损失训练迁移学习语音增强模型;在增强阶段,根据训练后的深度域自适应迁移学习语音增强模型,输入目标域带噪语音的帧级LPS特征,重建增强语音波形。本发明专利技术通过域对抗性训练来激励特征编码器生成域不变性特征,从而提高语音增强模型对未见噪声的适应性。

【技术实现步骤摘要】
基于深度域自适应网络的助听器语音增强方法
本专利技术涉及语音增强
,尤其涉及一种基于深度域自适应网络的助听器语音增强方法。
技术介绍
在复杂环境下,目标声音通常淹没在噪声中,声音频谱分析的结果受到严重影响,使得自适应降频算法性能急剧下降。同时,听障患者的一些听障特征,如听觉阈值较高,短时特征辨认困难,以及退化的听觉外周,使得复杂场景下的语音理解成为影响使用率的普遍问题和难题。经典的单通道噪声抑制器基于统计信号处理方法,其重点在于如何从含噪语音中有效估计噪声谱,从而对其进行抑制。典型算法包括谱减法、维纳滤波法、最小均方误差法、最小控制的迭代平均的噪声估计算法及其改进算法等。这类算法能够适应噪声水平并在平稳噪声下表现良好。但是这些算法难以处理真实场景中的非平稳噪声,并且这类算法中很多不合理的假设和经验参数的设置限制了它们性能的上限。近年来基于数据驱动的语音增强算法取得重要进展,监督语音增强算法性能表现优异。然而,基于数据驱动的语音增强算法的关键问题之一是对未经训练的条件的泛化性。由于现实环境的复杂性,实际场景的声学环境可能与训练语料的声学环境有着很大的差异。解决泛化问题的常见手段是扩充训练数据,即使用尽可能多的声学条件训练模型。但对于复杂的现实环境,涵盖实际声学环境中无限潜在噪声与语言类型是不切实际的,环境中的噪声水平也是在不断变化的,因此监督语音增强模型的失配问题是始终存在的。通过上述的描述,如何建立一种能够自适应环境变化的语音增强模型,是提高语音增强鲁棒性和性能的关键,对于提升听障患者的语音理解度和算法普适性具有重要研究意义。申请号为CN110111803A的专利公开了一种基于自注意多核最大均值差异的迁移学习语音增强方法,在多核最大均值差异前端添加自注意力算法,通过最小化源域注意到的特征和目标域注意到的特征之间的多核最大均值差异,实现对无标签的目标域的迁移学习。该专利通过迁移学习算法实现了未知噪声类型和未知信噪比的迁移,但仅实现了一种噪声到另一种噪声的迁移,其适用场景有局限性。其次,该算法在噪声类型和信噪比均不匹配的情形下迁移效果有限。而在本专利技术中,将多核最大均值差异与域对抗性训练相结合,通过对抗性损失引导模型学习域不变特征,实现了多种噪声到多种噪声的迁移,且在噪声类型和信噪比均不匹配的情形下有明显的迁移效果。申请号为CN110570433A的专利公开了基于生成对抗网络的图像语义分割模型构建方法和装置,该方法使用分割模型训练源域数据集,再使用生成对抗网络将源域数据集转换为新的目标域数据集,并使用新的目标域数据集微调源域分割模型。该专利主要应用于图像语义分割领域,与本专利的应用场景有较大区别。其次,在方法上,该专利是先通过生成对抗模型对从源域数据集中所提取出的图像与目标域数据集进行对抗训练,生成新的目标域数据集,并在新的数据集上微调原模型。而在本专利中,则是在原模型的训练过程中引入对抗性损失以引导模型产生域不变特征,从而实现对目标域的迁移。论文《利用生成噪音提高语音增强方法的泛化能力》主要研究的是利用生成对抗网络生成多种噪声类型,以提高训练集噪声类型的多样性,从而提升语音增强的泛化性。该论文与本专利的算法有一定区别,本专利的算法不是通过增加训练噪声的类型来提升算法对未见噪声的泛化性,而是利用迁移学习的算法引导模型适应目标域的数据,从而提升对目标域未见噪声的增强效果。
技术实现思路
专利技术目的:针对现有技术中单通过语音增强方法面对未见声学环境出现模型失配的缺陷,本专利技术公开了一种基于深度域自适应网络的助听器语音增强方法,通过融合两种迁移策略,在迁移学习语音增强模型中引入相对鉴别器和域适配层来进行对抗性训练,通过域对抗性训练来激励特征编码器生成域不变性特征,从而提高语音增强模型对未见噪声的适应性。技术方案:为实现上述技术目的,本专利技术采用以下技术方案。一种基于深度域自适应网络的助听器语音增强方法,包括以下步骤:S1:建立训练输入样本:分别从带噪语音和干净语音中提取帧级对数功率谱特征LPS,将所有的对数功率谱特征LPS作为输入样本;S2:构建基线语音增强模型:在深度神经网络中构建基于编码器-解码器结构的深度学习模型作为基线语音增强模型;其中编码器-解码器结构为连接的特征编码器和重建解码器;S3:构建迁移学习语音增强模型:在步骤S2的基线语音增强模型的基础上,构建基于深度域自适应网络的迁移学习语音增强模型;迁移学习语音增强模型在特征编码器和重建解码器之间引入并联连接的域适配层和相对鉴别器;S4:在训练阶段,采用两种迁移策略训练迁移学习语音增强模型:利用域对抗性损失训练迁移学习语音增强模型,通过域的对抗性引导迁移学习语音增强模型学习域不变特征;S5:在增强阶段,根据训练后的深度域自适应网络的迁移学习语音增强模型,输入目标域带噪语音的帧级LPS特征,重建增强语音波形,实现语音增强。优选地,所述S2中基线语音增强模型的结构为:基线模型为3层深度神经网络模型,包括依次连接的两层双向长短时记忆网络BLSTM和一层全连接层,前两层双向长短时记忆网络BLSTM分别作为特征编码器与重建解码器,最后一层全连接层作为特征变换的映射层。优选地,所述S3中迁移学习语音增强模型的结构为:在基线语音增强模型的编码器-解码器结构中间引入两个额外的域自适应模块,两个域自适应模块分别是用于计算多核最大均值差异MK-MMD的域适配层,以及用于计算域对抗性损失的相对鉴别器,所述域适配层和相对鉴别器并列连接;其中域适配层仅用于计算MK-MMD,没有需要训练的网络参数,而相对鉴别器包含一层长短时记忆网络LSTM以及一层具有至少一个神经元的全连接层。优选地,所述S4中采用两种迁移策略训练迁移学习语音增强模型,其具体过程为:S41、迁移学习语音增强模型中包括两个流向的训练数据,分别为带标签的源域数据的LPS特征和不带标签的目标域数据的LPS特征,两个流向的训练数据同时输入特征编码器,提取各自的深度特征,在此过程中两个数据共享权重;两个数据同时执行步骤S42、S43和S44,即通过三个模块分别进行计算;S42、重建解码器计算回归损失:带标签的源域数据Xs被馈送到重建解码器中,重建其LPS特征,然后计算重建的LPS特征与源域标签之间的平均绝对损失MAE作为整个迁移学习语音增强模型的回归损失;该损失用于衡量源域自回归任务的性能,使该损失最小化可以最佳拟合源域数据集;S43、域适配层计算多核最大均值差异:带标签的源域数据Xs和不带标签的目标域数据XT输入至域适配层中,用于计算多核最大均值差异,通过最小化多核最大均值差异可以使得带标签的源域数据Xs和不带标签的目标域数据XT的分布尽可能地接近,使得特征编码器产生对不同域噪声具有鲁棒性的域不变特征;S44、相对鉴别器计算相对生成对抗损失:带标签的源域数据Xs和不带标签的目标域数据XT输入到相对鉴别器中,相对鉴别器可以看作源域和目标域之间的二分分类器;两个数据通过相对鉴别器输出的0-1之间的判决本文档来自技高网
...

【技术保护点】
1.一种基于深度域自适应网络的助听器语音增强方法,其特征在于,包括以下步骤:/nS1:建立训练输入样本:分别从带噪语音和干净语音中提取帧级对数功率谱特征LPS,将所有的对数功率谱特征LPS作为输入样本;/nS2:构建基线语音增强模型:在深度神经网络中构建基于编码器-解码器结构的深度学习模型作为基线语音增强模型;其中编码器-解码器结构为连接的特征编码器和重建解码器;/nS3:构建迁移学习语音增强模型:在步骤S2的基线语音增强模型的基础上,构建基于深度域自适应网络的迁移学习语音增强模型;迁移学习语音增强模型在特征编码器和重建解码器之间引入并联连接的域适配层和相对鉴别器;/nS4:在训练阶段,采用两种迁移策略训练迁移学习语音增强模型:利用域对抗性损失训练迁移学习语音增强模型,通过域的对抗性引导迁移学习语音增强模型学习域不变特征;/nS5:在增强阶段,根据训练后的迁移学习语音增强模型,输入目标域带噪语音的帧级LPS特征,重建增强语音波形,实现语音增强。/n

【技术特征摘要】
1.一种基于深度域自适应网络的助听器语音增强方法,其特征在于,包括以下步骤:
S1:建立训练输入样本:分别从带噪语音和干净语音中提取帧级对数功率谱特征LPS,将所有的对数功率谱特征LPS作为输入样本;
S2:构建基线语音增强模型:在深度神经网络中构建基于编码器-解码器结构的深度学习模型作为基线语音增强模型;其中编码器-解码器结构为连接的特征编码器和重建解码器;
S3:构建迁移学习语音增强模型:在步骤S2的基线语音增强模型的基础上,构建基于深度域自适应网络的迁移学习语音增强模型;迁移学习语音增强模型在特征编码器和重建解码器之间引入并联连接的域适配层和相对鉴别器;
S4:在训练阶段,采用两种迁移策略训练迁移学习语音增强模型:利用域对抗性损失训练迁移学习语音增强模型,通过域的对抗性引导迁移学习语音增强模型学习域不变特征;
S5:在增强阶段,根据训练后的迁移学习语音增强模型,输入目标域带噪语音的帧级LPS特征,重建增强语音波形,实现语音增强。


2.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法,其特征在于,所述S2中基线语音增强模型的结构为:基线模型为3层深度神经网络模型,包括依次连接的两层双向长短时记忆网络BLSTM和一层全连接层,前两层双向长短时记忆网络BLSTM分别作为特征编码器与重建解码器,最后一层全连接层作为特征变换的映射层。


3.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法,其特征在于,所述S3中迁移学习语音增强模型的结构为:在基线语音增强模型的编码器-解码器结构中间引入两个额外的域自适应模块,两个域自适应模块分别是用于计算多核最大均值差异MK-MMD的域适配层,以及用于计算域对抗性损失的相对鉴别器,所述域适配层和相对鉴别器并列连接;其中域适配层仅用于计算多核最大均值差异MK-MMD,相对鉴别器包含连接的一层长短时记忆网络LSTM以及一层具有至少一个神经元的全连接层。


4.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法,其特征在于,所述S4中采用两种迁移策略训练迁移学习语音增强模型,其具体过程为:
S41、迁移学习语音增强模型中包括两个流向的训练数据,分别为带标签的源域数据的LPS特征和不带标签的目标域数据的LPS特征,两个流向的训练数据同时输入特征编码器,提取各自的深度特征,在此过程中两个数据共享权重;两个数据同时执行步骤S42、S43和S44,即通过三个模块分别进行计算;
S42、重建解码器计算回归损失:带标签的源域数据Xs被馈送到重建解码器中,重建其LPS特征,然后计算重建的LPS特征与源域标签之间的平均绝对损失MAE作为整个迁移学习语音增强模型的回归损失;该损失用于衡量源域自回归任务的性能,使该损失最小化可以最佳拟合源域数据集;
S43、域适配层计算多核最大均值差异:带标签的源域数据Xs和不带标签的目标域数据XT输入至域适配层中,用于计算多核最大均值差异,通过最小化多核最大均值差异可以使得带标签的源域数据Xs和不带标签的目标域数据XT的分布尽可能地接近,使得特征编码器产生对不同域噪声具有鲁棒性的域不变特征;
S44、相对鉴...

【专利技术属性】
技术研发人员:王青云梁瑞宇程佳鸣孙世若邹采荣唐闺臣谢跃包永强
申请(专利权)人:南京工程学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1