【技术实现步骤摘要】
基于深度域自适应网络的助听器语音增强方法
本专利技术涉及语音增强
,尤其涉及一种基于深度域自适应网络的助听器语音增强方法。
技术介绍
在复杂环境下,目标声音通常淹没在噪声中,声音频谱分析的结果受到严重影响,使得自适应降频算法性能急剧下降。同时,听障患者的一些听障特征,如听觉阈值较高,短时特征辨认困难,以及退化的听觉外周,使得复杂场景下的语音理解成为影响使用率的普遍问题和难题。经典的单通道噪声抑制器基于统计信号处理方法,其重点在于如何从含噪语音中有效估计噪声谱,从而对其进行抑制。典型算法包括谱减法、维纳滤波法、最小均方误差法、最小控制的迭代平均的噪声估计算法及其改进算法等。这类算法能够适应噪声水平并在平稳噪声下表现良好。但是这些算法难以处理真实场景中的非平稳噪声,并且这类算法中很多不合理的假设和经验参数的设置限制了它们性能的上限。近年来基于数据驱动的语音增强算法取得重要进展,监督语音增强算法性能表现优异。然而,基于数据驱动的语音增强算法的关键问题之一是对未经训练的条件的泛化性。由于现实环境的复杂性,实际场景的声学环境可能与训练语料的声学环境有着很大的差异。解决泛化问题的常见手段是扩充训练数据,即使用尽可能多的声学条件训练模型。但对于复杂的现实环境,涵盖实际声学环境中无限潜在噪声与语言类型是不切实际的,环境中的噪声水平也是在不断变化的,因此监督语音增强模型的失配问题是始终存在的。通过上述的描述,如何建立一种能够自适应环境变化的语音增强模型,是提高语音增强鲁棒性和性能的关键,对于提升听障患者的 ...
【技术保护点】
1.一种基于深度域自适应网络的助听器语音增强方法,其特征在于,包括以下步骤:/nS1:建立训练输入样本:分别从带噪语音和干净语音中提取帧级对数功率谱特征LPS,将所有的对数功率谱特征LPS作为输入样本;/nS2:构建基线语音增强模型:在深度神经网络中构建基于编码器-解码器结构的深度学习模型作为基线语音增强模型;其中编码器-解码器结构为连接的特征编码器和重建解码器;/nS3:构建迁移学习语音增强模型:在步骤S2的基线语音增强模型的基础上,构建基于深度域自适应网络的迁移学习语音增强模型;迁移学习语音增强模型在特征编码器和重建解码器之间引入并联连接的域适配层和相对鉴别器;/nS4:在训练阶段,采用两种迁移策略训练迁移学习语音增强模型:利用域对抗性损失训练迁移学习语音增强模型,通过域的对抗性引导迁移学习语音增强模型学习域不变特征;/nS5:在增强阶段,根据训练后的迁移学习语音增强模型,输入目标域带噪语音的帧级LPS特征,重建增强语音波形,实现语音增强。/n
【技术特征摘要】
1.一种基于深度域自适应网络的助听器语音增强方法,其特征在于,包括以下步骤:
S1:建立训练输入样本:分别从带噪语音和干净语音中提取帧级对数功率谱特征LPS,将所有的对数功率谱特征LPS作为输入样本;
S2:构建基线语音增强模型:在深度神经网络中构建基于编码器-解码器结构的深度学习模型作为基线语音增强模型;其中编码器-解码器结构为连接的特征编码器和重建解码器;
S3:构建迁移学习语音增强模型:在步骤S2的基线语音增强模型的基础上,构建基于深度域自适应网络的迁移学习语音增强模型;迁移学习语音增强模型在特征编码器和重建解码器之间引入并联连接的域适配层和相对鉴别器;
S4:在训练阶段,采用两种迁移策略训练迁移学习语音增强模型:利用域对抗性损失训练迁移学习语音增强模型,通过域的对抗性引导迁移学习语音增强模型学习域不变特征;
S5:在增强阶段,根据训练后的迁移学习语音增强模型,输入目标域带噪语音的帧级LPS特征,重建增强语音波形,实现语音增强。
2.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法,其特征在于,所述S2中基线语音增强模型的结构为:基线模型为3层深度神经网络模型,包括依次连接的两层双向长短时记忆网络BLSTM和一层全连接层,前两层双向长短时记忆网络BLSTM分别作为特征编码器与重建解码器,最后一层全连接层作为特征变换的映射层。
3.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法,其特征在于,所述S3中迁移学习语音增强模型的结构为:在基线语音增强模型的编码器-解码器结构中间引入两个额外的域自适应模块,两个域自适应模块分别是用于计算多核最大均值差异MK-MMD的域适配层,以及用于计算域对抗性损失的相对鉴别器,所述域适配层和相对鉴别器并列连接;其中域适配层仅用于计算多核最大均值差异MK-MMD,相对鉴别器包含连接的一层长短时记忆网络LSTM以及一层具有至少一个神经元的全连接层。
4.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法,其特征在于,所述S4中采用两种迁移策略训练迁移学习语音增强模型,其具体过程为:
S41、迁移学习语音增强模型中包括两个流向的训练数据,分别为带标签的源域数据的LPS特征和不带标签的目标域数据的LPS特征,两个流向的训练数据同时输入特征编码器,提取各自的深度特征,在此过程中两个数据共享权重;两个数据同时执行步骤S42、S43和S44,即通过三个模块分别进行计算;
S42、重建解码器计算回归损失:带标签的源域数据Xs被馈送到重建解码器中,重建其LPS特征,然后计算重建的LPS特征与源域标签之间的平均绝对损失MAE作为整个迁移学习语音增强模型的回归损失;该损失用于衡量源域自回归任务的性能,使该损失最小化可以最佳拟合源域数据集;
S43、域适配层计算多核最大均值差异:带标签的源域数据Xs和不带标签的目标域数据XT输入至域适配层中,用于计算多核最大均值差异,通过最小化多核最大均值差异可以使得带标签的源域数据Xs和不带标签的目标域数据XT的分布尽可能地接近,使得特征编码器产生对不同域噪声具有鲁棒性的域不变特征;
S44、相对鉴...
【专利技术属性】
技术研发人员:王青云,梁瑞宇,程佳鸣,孙世若,邹采荣,唐闺臣,谢跃,包永强,
申请(专利权)人:南京工程学院,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。