一种基于频谱特征迁移学习的老年人语音增强方法技术

技术编号：41315610 阅读：37 留言：0更新日期：2024-05-13 14:57

本发明专利技术涉及一种基于频谱特征迁移学习的老年人语音增强方法，包括以下步骤：将源数据集和目标数据集分别进行特征提取，各得到基频、频谱包络和非周期信号三种语音信号特征；将源数据集的MCEPs和目标数据集的MCEPs输入到CS‑SECycleGAN网络中进行增强操作，生成增强后的源数据集MCEPs和目标数据集MCEPs；将增强后的源数据集MCEPs与对源数据集特征提取得到的归一化后的基频、非周期信号进行特征合成，得到增强后的源语音；本发明专利技术改进了传统网络，引入CBAM网络结构，使模型更加适合老年人语音，解决了传统模型存在的残余噪声问题。并且生成的语音质量更加自然、清晰，更好的实现了对老年人语音的增强。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于陪伴机器人领域，具体说是一种基于频谱特征迁移学习的老年人语音增强方法。

技术介绍

1、目前已有的语音增强技术有谱减法、维纳滤波法和基于深度学习网络的方法。谱减法通过估计信号和噪声的频谱，从语音信号的频谱中减去估计的噪声频谱来实现噪声抑制。但是随着发现的噪声种类越来越多，谱减法在语音增强后会产生“音乐噪声”，影响增强效果；维纳滤波法的基本原理是通过适当的滤波器来最小化信号和噪声的均方误差。但维纳滤波法只适用于平稳信号，对于复杂的信号效果不好。基于深度学习的语音增强方法多种，针对不同的数据应用不同的模型，目前cnn、rnn、gan等模型都可以应用到语音增强领域。

2、在gan系列模型中，segan网络模型用最小二乘损失函数代替交叉熵损失函数，解决了传统gan网络难以收敛和存在梯度消失的问题，并且提升了算法速度，通过这种无监督训练使得segan网络能够通过对抗训练学习生成更为真实、自然的语音，并且这种端到端的模型简化了整个语音增强系统，模型具有较强的泛化能力。但经过segan处理后的语音仍然存在明显的残余噪声和失真问...

【技术保护点】

1.一种基于频谱特征迁移学习的老年人语音增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于频谱特征迁移学习的老年人语音增强方法，其特征在于，所述将源数据集MCEPs和目标数据集MCEPs输入到CS-SECycleGAN网络中进行增强操作，包括以下步骤：

3.根据权利要求2所述的一种基于频谱特征迁移学习的老年人语音增强方法，其特征在于，所述正向生成器GX→Y和反向生成器GY→X中：

4.根据权利要求2所述的一种基于频谱特征迁移学习的老年人语音增强方法，其特征在于，所述源语音判别器Dx和目标语音判别器Dy中：