基于条件变分自编码器的目标人语音增强方法技术

技术编号：25602517 阅读：22 留言：0更新日期：2020-09-11 23:59

本发明专利技术公开了一种基于条件变分自编码器的目标人语音增强方法。该方法包括以下步骤：(1)对目标说话人清晰语音数据做短时傅里叶变换得到幅度谱；(2)使用目标说话人清晰语音幅度谱和身份编码向量来训练条件变分自编码器作为语音模型；(3)对含噪语音信号做短时傅里叶变换得到幅度谱和相位谱；(4)将含噪语音幅度谱和目标说话人身份编码向量输入语音模型，固定语音模型解码器权重，将语音模型和非负矩阵分解模型联合迭代优化得到语音和噪声的幅度谱估计；(5)使用幅度谱估计和含噪语音相位谱组合成复数谱，再通过逆短时傅里叶变换得到增强语音时域信号。本发明专利技术的方法能够在多种复杂噪声下对目标人语音进行增强，鲁棒性较高。

全部详细技术资料下载

【技术实现步骤摘要】
基于条件变分自编码器的目标人语音增强方法
本专利技术属于语音增强的领域，具体涉及一种基于条件变分自编码器的目标人语音增强方法。
技术介绍
使用传声器在真实环境中采集到说话人的语音信号时，会同时采集到各种干扰信号，它们可能是背景噪声、房间混响等。这些噪声干扰在信噪比较低时会降低语音的质量，并且使语音识别准确率严重下降。从噪声干扰中提取目标语音的技术称为语音增强技术。谱减法可以用来实现语音增强(Boll,S.F.(1979)Suppressionofacousticnoiseinspeechusingspectralsubtraction,IEEETransactionsonAcoustics,SpeechandSignalProcessing,27,113–120.)。中国专利CN103594094A中，将语音通过短时傅里叶变换到时-频域，然后使用一种自适应的阈值的谱减法将当前帧的语音信号功率谱与估计的噪声功率谱相减，得到增强信号的功率谱，最后通过短时傅里叶逆变换得到时域的增强信号。然而，由于对语音和噪声做了不合理假设，这种增强方法对语音质量有较大损伤。非负矩阵分解算法也被用于语音增强(WilsonKW,RajB,SmaragdisP,etal.Speechdenoisingusingnonnegativematrixfactorizationwithpriors[C].ProceedingsoftheIEEEInternationalConferenceonAcoustics,Speech,andSi...

【技术保护点】
1.基于条件变分自编码器的目标人语音增强方法，其特征在于，包括以下步骤：/n步骤1，对目标说话人的清晰语音数据做短时傅里叶变换，得到短时幅度谱；/n步骤2，构建目标说话人的身份编码向量，使用该身份编码向量与步骤1得到的短时幅度谱来训练条件变分自编码器作为语音模型；所述条件变分自编码器的输入是目标说话人的语音幅度谱和其身份编码向量，输出的是目标说话人的语音幅度谱的对数；/n步骤3，对含噪语音信号做短时傅里叶变换，得到短时幅度谱，并保留含噪语音信号的相位谱；/n步骤4，将步骤3得到的含噪语音信号的短时幅度谱输入所述语音模型，将目标说话人身份编码向量作为语音模型条件项，固定语音模型的解码器的权重；将语音模型和非负矩阵分解模型联合迭代优化得到语音和噪声的幅度谱估计；/n步骤5，使用步骤4得到的幅度谱估计和步骤3中保留的含噪语音信号的相位谱组合成复数谱，再通过逆短时傅里叶变换得到增强语音时域信号。/n

【技术特征摘要】
1.基于条件变分自编码器的目标人语音增强方法，其特征在于，包括以下步骤：
步骤1，对目标说话人的清晰语音数据做短时傅里叶变换，得到短时幅度谱；
步骤2，构建目标说话人的身份编码向量，使用该身份编码向量与步骤1得到的短时幅度谱来训练条件变分自编码器作为语音模型；所述条件变分自编码器的输入是目标说话人的语音幅度谱和其身份编码向量，输出的是目标说话人的语音幅度谱的对数；
步骤3，对含噪语音信号做短时傅里叶变换，得到短时幅度谱，并保留含噪语音信号的相位谱；
步骤4，将步骤3得到的含噪语音信号的短时幅度谱输入所述语音模型，将目标说话人身份编码向量作为语音模型条件项，固定语音模型的解码器的权重；将语音模型和非负矩阵分解模型联合迭代优化得到语音和噪声的幅度谱估计；
步骤5，使用步骤4得到的幅度谱估计和步骤3中保留的含噪语音信号的相位谱组合成复数谱，再通过逆短时傅里叶变换得到增强语音时域信号。

2.根据权利要求1所述的基于条件变分自编码器的目标人语音增强方法，其特征在于，所述步骤2中，条件变分自编码器使用深度神经网络作为编码器和解码器，编码器将语音幅度谱映射到随机变量z，解码器从随机变量z映射到清晰语音。

3.根据权利要求1所述的基于条件变分自编码器的目标人语音增强方法，其特征在于，所述步骤4中，将语音模型和非负矩阵分解模型联合迭代优化的具体步骤如下：
1)所述条件变分自编码器的编码器和解码器可以表示为如下形式：
zt～qφ(zt|xt,c)
xt～pθ(xt|zt,c)
其中xt为输入语音的第t帧幅度谱，zt为编码器输出的第t帧的隐变量，c表示说话人身份向量，φ和θ分别表示编码器和解码器的权重，qφ和pθ分别表示编码器生成隐变量的分布和...

【专利技术属性】
技术研发人员：乐笑怀，卢晶，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人