当前位置: 首页 > 专利查询>南京大学专利>正文

基于条件变分自编码器的目标人语音增强方法技术

技术编号:25602517 阅读:22 留言:0更新日期:2020-09-11 23:59
本发明专利技术公开了一种基于条件变分自编码器的目标人语音增强方法。该方法包括以下步骤:(1)对目标说话人清晰语音数据做短时傅里叶变换得到幅度谱;(2)使用目标说话人清晰语音幅度谱和身份编码向量来训练条件变分自编码器作为语音模型;(3)对含噪语音信号做短时傅里叶变换得到幅度谱和相位谱;(4)将含噪语音幅度谱和目标说话人身份编码向量输入语音模型,固定语音模型解码器权重,将语音模型和非负矩阵分解模型联合迭代优化得到语音和噪声的幅度谱估计;(5)使用幅度谱估计和含噪语音相位谱组合成复数谱,再通过逆短时傅里叶变换得到增强语音时域信号。本发明专利技术的方法能够在多种复杂噪声下对目标人语音进行增强,鲁棒性较高。

【技术实现步骤摘要】
基于条件变分自编码器的目标人语音增强方法
本专利技术属于语音增强的领域,具体涉及一种基于条件变分自编码器的目标人语音增强方法。
技术介绍
使用传声器在真实环境中采集到说话人的语音信号时,会同时采集到各种干扰信号,它们可能是背景噪声、房间混响等。这些噪声干扰在信噪比较低时会降低语音的质量,并且使语音识别准确率严重下降。从噪声干扰中提取目标语音的技术称为语音增强技术。谱减法可以用来实现语音增强(Boll,S.F.(1979)Suppressionofacousticnoiseinspeechusingspectralsubtraction,IEEETransactionsonAcoustics,SpeechandSignalProcessing,27,113–120.)。中国专利CN103594094A中,将语音通过短时傅里叶变换到时-频域,然后使用一种自适应的阈值的谱减法将当前帧的语音信号功率谱与估计的噪声功率谱相减,得到增强信号的功率谱,最后通过短时傅里叶逆变换得到时域的增强信号。然而,由于对语音和噪声做了不合理假设,这种增强方法对语音质量有较大损伤。非负矩阵分解算法也被用于语音增强(WilsonKW,RajB,SmaragdisP,etal.Speechdenoisingusingnonnegativematrixfactorizationwithpriors[C].ProceedingsoftheIEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing,2008.)。通过对语音和噪声的短时功率谱分别进行非负矩阵分解,可以得到语音和噪声的字典,在增强时通过该字典进行增强。中国专利CN104505100A就使用了一种结合谱减法和最小均方误差的非负矩阵分解算法进行语音增强。然而,非负矩阵分解仅仅对语音特征进行线性建模,对语音的非线性特性建模能力不佳,这限制了其性能。最近,多种基于深度学习的生成模型被用于语音建模中,其中变分自编码器是一种显式地学习数据分布的方法,可以用于对语音进行非线性建模。文献(S.Leglaive,L.GirinandR.Horaud,"AVARIANCEMODELINGFRAMEWORKBASEDONVARIATIONALAUTOENCODERSFORSPEECHENHANCEMENT,"2018IEEE28thInternationalWorkshoponMachineLearningforSignalProcessing(MLSP),Aalborg,2018,pp.1-6,doi:10.1109/MLSP.2018.8516711.)就使用了一种联合变分自编码器和非负矩阵分解的语音增强算法,其中变分自编码器模型事先用清晰语音短时功率谱训练,非负矩阵模型在增强时学习,在不损伤语音质量的前提下,这种算法对非稳态的噪声有较好的增强效果。然而,由于变分自编码器模型使用了清晰语音训练,该增强模型对于人声干扰的增强能力不佳。在实际应用中,噪声的种类千差万别,除了非人声噪声以外,从人声干扰下提取目标说话人的语音也是非常具有意义的。
技术实现思路
现有技术在充满人声干扰的环境下使用变分自编码器-非负矩阵分解模型进行语音增强时,常常将干扰人声保留,影响了增强效果。本专利技术提出了一种基于条件变分自编码器的语音增强方法,该方法能有效应对人声干扰问题,提高语音增强性能。本专利技术采用的技术方案为:基于条件变分自编码器的目标人语音增强方法,包括以下步骤:步骤1,对目标说话人的清晰语音数据做短时傅里叶变换,得到短时幅度谱;步骤2,构建目标说话人的身份编码向量,使用该身份编码向量与步骤1得到的短时幅度谱来训练条件变分自编码器作为语音模型;所述条件变分自编码器的输入是目标说话人的语音幅度谱和其身份编码向量,输出的是目标说话人的语音幅度谱的对数;步骤3,对含噪语音信号做短时傅里叶变换,得到短时幅度谱,并保留含噪语音信号的相位谱;步骤4,将步骤3得到的含噪语音信号的短时幅度谱输入所述语音模型,将目标说话人身份编码向量作为语音模型条件项,固定语音模型的解码器的权重;将语音模型和非负矩阵分解模型联合迭代优化得到语音和噪声的幅度谱估计;步骤5,使用步骤4得到的幅度谱估计和步骤3中保留的含噪语音信号的相位谱组合成复数谱,再通过逆短时傅里叶变换得到增强语音时域信号。进一步地,所述步骤2中,条件变分自编码器使用深度神经网络作为编码器和解码器,编码器将语音幅度谱映射到随机变量z,解码器从随机变量z映射到清晰语音。进一步地,所述步骤4中,将语音模型和非负矩阵分解模型联合迭代优化的具体步骤如下:1)所述条件变分自编码器的编码器和解码器可以表示为如下形式:zt~qφ(zt|xt,c)xt~pθ(xt|zt,c)其中xt为输入语音的第t帧幅度谱,zt为编码器输出的第t帧的隐变量,c表示说话人身份向量,φ和θ分别表示编码器和解码器的权重,qφ和pθ分别表示编码器生成隐变量的分布和解码器生成语音幅度谱估计的分布;在训练好上述编码器和解码器后,固定解码器pθ(xt|zt,c)的权重,在语音增强时仅对编码器权重进行反向传播训练,语音模型输出的语音幅度谱估计为σ(zt,c),功率谱估计为σ2(zt,c);2)非负矩阵分解可以表示为如下形式:V=WH其中表示F维T帧的噪声短时功率谱估计,R+表示正实数域,使用矩阵分解算法将其分解为两个非负低秩矩阵和其中K为分解后两个矩阵的秩且远小于F和T的值;3)在优化时,输入含噪语音的幅度谱xt和目标说话人身份向量c,初始化非负矩阵分解的参数W、H和1维T帧的增益向量在每一次迭代过程中,首先对所述步骤1)中的条件变分自编码器优化如下目标函数:其中中代表了两个分布之间的K-L散度,代表求期望,其中p(zt)代表标准正态分布的概率密度;之后使用如下迭代公式迭代非负矩阵分解的参数W、H和at:其中,的第f行t列元素由公式表示,代表从qφ(zt|xt,c)采样出的第r个样本;⊙代表矩阵对位相乘,·T代表矩阵转置;经过多次数迭代后,得到的清晰语音估计表示为:其中,xft和分别表示含噪语音谱和清晰语音谱估计的f行t列元素,(WkHk)ft表示噪声功率谱估计的f行t列的元素。进一步地,步骤3)中,使用以下式子来优化目标函数:其中,代表两个分布的Itakura-Saito散度,vft代表噪声短时功率谱估计V的第f行t列元素,和代表编码器输出的隐变量的均值和方差向量。与现有技术相比,本专利技术的有益效果为:本专利技术的方法能够在多种复杂噪声场景下进行语音增强,由于将目标说话人信息引入了训练过程,本专利技术的方法对非目标人声的干扰消除能力强。附图说明图1是本专利技术基于条件变分自编码器的目本文档来自技高网
...

【技术保护点】
1.基于条件变分自编码器的目标人语音增强方法,其特征在于,包括以下步骤:/n步骤1,对目标说话人的清晰语音数据做短时傅里叶变换,得到短时幅度谱;/n步骤2,构建目标说话人的身份编码向量,使用该身份编码向量与步骤1得到的短时幅度谱来训练条件变分自编码器作为语音模型;所述条件变分自编码器的输入是目标说话人的语音幅度谱和其身份编码向量,输出的是目标说话人的语音幅度谱的对数;/n步骤3,对含噪语音信号做短时傅里叶变换,得到短时幅度谱,并保留含噪语音信号的相位谱;/n步骤4,将步骤3得到的含噪语音信号的短时幅度谱输入所述语音模型,将目标说话人身份编码向量作为语音模型条件项,固定语音模型的解码器的权重;将语音模型和非负矩阵分解模型联合迭代优化得到语音和噪声的幅度谱估计;/n步骤5,使用步骤4得到的幅度谱估计和步骤3中保留的含噪语音信号的相位谱组合成复数谱,再通过逆短时傅里叶变换得到增强语音时域信号。/n

【技术特征摘要】
1.基于条件变分自编码器的目标人语音增强方法,其特征在于,包括以下步骤:
步骤1,对目标说话人的清晰语音数据做短时傅里叶变换,得到短时幅度谱;
步骤2,构建目标说话人的身份编码向量,使用该身份编码向量与步骤1得到的短时幅度谱来训练条件变分自编码器作为语音模型;所述条件变分自编码器的输入是目标说话人的语音幅度谱和其身份编码向量,输出的是目标说话人的语音幅度谱的对数;
步骤3,对含噪语音信号做短时傅里叶变换,得到短时幅度谱,并保留含噪语音信号的相位谱;
步骤4,将步骤3得到的含噪语音信号的短时幅度谱输入所述语音模型,将目标说话人身份编码向量作为语音模型条件项,固定语音模型的解码器的权重;将语音模型和非负矩阵分解模型联合迭代优化得到语音和噪声的幅度谱估计;
步骤5,使用步骤4得到的幅度谱估计和步骤3中保留的含噪语音信号的相位谱组合成复数谱,再通过逆短时傅里叶变换得到增强语音时域信号。


2.根据权利要求1所述的基于条件变分自编码器的目标人语音增强方法,其特征在于,所述步骤2中,条件变分自编码器使用深度神经网络作为编码器和解码器,编码器将语音幅度谱映射到随机变量z,解码器从随机变量z映射到清晰语音。


3.根据权利要求1所述的基于条件变分自编码器的目标人语音增强方法,其特征在于,所述步骤4中,将语音模型和非负矩阵分解模型联合迭代优化的具体步骤如下:
1)所述条件变分自编码器的编码器和解码器可以表示为如下形式:
zt~qφ(zt|xt,c)
xt~pθ(xt|zt,c)
其中xt为输入语音的第t帧幅度谱,zt为编码器输出的第t帧的隐变量,c表示说话人身份向量,φ和θ分别表示编码器和解码器的权重,qφ和pθ分别表示编码器生成隐变量的分布和...

【专利技术属性】
技术研发人员:乐笑怀卢晶
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1