基于自适应高斯聚类的非平行文本条件下的语音转换方法技术

技术编号:16470446 阅读:54 留言:0更新日期:2017-10-28 21:11
本发明专利技术公开了一种基于自适应高斯聚类的非平行文本条件下的语音转换方法,属于语音信号处理技术领域。首先利用基于单元挑选和声道长度归一化相结合的方法对非平行语料进行语音特征参数对齐,然后进行自适应高斯混合模型和双线性频率弯折加幅度调节的训练,得到语音转换所需的转换函数,最后使用该转换函数实现高质量的语音转换。本发明专利技术不仅克服了训练阶段要求平行语料的限制,实现了非平行文本条件下的语音转换,适用性和通用性更强,而且使用自适应高斯混合模型替代传统高斯混合模型,解决了高斯混合模型在进行语音特征参数分类时不精确的问题,并将自适应高斯混合模型和双线性频率弯折加幅度调节相结合,在转换的个性相似度和语音质量上更好。

Speech conversion method based on adaptive Gauss clustering for non parallel text

The invention discloses a speech conversion method based on adaptive Gauss clustering under the condition of non parallel text, which belongs to the field of speech signal processing technology. First, using the method of unit selection and channel length normalization based on the combination of speech feature parameters of non aligned parallel corpus, and then the adaptive Gauss mixture model and bilinear frequency warping and amplitude adjustment training, voice conversion required conversion function, and finally to achieve high quality audio conversion using the conversion function. The invention not only overcomes the training stage requires parallel corpus constraints, to achieve the conversion of non speech parallel texts under the conditions of applicability and versatility, and the use of adaptive Gauss mixture model to replace the traditional Gauss mixture model, solved the Gauss mixture model in speech feature classification is not accurate, and combine the the adaptive Gauss mixture model and bilinear frequency warping and amplitude adjustment, better quality and personality similarity in the conversion of voice.

【技术实现步骤摘要】
基于自适应高斯聚类的非平行文本条件下的语音转换方法
本专利技术涉及一种语音转换技术,尤其是一种非平行文本条件下的语音转换方法,属于语音信号处理

技术介绍
语音转换是语音信号处理领域近年来新兴的研究分支,是在语音分析、识别和合成的研究基础上进行的,同时在此基础上发展起来的。语音转换的目标是改变源说话人的语音个性特征,使之具有目标说话人的语音个性特征,也就是使一个人说的语音经过转换后听起来像是另一个人说的语音,同时保留语义。大多数的语音转换方法,尤其是基于GMM的语音转换方法,要求用于训练的语料库是平行文本的,即源说话人和目标说话人需要发出语音内容、语音时长相同的句子,并且发音节奏和情绪等尽量一致。然而在语音转换的实际应用中,获取大量的平行语料殊为不易,甚至无法满足,此外训练时语音特征参数矢量对齐的精确度也成为语音转换系统性能的一种制约。无论从语音转换系统的通用性还是实用性来考虑,非平行文本条件下语音转换方法的研究都具有极大的实际意义和应用价值。目前非平行文本条件下的语音转换方法主要有两种,基于语音聚类的方法和基于参数自适应的方法。基于语音聚类的方法,是通过对语音帧之间距离的度量或者在音素信息的指导下选择相对应的语音单元进行转换,其本质是一定条件下将非平行文本转化为平行文本进行处理。该方法原理简单,但要对语音文本内容进行预提取,预提取的结果会直接影响语音的转换质量。基于参数自适应的方法,是采用语音识别中的说话人归一化或自适应方法对转换模型的参数进行处理,其本质是使得预先建立的模型向基于目标说话人的模型进行转化。该方法能合理地利用预存储的说话人信息,但通常自适应过程会引起频谱的平滑,导致转换语音中的说话人个性信息不强。
技术实现思路
本专利技术所要解决的技术问题是:提供一种在非平行文本条件下,能够根据目标说话人的不同,而自适应地确定GMM混合度的语音转换方法,达到增强转换语音中说话人个性特征的同时改善转换语音的质量。本专利技术为解决上述技术问题采用以下技术方案:本专利技术提出一种基于自适应高斯聚类的非平行文本条件下的语音转换方法,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:步骤1,输入源说话人和目标说话人的非平行训练语料;步骤2,使用AHOcoder语音分析模型分别提取源说话人的非平行训练语料的MFCC特征参数X、目标说话人的非平行训练语料的MFCC特征参数Y,以及源语音基频logf0X和目标语音基频logf0Y;步骤3,对步骤2中的MFCC特征参数X、Y,进行单元挑选和声道长度归一化相结合的语音特征参数对齐和动态时间规整,从而将非平行语料转变成平行语料;步骤4,使用期望最大化EM算法进行自适应混合高斯模型AGMM训练,AGMM训练结束,得到后验条件概率矩阵P(X|λ),并保存AGMM参数λ;步骤5,利用步骤3得到的源语音特征参数X和目标语音特征参数Y,使用步骤4中的后验条件概率矩阵P(X|λ)进行双线性频率弯折BLFW+幅度调节AS训练,得到频率弯折因子α(x,λ)和幅度调节因子s(x,λ),从而构建BLFW+AS转换函数;使用对数基频的均值和方差建立源语音基频logf0X和目标语音基频logf0Y之间的基频转换函数;所述转换阶段包括如下步骤:步骤6,输入待转换的源说话人语音;步骤7,使用AHOcoder语音分析模型提取源说话人语音的MFCC特征参数X′和对数基频logf0X′;步骤8,使用步骤4中AGMM训练时得到的参数λ,求取后验条件概率矩阵P′(X|λ);步骤9,使用步骤5中得到的BLFW+AS转换函数,求得转换后的MFCC特征参数Y′;步骤10,使用步骤5得到的基频转换函数由对数基频logf0X′得到转换后的对数基频logf0Y′;步骤11,使用AHOdecoder语音合成模型将转换后的MFCC特征参数Y′和对数基频logf0Y′合成得到转换后的语音。进一步的,本专利技术所提出的语音转换方法,步骤3具体过程如下:3-1)采用双线性频率弯折方法对源语音MFCC特征参数进行声道长度归一化处理;3-2)对于给定的N个源语音MFCC特征参数矢量{Xk},通过公式(1)来动态地寻找N个目标语音特征参数矢量{Yk},使得距离耗费函数值C({Yk})最小;C({Yk})=C1({Yk})+C2({Yk})(1)其中,C1({Yk})和C2({Yk})分别由下式表示:其中,D(Xk,Yk)函数表示源语音和目标语音特征参数矢量之间的频谱距离,参数γ表示在特征参数帧对齐的准确度和帧间连续性之间的平衡系数,且有0≤γ≤1;C1({Yk})表示的是源语音特征参数矢量和目标语音特征参数矢量之间的频谱距离耗费函数,C2({Yk})表示的是经单元挑选的目标语音特征参数矢量之间频谱距离耗费函数;3-3)通过对公式(1)进行多元线性回归分析,得到与源语音特征参数矢量对齐的目标语音特征参数序列集合即:通过上述步骤,将非平行的MFCC特征参数X、Y转变为平行的语料。进一步的,本专利技术所提出的语音转换方法,对于公式(4)的求解,使用维特比搜索方法来优化算法的执行效率。进一步的,本专利技术所提出的语音转换方法,步骤4的训练过程如下:4-1)设定AGMM初始混合数M,高斯分量权重系数阈值t1,t2,特征参数矢量之间欧氏距离阈值D和协方差阈值σ;4-2)使用K-均值迭代算法得到EM训练的初始值;4-3)使用EM算法进行迭代训练;将高斯混合模型GMM表示如下:其中,X为P维的语音特征参数矢量,P=39;P(wi)表示各高斯分量的权重系数,且有M为高斯分量的个数,N(X,μi,Σi)表示高斯分量的P维联合高斯概率分布,表示如下:其中μi为均值矢量,∑i为协方差矩阵,λ={P(wi),μi,Σi},λ是GMM模型的模型参数,对λ的估算通过最大似然估计法实现,对于语音特征参数矢量集合X={xn,n=1,2,...N}有:此时:λ=argλmax(P(X|λ))(8)使用EM算法求解公式(8),随着EM计算过程中迭代条件满足P(X|λk)≥P(X|λk-1),K是迭代的次数,直至模型参数λ,迭代过程中高斯分量权重系数P(wi)、均值向量μi、协方差矩阵Σi的迭代公式如下:4-4)若训练得到的模型中某一高斯分量N(P(wi),μi,∑i)权重系数小于t1,并且与其最邻近分量N(P(wj),μj,Σi)之间的欧氏距离小于阈值D,则对其进行合并处理:此时,高斯分量个数变为M-1,返回步骤4-3)进行下一次训练,若满足合并条件的高斯分量有多个,则选择最小距离的高斯分量进行合并;4-5)若训练得到的模型中某一高斯分量N(P(wi),μi,∑i)权重系数大于t2,并且协方差矩阵中有至少一维的方差大于σ,则认为该高斯分量包含过量信息,应将其分裂处理:其中E为全1的列向量,n用于调节高斯分布,经过分裂后高斯分量个数变为M+1,如果满足分裂条件的高斯分量有多个,则选取权重系数最大的分量进行分裂,返回步骤4-3)进行下一次训练;4-6)AGMM训练结束,得到后验条件概率矩阵P(X|λ),保存λ。进一步的,本专利技术所提出的语音转换方法,步骤5中构建的BLFW+AS转换函数,表示如下:F(x)=Wα(x,λ)x+s(x,λ)(15)其中,M为步骤4中混合高斯模型的高斯分量的本文档来自技高网
...
基于自适应高斯聚类的非平行文本条件下的语音转换方法

【技术保护点】
一种基于自适应高斯聚类的非平行文本条件下的语音转换方法,其特征在于,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:步骤1,输入源说话人和目标说话人的非平行训练语料;步骤2,使用AHOcoder语音分析模型分别提取源说话人的非平行训练语料的MFCC特征参数X、目标说话人的非平行训练语料的MFCC特征参数Y,以及源语音基频log f0X和目标语音基频log f0Y;步骤3,对步骤2中的MFCC特征参数X、Y,进行单元挑选和声道长度归一化相结合的语音特征参数对齐和动态时间规整,从而将非平行语料转变成平行语料;步骤4,使用期望最大化EM算法进行自适应混合高斯模型AGMM训练,AGMM训练结束,得到后验条件概率矩阵P(X|λ),并保存AGMM参数λ;步骤5,利用步骤3得到的源语音特征参数X和目标语音特征参数Y,使用步骤4中的后验条件概率矩阵P(X|λ)进行双线性频率弯折BLFW+幅度调节AS训练,得到频率弯折因子α(x,λ)和幅度调节因子s(x,λ),从而构建BLFW+AS转换函数;使用对数基频的均值和方差建立源语音基频log f0X和目标语音基频log f0Y之间的基频转换函数;所述转换阶段包括如下步骤:步骤6,输入待转换的源说话人语音;步骤7,使用AHOcoder语音分析模型提取源说话人语音的MFCC特征参数X′和对数基频log f0X′;步骤8,使用步骤4中AGMM训练时得到的参数λ,求取后验条件概率矩阵P′(X|λ);步骤9,使用步骤5中得到的BLFW+AS转换函数,求得转换后的MFCC特征参数Y′;步骤10,使用步骤5得到的基频转换函数由对数基频log f0X′得到转换后的对数基频log f0Y′;步骤11,使用AHOdecoder语音合成模型将转换后的MFCC特征参数Y′和对数基频log f0Y′合成得到转换后的语音。...

【技术特征摘要】
1.一种基于自适应高斯聚类的非平行文本条件下的语音转换方法,其特征在于,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:步骤1,输入源说话人和目标说话人的非平行训练语料;步骤2,使用AHOcoder语音分析模型分别提取源说话人的非平行训练语料的MFCC特征参数X、目标说话人的非平行训练语料的MFCC特征参数Y,以及源语音基频logf0X和目标语音基频logf0Y;步骤3,对步骤2中的MFCC特征参数X、Y,进行单元挑选和声道长度归一化相结合的语音特征参数对齐和动态时间规整,从而将非平行语料转变成平行语料;步骤4,使用期望最大化EM算法进行自适应混合高斯模型AGMM训练,AGMM训练结束,得到后验条件概率矩阵P(X|λ),并保存AGMM参数λ;步骤5,利用步骤3得到的源语音特征参数X和目标语音特征参数Y,使用步骤4中的后验条件概率矩阵P(X|λ)进行双线性频率弯折BLFW+幅度调节AS训练,得到频率弯折因子α(x,λ)和幅度调节因子s(x,λ),从而构建BLFW+AS转换函数;使用对数基频的均值和方差建立源语音基频logf0X和目标语音基频logf0Y之间的基频转换函数;所述转换阶段包括如下步骤:步骤6,输入待转换的源说话人语音;步骤7,使用AHOcoder语音分析模型提取源说话人语音的MFCC特征参数X′和对数基频logf0X′;步骤8,使用步骤4中AGMM训练时得到的参数λ,求取后验条件概率矩阵P′(X|λ);步骤9,使用步骤5中得到的BLFW+AS转换函数,求得转换后的MFCC特征参数Y′;步骤10,使用步骤5得到的基频转换函数由对数基频logf0X′得到转换后的对数基频logf0Y′;步骤11,使用AHOdecoder语音合成模型将转换后的MFCC特征参数Y′和对数基频logf0Y′合成得到转换后的语音。2.根据权利要求1所述的语音转换方法,其特征在于,步骤3具体过程如下:3-1)采用双线性频率弯折方法对源语音MFCC特征参数进行声道长度归一化处理;3-2)对于给定的N个源语音MFCC特征参数矢量{Xk},通过公式(1)来动态地寻找N个目标语音特征参数矢量{Yk},使得距离耗费函数值C({Yk})最小;C({Yk})=C1({Yk})+C2({Yk})(1)其中,C1({Yk})和C2({Yk})分别由下式表示:其中,D(Xk,Yk)函数表示源语音和目标语音特征参数矢量之间的频谱距离,参数γ表示在特征参数帧对齐的准确度和帧间连续性之间的平衡系数,且有0≤γ≤1;C1({Yk})表示的是源语音特征参数矢量和目标语音特征参数矢量之间的频谱距离耗费函数,C2({Yk})表示的是经单元挑选的目标语音特征参数矢量之间频谱距离耗费函数;3-3)通过对公式(1)进行多元线性回归分析,得到与源语音特征参数矢量对齐的目标语音特征参数序列集合即:通过上述步骤,将非平行的MFCC特征参数X、Y转变为平行的语料。3.根据权利要求2所述的语音转换方法,其特征在于,对于公式(4)的求解,使用维特比搜索方法来优化算法的执行效率。4.根据权利要求1所述的语音转换方法,其特征在于,步骤4的训练过程如下:4-1)设定AGMM初始混合数M,高斯分量权重系数阈值t1,t2,特征参数矢量之间欧氏距离阈值D和协方差阈值σ;4-2)使用K-均值迭代算法得到EM训练的初始值;4-3)使用EM算法进行迭代训练;将高斯混合模型GMM表示如下:其中,X为P维的语音特征参数矢量,P(wi)表示各高斯分量的权重系数,且有M为高斯分量的个数,N(X,μi,Σi)表示高斯分量的P维联合高斯概率分布,表示如下:

【专利技术属性】
技术研发人员:李燕萍左宇涛
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1