The invention discloses a speech conversion method based on adaptive Gauss clustering under the condition of non parallel text, which belongs to the field of speech signal processing technology. First, using the method of unit selection and channel length normalization based on the combination of speech feature parameters of non aligned parallel corpus, and then the adaptive Gauss mixture model and bilinear frequency warping and amplitude adjustment training, voice conversion required conversion function, and finally to achieve high quality audio conversion using the conversion function. The invention not only overcomes the training stage requires parallel corpus constraints, to achieve the conversion of non speech parallel texts under the conditions of applicability and versatility, and the use of adaptive Gauss mixture model to replace the traditional Gauss mixture model, solved the Gauss mixture model in speech feature classification is not accurate, and combine the the adaptive Gauss mixture model and bilinear frequency warping and amplitude adjustment, better quality and personality similarity in the conversion of voice.
【技术实现步骤摘要】
基于自适应高斯聚类的非平行文本条件下的语音转换方法
本专利技术涉及一种语音转换技术,尤其是一种非平行文本条件下的语音转换方法,属于语音信号处理
技术介绍
语音转换是语音信号处理领域近年来新兴的研究分支,是在语音分析、识别和合成的研究基础上进行的,同时在此基础上发展起来的。语音转换的目标是改变源说话人的语音个性特征,使之具有目标说话人的语音个性特征,也就是使一个人说的语音经过转换后听起来像是另一个人说的语音,同时保留语义。大多数的语音转换方法,尤其是基于GMM的语音转换方法,要求用于训练的语料库是平行文本的,即源说话人和目标说话人需要发出语音内容、语音时长相同的句子,并且发音节奏和情绪等尽量一致。然而在语音转换的实际应用中,获取大量的平行语料殊为不易,甚至无法满足,此外训练时语音特征参数矢量对齐的精确度也成为语音转换系统性能的一种制约。无论从语音转换系统的通用性还是实用性来考虑,非平行文本条件下语音转换方法的研究都具有极大的实际意义和应用价值。目前非平行文本条件下的语音转换方法主要有两种,基于语音聚类的方法和基于参数自适应的方法。基于语音聚类的方法,是通过对语音帧之间距离的度量或者在音素信息的指导下选择相对应的语音单元进行转换,其本质是一定条件下将非平行文本转化为平行文本进行处理。该方法原理简单,但要对语音文本内容进行预提取,预提取的结果会直接影响语音的转换质量。基于参数自适应的方法,是采用语音识别中的说话人归一化或自适应方法对转换模型的参数进行处理,其本质是使得预先建立的模型向基于目标说话人的模型进行转化。该方法能合理地利用预存储的说话人信息,但 ...
【技术保护点】
一种基于自适应高斯聚类的非平行文本条件下的语音转换方法,其特征在于,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:步骤1,输入源说话人和目标说话人的非平行训练语料;步骤2,使用AHOcoder语音分析模型分别提取源说话人的非平行训练语料的MFCC特征参数X、目标说话人的非平行训练语料的MFCC特征参数Y,以及源语音基频log f0X和目标语音基频log f0Y;步骤3,对步骤2中的MFCC特征参数X、Y,进行单元挑选和声道长度归一化相结合的语音特征参数对齐和动态时间规整,从而将非平行语料转变成平行语料;步骤4,使用期望最大化EM算法进行自适应混合高斯模型AGMM训练,AGMM训练结束,得到后验条件概率矩阵P(X|λ),并保存AGMM参数λ;步骤5,利用步骤3得到的源语音特征参数X和目标语音特征参数Y,使用步骤4中的后验条件概率矩阵P(X|λ)进行双线性频率弯折BLFW+幅度调节AS训练,得到频率弯折因子α(x,λ)和幅度调节因子s(x,λ),从而构建BLFW+AS转换函数;使用对数基频的均值和方差建立源语音基频log f0X和目标语音基频log f0Y之间的基频转换函数;所述转 ...
【技术特征摘要】
1.一种基于自适应高斯聚类的非平行文本条件下的语音转换方法,其特征在于,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:步骤1,输入源说话人和目标说话人的非平行训练语料;步骤2,使用AHOcoder语音分析模型分别提取源说话人的非平行训练语料的MFCC特征参数X、目标说话人的非平行训练语料的MFCC特征参数Y,以及源语音基频logf0X和目标语音基频logf0Y;步骤3,对步骤2中的MFCC特征参数X、Y,进行单元挑选和声道长度归一化相结合的语音特征参数对齐和动态时间规整,从而将非平行语料转变成平行语料;步骤4,使用期望最大化EM算法进行自适应混合高斯模型AGMM训练,AGMM训练结束,得到后验条件概率矩阵P(X|λ),并保存AGMM参数λ;步骤5,利用步骤3得到的源语音特征参数X和目标语音特征参数Y,使用步骤4中的后验条件概率矩阵P(X|λ)进行双线性频率弯折BLFW+幅度调节AS训练,得到频率弯折因子α(x,λ)和幅度调节因子s(x,λ),从而构建BLFW+AS转换函数;使用对数基频的均值和方差建立源语音基频logf0X和目标语音基频logf0Y之间的基频转换函数;所述转换阶段包括如下步骤:步骤6,输入待转换的源说话人语音;步骤7,使用AHOcoder语音分析模型提取源说话人语音的MFCC特征参数X′和对数基频logf0X′;步骤8,使用步骤4中AGMM训练时得到的参数λ,求取后验条件概率矩阵P′(X|λ);步骤9,使用步骤5中得到的BLFW+AS转换函数,求得转换后的MFCC特征参数Y′;步骤10,使用步骤5得到的基频转换函数由对数基频logf0X′得到转换后的对数基频logf0Y′;步骤11,使用AHOdecoder语音合成模型将转换后的MFCC特征参数Y′和对数基频logf0Y′合成得到转换后的语音。2.根据权利要求1所述的语音转换方法,其特征在于,步骤3具体过程如下:3-1)采用双线性频率弯折方法对源语音MFCC特征参数进行声道长度归一化处理;3-2)对于给定的N个源语音MFCC特征参数矢量{Xk},通过公式(1)来动态地寻找N个目标语音特征参数矢量{Yk},使得距离耗费函数值C({Yk})最小;C({Yk})=C1({Yk})+C2({Yk})(1)其中,C1({Yk})和C2({Yk})分别由下式表示:其中,D(Xk,Yk)函数表示源语音和目标语音特征参数矢量之间的频谱距离,参数γ表示在特征参数帧对齐的准确度和帧间连续性之间的平衡系数,且有0≤γ≤1;C1({Yk})表示的是源语音特征参数矢量和目标语音特征参数矢量之间的频谱距离耗费函数,C2({Yk})表示的是经单元挑选的目标语音特征参数矢量之间频谱距离耗费函数;3-3)通过对公式(1)进行多元线性回归分析,得到与源语音特征参数矢量对齐的目标语音特征参数序列集合即:通过上述步骤,将非平行的MFCC特征参数X、Y转变为平行的语料。3.根据权利要求2所述的语音转换方法,其特征在于,对于公式(4)的求解,使用维特比搜索方法来优化算法的执行效率。4.根据权利要求1所述的语音转换方法,其特征在于,步骤4的训练过程如下:4-1)设定AGMM初始混合数M,高斯分量权重系数阈值t1,t2,特征参数矢量之间欧氏距离阈值D和协方差阈值σ;4-2)使用K-均值迭代算法得到EM训练的初始值;4-3)使用EM算法进行迭代训练;将高斯混合模型GMM表示如下:其中,X为P维的语音特征参数矢量,P(wi)表示各高斯分量的权重系数,且有M为高斯分量的个数,N(X,μi,Σi)表示高斯分量的P维联合高斯概率分布,表示如下:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。