基于自适应高斯聚类的非平行文本条件下的语音转换方法技术

技术编号:16470446 阅读:72 留言:0更新日期:2017-10-28 21:11
本发明专利技术公开了一种基于自适应高斯聚类的非平行文本条件下的语音转换方法,属于语音信号处理技术领域。首先利用基于单元挑选和声道长度归一化相结合的方法对非平行语料进行语音特征参数对齐,然后进行自适应高斯混合模型和双线性频率弯折加幅度调节的训练,得到语音转换所需的转换函数,最后使用该转换函数实现高质量的语音转换。本发明专利技术不仅克服了训练阶段要求平行语料的限制,实现了非平行文本条件下的语音转换,适用性和通用性更强,而且使用自适应高斯混合模型替代传统高斯混合模型,解决了高斯混合模型在进行语音特征参数分类时不精确的问题,并将自适应高斯混合模型和双线性频率弯折加幅度调节相结合,在转换的个性相似度和语音质量上更好。

Speech conversion method based on adaptive Gauss clustering for non parallel text

The invention discloses a speech conversion method based on adaptive Gauss clustering under the condition of non parallel text, which belongs to the field of speech signal processing technology. First, using the method of unit selection and channel length normalization based on the combination of speech feature parameters of non aligned parallel corpus, and then the adaptive Gauss mixture model and bilinear frequency warping and amplitude adjustment training, voice conversion required conversion function, and finally to achieve high quality audio conversion using the conversion function. The invention not only overcomes the training stage requires parallel corpus constraints, to achieve the conversion of non speech parallel texts under the conditions of applicability and versatility, and the use of adaptive Gauss mixture model to replace the traditional Gauss mixture model, solved the Gauss mixture model in speech feature classification is not accurate, and combine the the adaptive Gauss mixture model and bilinear frequency warping and amplitude adjustment, better quality and personality similarity in the conversion of voice.

【技术实现步骤摘要】
基于自适应高斯聚类的非平行文本条件下的语音转换方法
本专利技术涉及一种语音转换技术,尤其是一种非平行文本条件下的语音转换方法,属于语音信号处理

技术介绍
语音转换是语音信号处理领域近年来新兴的研究分支,是在语音分析、识别和合成的研究基础上进行的,同时在此基础上发展起来的。语音转换的目标是改变源说话人的语音个性特征,使之具有目标说话人的语音个性特征,也就是使一个人说的语音经过转换后听起来像是另一个人说的语音,同时保留语义。大多数的语音转换方法,尤其是基于GMM的语音转换方法,要求用于训练的语料库是平行文本的,即源说话人和目标说话人需要发出语音内容、语音时长相同的句子,并且发音节奏和情绪等尽量一致。然而在语音转换的实际应用中,获取大量的平行语料殊为不易,甚至无法满足,此外训练时语音特征参数矢量对齐的精确度也成为语音转换系统性能的一种制约。无论从语音转换系统的通用性还是实用性来考虑,非平行文本条件下语音转换方法的研究都具有极大的实际意义和应用价值。目前非平行文本条件下的语音转换方法主要有两种,基于语音聚类的方法和基于参数自适应的方法。基于语音聚类的方法,是通过对语音帧之间距离的度本文档来自技高网...
基于自适应高斯聚类的非平行文本条件下的语音转换方法

【技术保护点】
一种基于自适应高斯聚类的非平行文本条件下的语音转换方法,其特征在于,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:步骤1,输入源说话人和目标说话人的非平行训练语料;步骤2,使用AHOcoder语音分析模型分别提取源说话人的非平行训练语料的MFCC特征参数X、目标说话人的非平行训练语料的MFCC特征参数Y,以及源语音基频log f0X和目标语音基频log f0Y;步骤3,对步骤2中的MFCC特征参数X、Y,进行单元挑选和声道长度归一化相结合的语音特征参数对齐和动态时间规整,从而将非平行语料转变成平行语料;步骤4,使用期望最大化EM算法进行自适应混合高斯模型AGMM训练,AGMM训练结束,...

【技术特征摘要】
1.一种基于自适应高斯聚类的非平行文本条件下的语音转换方法,其特征在于,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:步骤1,输入源说话人和目标说话人的非平行训练语料;步骤2,使用AHOcoder语音分析模型分别提取源说话人的非平行训练语料的MFCC特征参数X、目标说话人的非平行训练语料的MFCC特征参数Y,以及源语音基频logf0X和目标语音基频logf0Y;步骤3,对步骤2中的MFCC特征参数X、Y,进行单元挑选和声道长度归一化相结合的语音特征参数对齐和动态时间规整,从而将非平行语料转变成平行语料;步骤4,使用期望最大化EM算法进行自适应混合高斯模型AGMM训练,AGMM训练结束,得到后验条件概率矩阵P(X|λ),并保存AGMM参数λ;步骤5,利用步骤3得到的源语音特征参数X和目标语音特征参数Y,使用步骤4中的后验条件概率矩阵P(X|λ)进行双线性频率弯折BLFW+幅度调节AS训练,得到频率弯折因子α(x,λ)和幅度调节因子s(x,λ),从而构建BLFW+AS转换函数;使用对数基频的均值和方差建立源语音基频logf0X和目标语音基频logf0Y之间的基频转换函数;所述转换阶段包括如下步骤:步骤6,输入待转换的源说话人语音;步骤7,使用AHOcoder语音分析模型提取源说话人语音的MFCC特征参数X′和对数基频logf0X′;步骤8,使用步骤4中AGMM训练时得到的参数λ,求取后验条件概率矩阵P′(X|λ);步骤9,使用步骤5中得到的BLFW+AS转换函数,求得转换后的MFCC特征参数Y′;步骤10,使用步骤5得到的基频转换函数由对数基频logf0X′得到转换后的对数基频logf0Y′;步骤11,使用AHOdecoder语音合成模型将转换后的MFCC特征参数Y′和对数基频logf0Y′合成得到转换后的语音。2.根据权利要求1所述的语音转换方法,其特征在于,步骤3具体过程如下:3-1)采用双线性频率弯折方法对源语音MFCC特征参数进行声道长度归一化处理;3-2)对于给定的N个源语音MFCC特征参数矢量{Xk},通过公式(1)来动态地寻找N个目标语音特征参数矢量{Yk},使得距离耗费函数值C({Yk})最小;C({Yk})=C1({Yk})+C2({Yk})(1)其中,C1({Yk})和C2({Yk})分别由下式表示:其中,D(Xk,Yk)函数表示源语音和目标语音特征参数矢量之间的频谱距离,参数γ表示在特征参数帧对齐的准确度和帧间连续性之间的平衡系数,且有0≤γ≤1;C1({Yk})表示的是源语音特征参数矢量和目标语音特征参数矢量之间的频谱距离耗费函数,C2({Yk})表示的是经单元挑选的目标语音特征参数矢量之间频谱距离耗费函数;3-3)通过对公式(1)进行多元线性回归分析,得到与源语音特征参数矢量对齐的目标语音特征参数序列集合即:通过上述步骤,将非平行的MFCC特征参数X、Y转变为平行的语料。3.根据权利要求2所述的语音转换方法,其特征在于,对于公式(4)的求解,使用维特比搜索方法来优化算法的执行效率。4.根据权利要求1所述的语音转换方法,其特征在于,步骤4的训练过程如下:4-1)设定AGMM初始混合数M,高斯分量权重系数阈值t1,t2,特征参数矢量之间欧氏距离阈值D和协方差阈值σ;4-2)使用K-均值迭代算法得到EM训练的初始值;4-3)使用EM算法进行迭代训练;将高斯混合模型GMM表示如下:其中,X为P维的语音特征参数矢量,P(wi)表示各高斯分量的权重系数,且有M为高斯分量的个数,N(X,μi,Σi)表示高斯分量的P维联合高斯概率分布,表示如下:

【专利技术属性】
技术研发人员:李燕萍左宇涛
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1