基于自组织特征映射网络聚类和径向基网络的语音转换法制造技术

技术编号:7598139 阅读:305 留言:0更新日期:2012-07-21 23:36
本发明专利技术公开了一种基于自组织特征映射网络聚类和径向基网络的语音转换法,属于语音信号处理技术领域,包含以下步骤:预处理,清浊音判决与特征参数提取;参数聚类;频谱包络转换规则的建立;基音频率转换规则的建立;特征参数的转换;语音合成。本发明专利技术将源语音特征参数分成若干个聚类,相应的目标特征参数也分成与源语音各聚类一一对应的若干类,对每一聚类分别建立转换规则,这样不仅将训练数据进行划分减少了训练的时间复杂度,使得转换生成的语音具有良好的自然度;在语音特征参数转换时,将基音频率与频谱包络联系起来,建立两者间的转换关系,克服了孤立的对基音频率转换的缺点,使得转换出的基音频率更加具有目标说话人的特性。

【技术实现步骤摘要】

本专利技术涉及语音转换技术,特别涉及基于自组织特征映射网络聚类和径向基网络的语音转换方法,属于语音信号处理

技术介绍
语音转换是语音信号处理领域近年来新兴的研究分支,是在说话人识别和语音合成的研究基础上进行的,同时也是这两个分支内涵的丰富和延拓,但是又不完全隶属于说话人识别和语音合成的范畴。语音转换的目标是在保证其中的语义信息保持不变的条件下,改变源说话人语音中的个性特征信息,使之具有目标说话人的个性特征,从而使转换后的语音听起来就像是目标说话人的声音。语音转换的实现可以分为训练阶段和转换阶段。在训练阶段,系统对源说话人和目标说话人进行训练,分析他们的参数,建立转换规则。在转换阶段,先对源语音进行分析并提取语音特征,再根据由训练阶段得到的语音转换规则进行转换得到目标语音特征。语音转换的关键问题在于说话人个性特征的提取以及转换规则的建立,经过近二十年的发展,涌现出大量的研究成果,目前对语音特征参数的研究主要包括频谱包络参数和基音频率。语音转换中目前对频谱包络参数的转换方法有基于线性预测编码模型(Linear Prediction Coding, LPC),高斯混合模型(Gaussian Mixture Model, GMM), 谐波加噪声模型(Harmonic plus Noise Model, HNM)等,但是这些方法在建立转换规则时直接将提取参数进行训练,建立起统一的一个转换规则,这样由于语音信号的时变和非平稳特性,而且训练数据数量的巨大,使得唯一的一个转换规则不能准确的描述源语音的特征参数与目标语音的特征参数之间的映射关系,必然引起失真;(l、Zad-ISSa,Μ. R, Kabal,P. Smoothing the Evolution ofthe Spectral Parameters in Linear Prediction of Speech using Target Matching. ICASSP, 1997 :vol. 3,1699-1702. 2> Daojian Zeng, Yibiao Yu. Voice Conversion using structrued Gaussian Mixture Model. ICSP,2010 541-544. 3、Hu H. T, Yu C, Lin C. H. HNM parameter transform for voice conversion using a HMM-ffDLT framework. ICIMA,2010 :vol. 2,282-287.)语音转换中目前对基音频率的转换方法有均值转换法、高斯模型法等,但是这些转换方法都是将频谱包络参数与基音频率分开进行转换,两者转换之间没有联系,但是频谱包络参数与基音频率都来自与同一语音信号,越来越多的研究表明两者之间有着密切的联系,因此传统的分别对以上两种参数进行转换的方法会必然影响合成语音的质量。(l、Lee K. S, Doh W, Youn D. H Voice conversion using low dimensional vector mapping. IEICE Transaction Information&System,2002,E85 (D) : 1297-1305. 2、L M. Arslan. Speaker Transformation Algorithm using Segmental Codebooks(STASC). Speech Communication,Jul. 1999 vol. 28,no. 3,pp. 211—226.)
技术实现思路
本专利技术的目的在于提供一种结合语音时域特点和说话人个性特征在平行文本的条件下的语音转换方法,得到一种更加准确的转换规则,使得转换语音中的说话人个性特征增强并且提高转换语音的听觉质量。为了实现上述专利技术目的,本专利技术采用了如下技术方案一种基于自组织特征映射网络聚类和径向基网络的语音转换法,具体步骤如下第一步,预处理,清浊音判决与特征参数提取,即对输入语音信号进行预加重、 分帧和加窗处理后,计算每一帧的短时能量和平均过零率,完成清浊音的判决,再利用 STRAIGHT(Speech Transformation and Representation using Adaptive Interpolation of weiGHTed spectrum)模型提取出每一个浊音帧的 LSF (Linear Spectral Frequency,线性谱频率)参数和基音频率;第二步,参数聚类,即先对提取出的源LSF参数与目标LSF参数进行动态时间规整,再利用自组织特征映射网络对源LSF参数进行自组织聚类,同时记录下各类中源LSF参数的下标,这样与某一聚类中源LSF参数对应的目标LSF参数也聚成一类,实现目标LSF参数的聚类;类似地,利用LSF参数动态时间归整时返回的参数下标确定时间对齐后的目标 LSF参数对应的基音频率,再由记录的源LSF参数下标可实现目标基音频率的聚类;第三步,频谱包络转换规则的建立,即分别以每一聚类的源LSF参数作为输入,相应聚类的目标LSF参数作为输出,利用RBF(Radial Basis Function,径向基)网络进行训练,对每一聚类建立频谱包络转换规则;第四步,基音频率转换规则的建立,对每一个聚类,分别用目标LSF参数作为输入,对应的基音频率作为输出,用RBF网络进行训练,建立每一个聚类的基音频率转换规则;第五步,特征参数的转换,即先对待转换语音的浊音帧逐一进行归类,用第三步得到的该类频谱包络转换规则进行转换,得到转换的LSF参数,再由转换的LSF参数利用上述第四步得到的该类基音频率转换规则得到转换的基音频率;第六步,语音合成,即由上述第四步和第五步得到的LSF参数和基音频率,经 STRAIGHT模型最终得到转换后的语音。本专利技术与现有技术相比,其显著优点(1)在语音特征参数映射理论的指导下将源语音特征参数分成若干个聚类,相应的目标特征参数也分成与源语音各聚类一一对应的若干类,对每一聚类分别建立转换规则,这样不仅将训练数据进行划分减少了训练的时间复杂度,而且结合语音的短时准周期性的特点,每一聚类的转换规则可以更加准确的反映该类的映射关系,使得转换生成的语音具有良好的自然度;( 在语音特征参数转换时,将基音频率与频谱包络联系起来,建立两者间的转换关系,克服了目前孤立的对基音频率转换的缺点,使得转换出的基音频率更加具有目标说话人的特性。下面结合附图对本专利技术作进一步详细描述。附图说明图1是本专利技术基于自组织特征映射网络聚类和径向基网络的语音转换示意图;图2是LSF参数的聚类及其转换规则建立的示意图3是基音频率的聚类及其转换规则建立的示意图;图4是第i帧浊音参数转换及语音合成的示意图。具体实施例方式结合图1,本专利技术基于自组织特征映射网络聚类和径向基网络的语音转换法,步骤如下第一步,在训练阶段先进行预处理,清浊音判决与特征参数提取,即对输入语音信号进行预加重、分帧和加窗处理后,计算每一帧的短时能量和平均过零率,完成清浊音的判决,再利用STRAIGHT模型提取出每一个浊音帧的基音频率和线本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:解伟超张玲华
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术