基于自组织特征映射网络聚类和径向基网络的语音转换法制造技术

技术编号：7598139 阅读：305 留言：0更新日期：2012-07-21 23:36

本发明专利技术公开了一种基于自组织特征映射网络聚类和径向基网络的语音转换法，属于语音信号处理技术领域，包含以下步骤：预处理，清浊音判决与特征参数提取；参数聚类；频谱包络转换规则的建立；基音频率转换规则的建立；特征参数的转换；语音合成。本发明专利技术将源语音特征参数分成若干个聚类，相应的目标特征参数也分成与源语音各聚类一一对应的若干类，对每一聚类分别建立转换规则，这样不仅将训练数据进行划分减少了训练的时间复杂度，使得转换生成的语音具有良好的自然度；在语音特征参数转换时，将基音频率与频谱包络联系起来，建立两者间的转换关系，克服了孤立的对基音频率转换的缺点，使得转换出的基音频率更加具有目标说话人的特性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音转换技术，特别涉及基于自组织特征映射网络聚类和径向基网络的语音转换方法，属于语音信号处理

技术介绍
语音转换是语音信号处理领域近年来新兴的研究分支，是在说话人识别和语音合成的研究基础上进行的，同时也是这两个分支内涵的丰富和延拓，但是又不完全隶属于说话人识别和语音合成的范畴。语音转换的目标是在保证其中的语义信息保持不变的条件下，改变源说话人语音中的个性特征信息，使之具有目标说话人的个性特征，从而使转换后的语音听起来就像是目标说话人的声音。语音转换的实现可以分为训练阶段和转换阶段。在训练阶段，系统对源说话人和目标说话人进行训练，分析他们的参数，建立转换规则。在转换阶段，先对源语音进行分析并提取语音特征，再根据由训练阶段得到的语音转换规则进行转换得到目标语音特征。语音转换的关键问题在于说话人个性特征的提取以及转换规则的建立，经过近二十年的发展，涌现出大量的研究成果，目前对语音特征参数的研究主要包括频谱包络参数和基音频率。语音转换中目前对频谱包络参数的转换方法有基于线性预测编码模型(Linear Prediction Coding, LPC)，高斯混合模型(Gaussian Mixture Model, GMM), 谐波加噪声模型(Harmonic plus Noise Model, HNM)等，但是这些方法在建立转换规则时直接将提取参数进行训练，建立起统一的一个转换规则，这样由于语音信号的时变和非平稳特性，而且训练数据数量的巨大，使得唯一的一个转换规则不能准确的描述源语音的特征参数与目标语音的特征参数之间的映射关系，必然引起失真；(...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：解伟超，张玲华，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人