一种提高语音合成系统表现力的建模方法技术方案

技术编号：7002872 阅读：432 留言：0更新日期：2012-04-11 18:40

本发明专利技术公布了一种提高语音合成系统表现力的建模方法，本发明专利技术的特征是在Trainable?TTs中引入了基频和频谱两个声学特征异步建模的概念，保证基频与频谱的音素边界相同的情况下进行独立的模型训练，最后通过参数生成算法各自生成出参数然后进行语音合成，实现了合成语音在音质的表现力方面的提升。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音合成领域，具体是提出一种对语音合成中基频和频谱两个声学特征异步建模的方法，达到提高合成语音的音质，使其韵律更加丰富的目的。
技术介绍
语音合成技术的研究已有两百多年的历史，但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，主要是让计算机能够产生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中，早期的研究主要是采用参数合成方法，后来随着计算机技术的发展又出现了波形拼接的合成方法。在语音合成技术的发展中，早期的研究主要是采用参数合成方法。值得提及的是 Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980)，只要精心调整参数，这两个合成器都能合成出非常自然的语音。最具代表性的文语转换系统当数美国DEC公司的DECtalk (1987)。但是经过多年的研究与实践表明，由于准确提取共振峰参数比较困难，虽然利用共振峰合成器可以得到许多逼真的合成语音，但是整体合成语音的音质难以达到文语转换系统的实用要求。基于隐马尔可夫模型(HMM-based TrainableTTS) 方法就是将HMM用于语音信号的建模和预测的参数合成方法，它能够实现稳定平滑的语音合成，但是由于参数模型是预测的，所以他合成出来的语音的音质存在一定缺陷。在基于HMM的参数语音合成中，需要对频谱参数和基频参数同时进行建模和预测。传统方法是使用一个多流的HMM来对这两种参数进行同步建模，即频谱参数和基频参数共享同样的一个状态序列；在状态序列给定的情况下，基频特征和频谱特征是独立的。也 ...

【技术保护点】
１．一种提高语音合成系统表现力的建模方法，即基频和频谱两个声学特征异步建模的方法，其特征是具体的实现方式如下：（１）、模型训练：在保证基频与频谱的音素边界与原来基线系统相同的情况下，通过各自的异步建模观察对基频模型和基频参数预测的表现。实际上，这是一种半异步的做法，之所以没有完全异步，我们是考虑到以下问题：如果基频与频谱在没有相同音素边界的限定的情况下建模，基频的音素边界会因为一些以清音（ｕｎｖｉｏｃｅｄ）为起止的音而划分不准；在合成时，我们也会因为基频和频谱完全异步而存在很大的对齐问题。具体步骤如下：Ｉ．训练开始，最初步骤与原来同步建模系统相同，直到训练出初始的聚类隐马尔可夫模型（ＨＭＭｓ）。ＩＩ．用Ｂａｕｍ－Ｗｅｌｃｈ参数更新算法深入训Ｉ练后的同步模型来确定音素的边界，作为后面基频和频谱异步建模的公共的一致性的边界。ＩＩＩ．确定音素边界后，对基频和频谱分别进行深入训练，即在音素边界固定的情况下，对于基频频谱分别进行Ｂａｕｍ－Ｗｅｌｃｈ参数更新算法进行更新。分别得到基频和频谱的新的聚类ＨＭＭｓ。ＩＶ．得到基频和频谱的各自音素内部的状态划分，训练ｍａｔｈ）（ｍａｔｈ）??（ｍｒｏｗ）?...

【技术特征摘要】

【专利技术属性】
技术研发人员：王程程，
申请(专利权)人：王程程，
类型：发明
国别省市：34

全部详细技术资料下载我是这个专利的主人