当前位置: 首页 > 专利查询>王程程专利>正文

一种提高语音合成系统表现力的建模方法技术方案

技术编号:7002872 阅读:432 留言:0更新日期:2012-04-11 18:40
本发明专利技术公布了一种提高语音合成系统表现力的建模方法,本发明专利技术的特征是在Trainable?TTs中引入了基频和频谱两个声学特征异步建模的概念,保证基频与频谱的音素边界相同的情况下进行独立的模型训练,最后通过参数生成算法各自生成出参数然后进行语音合成,实现了合成语音在音质的表现力方面的提升。

【技术实现步骤摘要】

本专利技术涉及语音合成领域,具体是提出一种对语音合成中基频和频谱两个声学特 征异步建模的方法,达到提高合成语音的音质,使其韵律更加丰富的目的。
技术介绍
语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音合成 技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产 生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中,早期的研究主要是采用 参数合成方法,后来随着计算机技术的发展又出现了波形拼接的合成方法。在语音合成技术的发展中,早期的研究主要是采用参数合成方法。值得提及的是 Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980),只要精心 调整参数,这两个合成器都能合成出非常自然的语音。最具代表性的文语转换系统当数美 国DEC公司的DECtalk (1987)。但是经过多年的研究与实践表明,由于准确提取共振峰参数 比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音 质难以达到文语转换系统的实用要求。基于隐马尔可夫模型(HMM-based TrainableTTS) 方法就是将HMM用于语音信号的建模和预测的参数合成方法,它能够实现稳定平滑的语音 合成,但是由于参数模型是预测的,所以他合成出来的语音的音质存在一定缺陷。在基于HMM的参数语音合成中,需要对频谱参数和基频参数同时进行建模和预 测。传统方法是使用一个多流的HMM来对这两种参数进行同步建模,即频谱参数和基频参 数共享同样的一个状态序列;在状态序列给定的情况下,基频特征和频谱特征是独立的。也 就是说,传统的Trainable TTS系统是同步和独立的。这样的同步假设是否会带来一些问 题?我们知道,基频和频谱产生的生理机理是不同的,基频是说话时声带振动,产生基音的 频率。而频谱反映了声道的形状。不同的发音器官器官决定了基频和频谱本应该是有异步 性的。如果假设为同步会带来什么影响呢?我们知道,传统方法在HMM训练时,通过训练数 据调整模型参数,包括状态转移和输出的概率分布,使模型创建的输出序列具有最大的概 率,而状态占有率的计算是基频参数和谱参数结合在一起进行的rt(i) =P (Cit = Si I OpO2, λ)其中,rt ⑴为 t 时刻是状态 SiW 概率,O1, O2分别为频谱和基频参数的观测值,λ为HMM模型。由于谱参数(O1)的维数(一般123维)大大于基频参数(O2)的维数(一般3维), 所以谱参数基本决定了状态占有率,对模型状态的分布及参数的更新起导向性作用。这样 一起进行建模势必会影响到维数较小的基频模型的准确性。所以,我们提出基频与频谱异 步独立建模的思想,使基频解除频谱的这种束缚,独立的根据训练数据的基频参数统计建 模。基于上面的分析,为了达到合成语音在音质的表现力方面的提升,提出基频与频 谱异步独立建模的思想,从而提高了语音合成的系统的总体水平。
技术实现思路
本专利技术提供了 ,本专利技术的特征是在 Trainable TTS中引入了基频和频谱两个声学特征异步建模的概念,保证基频与频谱的音 素边界相同的情况下进行独立的模型训练,最后通过参数生成算法各自生成出参数然后进 行语音合成,实现了合成语音在音质的表现力方面的提升。本专利技术的技术方案如下(1)、模型训练在保证基频与频谱的音素边界与原来基线系统相同的情况下,通 过各自的异步建模观察对基频模型和基频参数预测的表现。实际上,这是一种半异步的做 法,之所以没有完全异步,我们是考虑到以下问题如果基频与频谱在没有相同音素边界的 限定的情况下建模,基频的音素边界会因为一些以清音(unvioced)为起止的音而划分不 准;在合成时,我们也会因为基频和频谱完全异步而存在很大的对齐问题。具体步骤如下I.训练开始,最初步骤与原来同步建模系统相同,直到训练出初始的聚类隐马尔 可夫模型(HMMs)。II.用Baum-Welch参数更新算法深入训练后的同步模型来确定音素的边界,作为 后面基频和频谱异步建模的公共的一致性的边界。III.确定音素边界后,对基频和频谱分别进行深入训练,即在音素边界固定的情 况下,对于基频频谱分别进行Baum-Welch参数更新算法进行更新。分别得到基频和频谱的 新的聚类HMMs。IV.得到基频和频谱的各自音素内部的状态划分,训练音素时长,频谱状态时长, 基频状态时长模型。O)、参数生成基频和频谱参数生成就是在给定HMM集合λ的前提下,对目标矢 量参数O1, O2(这里为频谱和基频参数)进行预测,相当于最大化P(C)1, O2I λ),而此式可写 作权利要求1. ,即基频和频谱两个声学特征异步建模的 方法,其特征是具体的实现方式如下(1)、模型训练在保证基频与频谱的音素边界与原来基线系统相同的情况下,通过各 自的异步建模观察对基频模型和基频参数预测的表现。实际上,这是一种半异步的做法,之 所以没有完全异步,我们是考虑到以下问题如果基频与频谱在没有相同音素边界的限定 的情况下建模,基频的音素边界会因为一些以清音(unvioced)为起止的音而划分不准;在 合成时,我们也会因为基频和频谱完全异步而存在很大的对齐问题。具体步骤如下I.训练开始,最初步骤与原来同步建模系统相同,直到训练出初始的聚类隐马尔可夫 模型(HMMs)。II.用Baum-Welch参数更新算法深入训I练后的同步模型来确定音素的边界,作为后 面基频和频谱异步建模的公共的一致性的边界。III.确定音素边界后,对基频和频谱分别进行深入训练,即在音素边界固定的情况下, 对于基频频谱分别进行Baum-Welch参数更新算法进行更新。分别得到基频和频谱的新的 聚类HMMs。IV.得到基频和频谱的各自音素内部的状态划分,训练音素时长,频谱状态时长,基频 状态时长模型。O)、参数生成基频和频谱参数生成就是在给定HMM集合λ的前提下,对目标矢量参 数O1, O2 (这里为频谱和基频参数)进行预测,相当于最大化P (O1, O21 λ ),而此式可写作全文摘要本专利技术公布了,本专利技术的特征是在Trainable TTs中引入了基频和频谱两个声学特征异步建模的概念,保证基频与频谱的音素边界相同的情况下进行独立的模型训练,最后通过参数生成算法各自生成出参数然后进行语音合成,实现了合成语音在音质的表现力方面的提升。文档编号G10L13/04GK102122505SQ201010046519公开日2011年7月13日 申请日期2010年1月8日 优先权日2010年1月8日专利技术者王程程 申请人:王程程本文档来自技高网
...

【技术保护点】
1.一种提高语音合成系统表现力的建模方法,即基频和频谱两个声学特征异步建模的方法,其特征是具体的实现方式如下:(1)、模型训练:在保证基频与频谱的音素边界与原来基线系统相同的情况下,通过各自的异步建模观察对基频模型和基频参数预测的表现。实际上,这是一种半异步的做法,之所以没有完全异步,我们是考虑到以下问题:如果基频与频谱在没有相同音素边界的限定的情况下建模,基频的音素边界会因为一些以清音(unvioced)为起止的音而划分不准;在合成时,我们也会因为基频和频谱完全异步而存在很大的对齐问题。具体步骤如下:I.训练开始,最初步骤与原来同步建模系统相同,直到训练出初始的聚类隐马尔可夫模型(HMMs)。II.用Baum-Welch参数更新算法深入训I练后的同步模型来确定音素的边界,作为后面基频和频谱异步建模的公共的一致性的边界。III.确定音素边界后,对基频和频谱分别进行深入训练,即在音素边界固定的情况下,对于基频频谱分别进行Baum-Welch参数更新算法进行更新。分别得到基频和频谱的新的聚类HMMs。IV.得到基频和频谱的各自音素内部的状态划分,训练math)(math)??(mrow)?(munder)?(mi)Σ(/mi)?(mi)i(/mi)?(/munder)?(msubsup)?(mi)d(/mi)?(mi)i(/mi)?(mo)′(/mo)?(/msubsup)?(mo)=(/mo)?(mi)d(/mi)?(/mrow)?(/math)其中:似然值F式子的第一部分是频谱状态时长的似然值,第二部分是基频状态时长的似然值,第三部分为音素时长的似然值,三部分通过w1和w2这两个权值加权到一起,目的是在F式最大的情况下生成时长参数。di为预测的频谱时长,di′为预测的基频时长,d为预测的音素时长。(math)??(mrow)?(msub)?(mi)P(/mi)?(mi)i(/mi)?(/msub)?(mo)=(/mo)?(mi)N(/mi)?(mrow)?(mo)((/mo)?(msub)?(mi)d(/mi)?(mi)i(/mi)?(/msub)?(mo)|(/mo)?(msub)?(mi)m(/mi)?(mi)i(/mi)?(/msub)?(mo),(/mo)音素时长,频谱状态时长,基频状态时长模型。(2)、参数生成:基频和频谱参数生成就是在给定HMM集合λ的前提下,对目标矢量参数O1,O2(这里为频谱和基频参数)进行预测,相当于最大化P(O1,O2|λ),而此式可写作:(math)??(mro?(msubsup)?(mi)σ(/mi)?(mi)i(/mi)?(mn)2(/mn)?(/msubsup)?(mo))(/mo)?(/mrow)?(/mrow)?(/math)为频谱时长的模型分布,(math)??(mrow)?(msubsup)?(mi)P(/mi)?(mi)i(/mi)?(mo)′(/mo)?(/msubsup)?(mo)=(/mo)?(mi)N(/mi)?(mrow)?(mo)((/mo)?(msubsup)?(mi)d(/mi)?(mi)i(/mi)?(mo)′(/mo)?(/msubsup)?(mo)|(/mo)?(msubsup)?(mi)m(/mi)?(mi)i(/mi)?(mo)′(/mo)?(/msubsup)?(mo),(/mo)?(msubsup)?(mi)σ(/mi)?(mi)i(/mi)?(mrow)?(mo)′(/mo)?(mn)2(/mn)?(/mrow)?(/msubsup)?(mo))(/mo)?(/mrow)?(/mrow)?(/math)为基频时长的模型分布,P=N(d|m,σ2)为音素时长的模型分布。由拉格朗日:(math)??(mrow)?(mi)F(/mi)?(mo)=(/mo)?(mo)-(/mo)?(mfrac)?(mn)1(/mn)?(mn)2(/mn)?(/mfrac)?(munder)?(mi)Σ(/mi)?(mi)i(/mi)?(/munder)?(mfrac)?(msup)?(mrow)?(mo)((/mo)?(msub)?(mi)d(/mi)?(mi)i(/mi)?(/msub)?(mo)-(/mo)?(msub)?(mi)m(/mi)?(mi)i(/mi)?(/msub)?(mo))(/mo)?(/mrow)?(mn)2(/mn)?(/msup)?(msubsup)?(mi)σ(/mi)?(mi)i(/mi)?(mn)2(/mn)?(/msubsup)?(/mfrac)?(mo)-(/mo)?(mfrac)?(msub)?(mi)w(/...

【技术特征摘要】

【专利技术属性】
技术研发人员:王程程
申请(专利权)人:王程程
类型:发明
国别省市:34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1