语音合成方法、系统及具有语音合成功能的移动终端设备技术方案

技术编号:4043243 阅读:151 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种语音合成方法、系统及具有语音合成功能的移动终端设备,以解决现有的实时合成计算量大的问题。所述方法包括:在模型训练阶段进行样本的语音参数调整,然后对调整后的参数进行统计训练,得到参数模型;在语音合成阶段,利用所述参数模型对待合成信息进行语音参数规划,然后将规划出的参数合成声音。本发明专利技术将语音参数的调整过程移到模型训练阶段完成,在实时合成时就不再进行此操作,从而降低了实时合成的计算量,保证了语音合成的实时性。此外,本发明专利技术还提供了一种具有语音合成功能的移动终端设备,能够降低实时合成的计算量。

【技术实现步骤摘要】

本专利技术涉及信号处理
,特别是涉及一种语音合成方法、系统,以及一种具 有语音合成功能的移动终端设备。
技术介绍
由人工通过一定的机器设备产生出语音称为语音合成(Speech Synthesis)。语音 合成从技术方式讲可分为波形拼接合成、参数分析合成等。其中,参数分析合成这种合成方式多以音节、半音节或音素为合成单元。首先,按 照语音理论,对所有合成单元的语音提取有关语音参数,然后进行统计分析,生成一个参数 模型库;合成时,根据待合成的文本信息,从参数模型库中规划出相应的合成参数,然后送 入语音合成器合成,最终将语音波形生成出来。具体的,在基于参数的语音合成中,由于规划语音参数是基于统计模型,所以最后 规划出来的参数往往趋于平均水平,从而合成的声音听起来发闷。为了解决这个问题,普遍 的做法是在规划出语音参数后,对规划出的参数进行调整,使参数的变化更加明显,从而达 到使声音清晰的目的。但是,由于在语音合成过程中加入了参数调整的过程,因此增加了计算量,这对于 一些需要实时合成语音的系统,占用了宝贵的系统资源,影响了合成的实时性。
技术实现思路
本专利技术所要解决的技术问题是提供一种语音合成方法及系统,以解决现有的实时 合成计算量大的问题。相应的,本专利技术还提供了一种具有语音合成功能的移动终端设备,能够降低实时 合成的计算量。为了解决上述问题,本专利技术公开了一种语音合成方法,包括在模型训练阶段进行样本的语音参数调整,然后对调整后的参数进行统计训练, 得到参数模型;在语音合成阶段,利用所述参数模型对待合成信息进行语音参数规划,然后将规 划出的参数合成声音。其中,所述在模型训练阶段进行样本的语音参数调整包括在模型训练阶段,对样 本语音参数中的LSP谱进行增强处理。其中,对待合成信息进行语音参数规划之前,还包括对所述待合成信息进行文本 分析,得到包含音节信息和音节位置信息的分析结果;则利用所述参数模型对待合成信息 进行语音参数规划包括利用所述分析结果从参数模型中规划出包含时长、基频和谱的语音参数。其中,所述文本分析包括分词处理、词性标注、数字公式符号处理、多音字处理、韵 律预测和音节位置标注处理。其中,在模型训练阶段进行样本的语音参数调整之前,还包括选择用作样本的录 音语料,并进行录音,得到录音数据;从所述录音数据中提取出包含时长、基频和谱的语音 参数。本专利技术还提供了一种语音合成系统,包括模型训练模块,包括参数调整子模块和统计训练子模块,所述参数调整子模块用 于在模型训练阶段进行样本的语音参数调整,所述统计训练子模块用于对调整后的参数进 行统计训练,得到参数模型;语音合成模块,包括参数规划子模块和语音合成子模块,所述参数规划子模块用 于在语音合成阶段,利用所述参数模型对待合成信息进行语音参数规划,所述语音合成子 模块用于将规划出的参数合成声音。其中,所述参数调整子模块是通过对样本语音参数中的LSP谱进行增强处理来调 整参数。其中,所述语音合成模块还包括文本分析子模块,用于对所述待合成信息进行文 本分析,得到包含音节信息和音节位置信息的分析结果;则所述参数规划子模块是利用所 述分析结果从参数模型中规划出包含时长、基频和谱的语音参数。其中,所述模型训练模块还包括录音语料设计子模块,用于选择用作样本的录音 语料;录音子模块,用于利用所述录音语料进行录音,得到录音数据;参数提取子模块,用 于从所述录音数据中提取出包含时长、基频和谱的语音参数。本专利技术还提供了一种移动终端设备,包括模型训练模块,包括参数调整子模块和统计训练子模块,所述参数调整子模块用 于在模型训练阶段进行样本的语音参数调整,所述统计训练子模块用于对调整后的参数进 行统计训练,得到参数模型;语音合成模块,包括参数规划子模块和语音合成子模块,所述参数规划子模块用 于在语音合成阶段,利用所述参数模型对待合成信息进行语音参数规划,所述语音合成子 模块用于将规划出的参数合成声音。其中,所述移动终端设备包括手机、导航仪、学习机、PDA和电子书。与现有技术相比,本专利技术具有以下优点首先,本专利技术在现有语音合成技术的基础上,将语音参数的调整过程移到模型训 练阶段完成,在实时合成时就不再进行此操作,从而降低了实时合成的计算量。而实时合成 阶段的计算量多少是一个比较重要的指标,因为在一些嵌入式应用中,若计算量太大,是不 能实时合成的。因此,与现有技术相比,本专利技术保证了语音合成的实时性。其次,本专利技术是创造性地提出将语音参数的调整过程移到模型训练阶段。目前本 领域技术人员普遍认为在语音合成阶段进行参数调整是理所当然的,很少有人想到将语音 参数的调整移到模型训练阶段,这是因为按照惯常理解,合成的声音发闷的主要原因是基 于统计模型规划出来的参数趋于平均水平,基于这种思路推断如果对模型统计前的语音 参数进行调整,这些调整后的参数经过统计分析后仍会变得比较“平均”,因此合成的声音 仍会发闷。但是,本专利技术恰恰打破这种定向思维,尝试对模型训练阶段的语音参数进行调 整,而且经过试验证明,利用本专利技术得到的参数模型进行语音合成,其合成效果与现有技术 的合成效果差别不明显,而且还可以降低实时合成的计算量。因此,可以证明本专利技术具有独创性。 附图说明图1是本专利技术实施例所述一种语音合成前的模型训练流程图;图2是本专利技术实施例所述一种语音合成流程图;图3是本专利技术实施例所述一种语音合成系统的结构图。具体实施例方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本专利技术作进一步详细的说明。语音合成的过程分为模型训练阶段和语音合成阶段,为了满足语音合成的实时性 要求,本专利技术创造性地提出将语音参数的调整过程移到模型训练阶段完成,在实时合成时 就不再进行此操作,从而降低了实时合成的计算量。下面通过图1和图2所示的实施例分别详细说明模型训练阶段和语音合成阶段。参照图1,是本专利技术实施例所述一种语音合成前的模型训练流程图。步骤101,录音语料设计;选择用作样本的录音语料,录音语料要尽可能的覆盖所有音节、调联等情况,以及 每个音节的各种发音情况,如在句首、句中、句末、韵首、韵中、韵末、词首、词中、词末等等情 况。步骤102,录音;根据录音语料,专业录音员进行录音,得到录音数据。步骤103,参数提取;从录音数据中提取出声音的参数信息,如基频(即音高)、谱、时长等参数。这些参 数信息的提取通常是分帧处理,常见的是Ims或者5ms —帧。具体的,可采用本领域技术人 员熟知的参数提取方法进行提取,在此不再详述。步骤104,参数调整;根据应用需要,可以对提取出的基频(即音高)、谱、时长等参数都进行调整。本 实施例主要对影响语音合成效果较大的谱参数进行了调整,即将谱参数的变化调的更大一 些。经过试验证明,谱增强后再进行参数的统计,得到的谱参数反而比较接近真实的声音谱 参数。而现有技术统计得到的谱参数比较平均,得到的谱参数与真实声音的谱参数偏差较 大。谱可以用多种方法来描述,本实施例是通过LSP (Line Spectrum Pair,线谱对)来 描述谱。LSP参数是LPC(linear predictive coding,线性预测编码)参数的另一种表征 形式,实验证明,其量化特征和内插特性都明显优于其他参数,本文档来自技高网...

【技术保护点】
一种语音合成方法,其特征在于,包括:在模型训练阶段进行样本的语音参数调整,然后对调整后的参数进行统计训练,得到参数模型;在语音合成阶段,利用所述参数模型对待合成信息进行语音参数规划,然后将规划出的参数合成声音。

【技术特征摘要】

【专利技术属性】
技术研发人员:李健张连毅武卫东
申请(专利权)人:北京捷通华声语音技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1