一种用于嵌入式语音合成系统的音库结构压缩及使用方法技术方案

技术编号：6594750 阅读：373 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种用于嵌入式语音合成系统的音库结构压缩及使用方法，用于嵌入式系统，将接收到的任意文字转换成语音输出。以汉语中的音节作为合成系统及语音模型库的基本单元；首先创建基于音节的原始语音模型库，然后对所述原始语音模型库进行结构化的压缩，得到最终的压缩模型库。依据本发明专利技术提供的方法可以降低合成系统在嵌入式平台下所占用的空间资源，并提高合成速度，同时使合成语音保持良好的自然度和音质。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术总的来说涉及一种用于嵌入式语音合成系统的结构化音库压缩及使用方法，尤其是存储和运算资源有限的终端设备。
技术介绍
语音合成技术的目的是让机器还原自然的人类语音，嵌入式设备应用广泛，终端类嵌入式设备与用户交互频繁，而语音是最自然的交互手段。一般的语音合成系统可分为三个主要的功能模块文本分析模块、韵律生成模块和声学合成模块。基于大规模语料库的拼接合成方法由于技术简单，合成音质高被广泛采用。但是，这种方法的音库规模大，虽然通过聚类、编码和压缩等技术手段处理后，空间可以降低，但音质受到损伤，且灵活度下降。因此，近年来基于大规模语料库的统计建模参数合成方法被广泛研究，基本思想是，对大量的原始语音库进行参数化表示和统计建模，合成时依照特定规则挑选模型构成模型序列，进一步计算得到合成语句的参数序列，通过参数化合成的方法合成符合要求的语音。通过参数化统计建模方法合成的语音具有较高的自然度和智能度。在这种方法中，为保证合成效果，原始语音库需要尽可能覆盖韵律特征，得到的模型库可达到数百兆字节。经过模型聚类，可将模型库压缩至十兆左右。这种规模对一些掌上电脑等中高端设备的存储和计算能力来说可以满足，但对于运算和存储资源有限的终端设备来说仍无法满足实用的要求。在参数化统计建模语音库的训练过程中，常采用的语音特征参数为基音频率、声道谱系数和时长特征，参数化模型为隐半马尔科夫模型(HSMM)。根据HSMM的状态跳转特性，每种特征的模型包括各个状态的决策树和表示决策树叶节点的概率分布函数。目前常采用的概率密度函数表示方法为单高斯模型。最终得到的模型中，频谱系数的模型占最终...

【技术保护点】
１．一种用于嵌入式语音合成系统的参数化统计模型的结构化压缩和使用方法，用于减小模型库占用的空间并维持合成的音质。原始模型库的训练和合成过程采用汉语中的音节作为基本单元；模型库的压缩过程分为下述三个步骤：Ａ．使用训练语音的增益、基频和声道谱系数特征参数创建基于汉语音节的初始模型库；Ｂ．根据初始模型中声道谱系数模型各个状态的上下文决策树叶节点的分布情况，进行码本分配和结构化压缩；Ｃ．对声道谱系数模型的方差进行二次压缩，并与其他模型合并得到最终的压缩模型库。

【技术特征摘要】
1.一种用于嵌入式语音合成系统的参数化统计模型的结构化压缩和使用方法，用于减小模型库占用的空间并维持合成的音质。原始模型库的训练和合成过程采用汉语中的音节作为基本单元；模型库的压缩过程分为下述三个步骤A.使用训练语音的增益、基频和声道谱系数特征参数创建基于汉语音节的初始模型库；B.根据初始模型中声道谱系数模型各个状态的上下文决策树叶节点的分布情况，进行码本分配和结构化压缩；C.对声道谱系数模型的方差进行二次压缩，并与其他模型合并得到最终的压缩模型库。2.根据权利要求1所述的参数化统计模型的结构化压缩和使用方法，其特征是所述A 步，基于汉语音节为单元的初始模型库创建过程分为下述五个步骤A.创建基于汉语音节的原始语音库；B.提取语音库中所有音节的增益、基音频率、声道谱参数。训练不考虑上下文语境的音节模型；C.根据所有音节的语境信息训练考虑上下文语境的音节模型，并使用基于决策树的方法对模型进行状态聚类；D.将聚类后的模型参数进行捆绑训练；E.返回步骤C重复步骤C、D，输出参数化统计模型。3.根据权利要求1所述的参数化统计模型的结构化压缩和使用方法，其特征是所述B 步，声道谱系数模型的结构化压缩过程分为下述六个步骤A.计算声道谱模型每个状态决策树的叶节点数目和总的叶节点数目，根据压缩目标码本规模得到压缩比和每棵决策树的目标码本数目；B.将第一棵状态决策树作为待压缩决策树；C.所有同父叶节点状态分布的均值矢量(包含静态特征、一阶动态特征和二阶动态特征)的距离，找到距离最近的两个同父叶节点，其父节点为待合并节点；D.计算待合并节点的两个子节点的状态均值和方差矢量的平均值，作为合并后新的叶节点的状态均值和方差矢量。将原来两个子节点从叶节点列表中删除，插入新的叶节点；E.更新决策树结构，判断叶节点数目是否等于目标码本数目。如果是，则一颗决策树压缩完毕；如果否，则返回步骤C重复步骤C、D ；F.判断是否所有状态决策树压...

【专利技术属性】
技术研发人员：那兴宇，谢湘，何娅玲，何宇新，
申请(专利权)人：北京宇音天下科技有限公司，
类型：发明
国别省市：11

全部详细技术资料下载我是这个专利的主人