一种用于嵌入式语音合成系统的音库结构压缩及使用方法技术方案

技术编号:6594750 阅读:373 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种用于嵌入式语音合成系统的音库结构压缩及使用方法,用于嵌入式系统,将接收到的任意文字转换成语音输出。以汉语中的音节作为合成系统及语音模型库的基本单元;首先创建基于音节的原始语音模型库,然后对所述原始语音模型库进行结构化的压缩,得到最终的压缩模型库。依据本发明专利技术提供的方法可以降低合成系统在嵌入式平台下所占用的空间资源,并提高合成速度,同时使合成语音保持良好的自然度和音质。

【技术实现步骤摘要】

本专利技术总的来说涉及一种用于嵌入式语音合成系统的结构化音库压缩及使用方法,尤其是存储和运算资源有限的终端设备。
技术介绍
语音合成技术的目的是让机器还原自然的人类语音,嵌入式设备应用广泛,终端类嵌入式设备与用户交互频繁,而语音是最自然的交互手段。一般的语音合成系统可分为三个主要的功能模块文本分析模块、韵律生成模块和声学合成模块。基于大规模语料库的拼接合成方法由于技术简单,合成音质高被广泛采用。但是,这种方法的音库规模大,虽然通过聚类、编码和压缩等技术手段处理后,空间可以降低,但音质受到损伤,且灵活度下降。 因此,近年来基于大规模语料库的统计建模参数合成方法被广泛研究,基本思想是,对大量的原始语音库进行参数化表示和统计建模,合成时依照特定规则挑选模型构成模型序列, 进一步计算得到合成语句的参数序列,通过参数化合成的方法合成符合要求的语音。通过参数化统计建模方法合成的语音具有较高的自然度和智能度。在这种方法中,为保证合成效果,原始语音库需要尽可能覆盖韵律特征,得到的模型库可达到数百兆字节。经过模型聚类,可将模型库压缩至十兆左右。这种规模对一些掌上电脑等中高端设备的存储和计算能力来说可以满足,但对于运算和存储资源有限的终端设备来说仍无法满足实用的要求。在参数化统计建模语音库的训练过程中,常采用的语音特征参数为基音频率、声道谱系数和时长特征,参数化模型为隐半马尔科夫模型(HSMM)。根据HSMM的状态跳转特性,每种特征的模型包括各个状态的决策树和表示决策树叶节点的概率分布函数。目前常采用的概率密度函数表示方法为单高斯模型。最终得到的模型中,频谱系数的模型占最终模型大小的80% 90%的空间,是最需要压缩的部分。目前已有的减小频谱参数模型规模的方法采用降低数值精度、控制聚类因子和捆绑方差等方式。在采用音节作为合成系统基本单元的前提下,控制训练数据量至合成语音听感可接受的最小值时,基于上述方法得到的模型库至少也需要1兆字节的存储空间。并且,若对聚类进行更严格的控制,则合成语音的自然度和音质都会显著下降。上述系统对资源有限的设备来说仍然开销较大,难以满足用户的需求。因此,需要一种改进的方法,用于在嵌入式平台下实现占用资源较小的参数化语音合成系统。
技术实现思路
本专利技术所要解决的技术问题是提供一种应用于嵌入式中文语音合成系统的结构化音库压缩和使用方法。它使语音模型库占用极小的空间资源,提高运算速度,同时保持了较好的合成自然度和音质。为实现上述目的,本文提供了一种参数化统计模型的结构化压缩和使用方法,用于减小模型库占用的空间并维持合成的音质。原始模型库的训练和合成过程采用汉语中的音节作为基本单元;模型库的压缩过程分为下述三个步骤A.使用训练语音的增益、基频和声道谱系数特征参数创建基于汉语音节的初始模型库;B.根据初始模型中声道谱系数模型各个状态的上下文决策树叶节点的分布情况, 进行码本分配和结构化压缩;C.对声道谱系数模型的方差进行二次压缩,并与其他模型合并得到最终的压缩模型库。上述的参数化统计模型的压缩和使用方法,其特征是所述基于汉语音节为单元的初始模型库创建过程分为下述五个步骤A.创建基于汉语音节的原始语音库;B.提取语音库中所有音节的增益、基音频率、声道谱参数。训练不考虑上下文语境的音节模型;C.根据所有音节的语境信息训练考虑上下文语境的音节模型,并使用基于决策树的方法对模型进行状态聚类;D.将聚类后的模型参数进行捆绑训练;E.返回步骤C重复步骤C、D,输出参数化统计模型。上述的参数化统计模型的结构化压缩和使用方法,其特征是所述声道谱系数模型的结构化压缩过程分为下述六个步骤A.计算声道谱模型每个状态决策树的叶节点数目和总的叶节点数目,根据压缩目标码本规模得到压缩比和每棵决策树的目标码本数目;B.将第一棵状态决策树作为待压缩决策树;C.所有同父叶节点状态分布的均值矢量(包含静态特征、一阶动态特征和二阶动态特征)的距离,找到距离最近的两个同父叶节点,其父节点为待合并节点;D.计算待合并节点的两个子节点的状态均值和方差矢量的平均值,作为合并后新的叶节点的状态均值和方差矢量。将原来两个子节点从叶节点列表中删除,插入新的叶节点。E.更新决策树结构,判断叶节点数目是否等于目标码本数目。如果是,则一颗决策树压缩完毕;如果否,则返回步骤C重复步骤C、D ;F.判断是否所有状态决策树压缩完成。如果是,声道谱系数模型的结构化压缩过程结束;如果否,则将下一状态决策树作为待压缩决策树,返回步骤C重复步骤C、D、E。上述的参数化统计模型的结构化压缩和使用方法,其特征是所述声道谱系数模型二次压缩及合并过程分为以下两个步骤A.将压缩后所有状态分布的方差矢量(包含静态特征、一阶动态特征和二阶动态特征)进行平均,得到全局方差矢量;B.将压缩后的叶节点序号作为均值矢量码本索引代替,最后存入全局方差值。其他模型按照需要依次存放。上述方法可大幅度压缩采用音节作为基元的声道谱系数模型,同时保持了原模型合成的音质和自然度。为更好的满足嵌入式设备运算速度的要求,本专利技术还提供了一种嵌入式语音合成系统。包括下述四个步骤A.文本分析及韵律生成模块,用于对合成文本进行内容分析,得到对应的音节序列,同时每个音节附着相关的以上下文语境标识的韵律信息,其格式与模型训练时使用的标识相同;B.模型决策模块,用于接收上述附着韵律信息的音节序列,利用训练得到的模型决策树生成相应的模型状态序列,并得到时长决策结果;C.参数序列生成模块,用于接收上述模型状态序列,利用所述的压缩频谱模型计算全局方差加窗矩阵,最后计算得到增益序列、声道谱参数序列和基频参数序列;D.语音波形合成输出模块,用于接收所述的参数序列,生成所要合成的语音波形数据,并输出播放或存储。上述的嵌入式语音合成系统,其特征是所述参数序列生成模块分为以下5个步骤A.根据增益的状态序列计算得到增益序列,根据声道谱系数的状态序列计算得到频谱系数序列,根据基音频率的状态序列计算得到基音频率序列;B.根据全局方差计算全局方差矩阵。在参数生成过程中,采用逐维生成的方式计算所需要合成的特征参数,每次计算取一维的均值或方差;C.根据接收的模型状态序列对应的状态声道谱均值码本序列,获取一维声道谱均值码本序列;D.根据接收的全局方差矩阵和状态声道谱均值码本序列求解一维声道谱特征参数序列;E.判断是否处理完全部声道谱系数。如果是,则声道谱系数求解结束;如果否,则返回步骤C重复步骤C、D。依照上述方法建立的嵌入式语音合成系统,完全可以在所述嵌入式系统下应用, 且其所占用的空间资源和需要的计算复杂度均不超过嵌入式设备所具备的能力。下面结合附图和实施例对本专利技术进一步说明,通过结合附图对系统各组成部件的详细说明将会更好地描述实现本专利技术的步骤和过程。附图说明附图1基于汉语音节的嵌入式语音合成系统的结构框图附图2声道谱系数模型结构化压缩过程示意图 附图3模型二次压缩过程示意图附图4声道谱参数生成过程示意中1.文本输入,2.文本分析及韵律生成,3.模型决策,4.参数生成,5.波形合成,6.语音输出,7.训练语音库,8. HMM模型训练,9.模型结构化压缩,10.模型二次压缩, 11.模拟训练部分,12.压缩模型库,102.语音合成系统,103.文本文档来自技高网
...

【技术保护点】
1.一种用于嵌入式语音合成系统的参数化统计模型的结构化压缩和使用方法,用于减小模型库占用的空间并维持合成的音质。原始模型库的训练和合成过程采用汉语中的音节作为基本单元;模型库的压缩过程分为下述三个步骤:A.使用训练语音的增益、基频和声道谱系数特征参数创建基于汉语音节的初始模型库;B.根据初始模型中声道谱系数模型各个状态的上下文决策树叶节点的分布情况,进行码本分配和结构化压缩;C.对声道谱系数模型的方差进行二次压缩,并与其他模型合并得到最终的压缩模型库。

【技术特征摘要】
1.一种用于嵌入式语音合成系统的参数化统计模型的结构化压缩和使用方法,用于减小模型库占用的空间并维持合成的音质。原始模型库的训练和合成过程采用汉语中的音节作为基本单元;模型库的压缩过程分为下述三个步骤A.使用训练语音的增益、基频和声道谱系数特征参数创建基于汉语音节的初始模型库;B.根据初始模型中声道谱系数模型各个状态的上下文决策树叶节点的分布情况,进行码本分配和结构化压缩;C.对声道谱系数模型的方差进行二次压缩,并与其他模型合并得到最终的压缩模型库。2.根据权利要求1所述的参数化统计模型的结构化压缩和使用方法,其特征是所述A 步,基于汉语音节为单元的初始模型库创建过程分为下述五个步骤A.创建基于汉语音节的原始语音库;B.提取语音库中所有音节的增益、基音频率、声道谱参数。训练不考虑上下文语境的音节模型;C.根据所有音节的语境信息训练考虑上下文语境的音节模型,并使用基于决策树的方法对模型进行状态聚类;D.将聚类后的模型参数进行捆绑训练;E.返回步骤C重复步骤C、D,输出参数化统计模型。3.根据权利要求1所述的参数化统计模型的结构化压缩和使用方法,其特征是所述B 步,声道谱系数模型的结构化压缩过程分为下述六个步骤A.计算声道谱模型每个状态决策树的叶节点数目和总的叶节点数目,根据压缩目标码本规模得到压缩比和每棵决策树的目标码本数目;B.将第一棵状态决策树作为待压缩决策树;C.所有同父叶节点状态分布的均值矢量(包含静态特征、一阶动态特征和二阶动态特征)的距离,找到距离最近的两个同父叶节点,其父节点为待合并节点;D.计算待合并节点的两个子节点的状态均值和方差矢量的平均值,作为合并后新的叶节点的状态均值和方差矢量。将原来两个子节点从叶节点列表中删除,插入新的叶节点;E.更新决策树结构,判断叶节点数目是否等于目标码本数目。如果是,则一颗决策树压缩完毕;如果否,则返回步骤C重复步骤C、D ;F.判断是否所有状态决策树压...

【专利技术属性】
技术研发人员:那兴宇谢湘何娅玲何宇新
申请(专利权)人:北京宇音天下科技有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1