一种基频建模方法及系统技术方案

技术编号：14290437 阅读：132 留言：0更新日期：2016-12-25 20:38

本发明专利技术公开了一种基频建模方法及系统，该方法包括：将韵律层从高到低依次划分为：短语层、单词层、音节层、音素层、状态层，所述短语层和所述单词层为较高韵律层，所述音节层、所述音素层和所述状态层为较低韵律层；确定所述音节层包含的声调信息对较高韵律层基频建模的影响；根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型，并且对于较高韵律层，在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响。利用本发明专利技术，能有效消除声调信息对较高韵律层建模的影响，进而能更自然地预测出基频特征。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音信号处理
，具体涉及一种基频建模方法及系统。
技术介绍
基频特征作为语音合成技术的重要特征之一，既包括了短时语音段的韵律信息，也包括了长时语音段的韵律信息(超音段的韵律信息)，如声调信息。如何能够更自然地预测出基频特征是语音合成效果的重要目标之一。目前普遍采取的基频建模方法为分层基频建模方法，即从韵律的产生机理以及log域基频特征产生的可加性出发进行建模，如式(1)和图1所示：F0all＝F0state+F0phone+F0syllable+F0word (1)对韵律层进行层次划分，从高到低依次划分为：单词层、音节层、音素层、状态层，如图1所示，其中每一层的基频特征都对应着不同的韵律变化。现有方案从韵律的产生机理出发，对受不同层次上下文属性影响的韵律变化进行有针对性的建模。然而，现有的分层基频建模方法并没有考虑更高层韵律单元的韵律变化，如短语层的韵律变化，导致合成语音的整个句子起伏感不强，听起来没有什么情感。此外，现有分层基频建模方法的建模顺序为自高向低逐层建模，并没有考虑声调语言的声调信息对较高韵律层建模效果的影响，导致传统的隐马尔可夫模型(Hidden Markov Model，HMM)建模方法不能很好地捕捉较高韵律层的基频特征，如单词层信息、短语层信息，使得较高韵律层基频特征建模效果大大下降。以上原因导致现有基频建模方法不能更自然地预测出基频特征。
技术实现思路
本专利技术实施例提供一种基频建模方法及系统，以解决现有的基频建模方法不能更自然地预测出基频特征的问题。为此，本专利技术实施例提供如下技术方案：一种基频建模方法，包...

【技术保护点】
一种基频建模方法，其特征在于，包括：将韵律层从高到低依次划分为：短语层、单词层、音节层、音素层、状态层，并确定各层韵律单元，所述短语层和所述单词层为较高韵律层，所述音节层、所述音素层和所述状态层为较低韵律层；确定所述音节层包含的声调信息对较高韵律层基频建模的影响；根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型，并且对于较高韵律层，在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响。

【技术特征摘要】
1.一种基频建模方法，其特征在于，包括：将韵律层从高到低依次划分为：短语层、单词层、音节层、音素层、状态层，并确定各层韵律单元，所述短语层和所述单词层为较高韵律层，所述音节层、所述音素层和所述状态层为较低韵律层；确定所述音节层包含的声调信息对较高韵律层基频建模的影响；根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型，并且对于较高韵律层，在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响。2.根据权利要求1所述的方法，其特征在于，所述确定所述音节层包含的声调信息对较高韵律层基频建模的影响包括：将自然基频以音节为单位进行划分，得到各音节单元对应的自然基频值；对所述自然基频值进行参数化，得到各音节单元对应的自然基频特征；根据所述自然基频特征获得各音节单元的预测基频值。3.根据权利要求2所述的方法，其特征在于，所述对所述自然基频值进行参数化包括：使用优化后的DCT变换对所述自然基频值进行参数化，所述优化后的DCT变换是指以生成基频特征与自然基频特征差的平方和作为目标函数的，对DCT变换系数进行估计；所述根据所述自然基频特征获得各音节单元预测基频值包括：根据各音节单元对应的上下文属性信息和所述自然基频特征，对各音节单元对应的自然基频特征进行基频建模；根据所述基频模型，将各音节单元所属模型均值作为所述音节单元的预测基频特征；对所述预测基频特征进行DCT反变换，得到各音节单元的预测基频值。4.根据权利要求1所述的方法，其特征在于，构建短语层基频模型包括：将所述音节单元对应的自然基频值减去所述音节单元的预测基频值，得到用于去除音节层影响后的短语层建模的自然残差基频值；将所述自然残差基频值以短语为单位进行划分，得到各短语单元对应的自然基频值；对所述自然基频值进行参数化，得到各短语单元对应的自然基频特征；利用所述各短语单元对应的自然基频特征构建短语层基频模型，得到各短语单元的预测基频特征。5.根据权利要求1所述的方法，其特征在于，构建单词层基频模型包括：将所述短语单元对应的自然基频值减去所述短语单元的预测基频值，得到用于单词层建模的自然残差基频值；将所述自然残差基频值以单词为单位进行划分，得到各单词单元对应的自然基频值；对所述自然基频值进行参数化，得到各单词单元对应的自然基频特征；利用所述各单词单元对应的自然基频特征构建单词层基频模型，得到各单词单元的预测基频特征。6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：使用DCT参数表征短语单元和单词单元对应的自然基频特征。7.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：基于DNN的方法对各韵律层的基频模型参数进行优化。8.一种基频建模系统，其特征在于，包括：韵律层划分模块，用于将韵律层从高到低依次划分为：短语层、单词层、音节层、音素层、状态...

【专利技术属性】
技术研发人员：殷翔，江源，王影，胡国平，胡郁，刘庆峰，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人