一种基频建模方法及系统技术方案

技术编号:14290437 阅读:95 留言:0更新日期:2016-12-25 20:38
本发明专利技术公开了一种基频建模方法及系统,该方法包括:将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态层,所述短语层和所述单词层为较高韵律层,所述音节层、所述音素层和所述状态层为较低韵律层;确定所述音节层包含的声调信息对较高韵律层基频建模的影响;根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型,并且对于较高韵律层,在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响。利用本发明专利技术,能有效消除声调信息对较高韵律层建模的影响,进而能更自然地预测出基频特征。

【技术实现步骤摘要】

本专利技术涉及语音信号处理
,具体涉及一种基频建模方法及系统
技术介绍
基频特征作为语音合成技术的重要特征之一,既包括了短时语音段的韵律信息,也包括了长时语音段的韵律信息(超音段的韵律信息),如声调信息。如何能够更自然地预测出基频特征是语音合成效果的重要目标之一。目前普遍采取的基频建模方法为分层基频建模方法,即从韵律的产生机理以及log域基频特征产生的可加性出发进行建模,如式(1)和图1所示:F0all=F0state+F0phone+F0syllable+F0word (1)对韵律层进行层次划分,从高到低依次划分为:单词层、音节层、音素层、状态层,如图1所示,其中每一层的基频特征都对应着不同的韵律变化。现有方案从韵律的产生机理出发,对受不同层次上下文属性影响的韵律变化进行有针对性的建模。然而,现有的分层基频建模方法并没有考虑更高层韵律单元的韵律变化,如短语层的韵律变化,导致合成语音的整个句子起伏感不强,听起来没有什么情感。此外,现有分层基频建模方法的建模顺序为自高向低逐层建模,并没有考虑声调语言的声调信息对较高韵律层建模效果的影响,导致传统的隐马尔可夫模型(Hidden Markov Model,HMM)建模方法不能很好地捕捉较高韵律层的基频特征,如单词层信息、短语层信息,使得较高韵律层基频特征建模效果大大下降。以上原因导致现有基频建模方法不能更自然地预测出基频特征。
技术实现思路
本专利技术实施例提供一种基频建模方法及系统,以解决现有的基频建模方法不能更自然地预测出基频特征的问题。为此,本专利技术实施例提供如下技术方案:一种基频建模方法,包括:将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态层,并确定各层韵律单元,所述短语层和所述单词层为较高韵律层,所述音节层、所述音素层和所述状态层为较低韵律层;确定所述音节层包含的声调信息对较高韵律层基频建模的影响;根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型,并且对于较高韵律层,在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响。优选地,所述确定所述音节层包含的声调信息对较高韵律层基频建模的影响包括:将自然基频以音节为单位进行划分,得到各音节单元对应的自然基频值;对所述自然基频值进行参数化,得到各音节单元对应的自然基频特征;根据所述自然基频特征获得各音节单元的预测基频值。优选地,所述对所述自然基频值进行参数化包括:使用优化后的DCT变换对所述自然基频值进行参数化,所述优化后的DCT变换是指以生成基频特征与自然基频特征差的平方和作为目标函数的,对DCT变换系数进行估计;所述根据所述自然基频特征获得各音节单元预测基频值包括:根据各音节单元对应的上下文属性信息和所述自然基频特征,对各音节单元对应的自然基频特征进行基频建模;根据所述基频模型,将各音节单元所属模型均值作为所述音节单元的预测基频特征;对所述预测基频特征进行DCT反变换,得到各音节单元的预测基频值。优选地,构建短语层基频模型包括:将所述音节单元对应的自然基频值减去所述音节单元的预测基频值,得到用于去除音节层影响后的短语层建模的自然残差基频值;将所述自然残差基频值以短语为单位进行划分,得到各短语单元对应的自然基频值;对所述自然基频值进行参数化,得到各短语单元对应的自然基频特征;利用所述各短语单元对应的自然基频特征构建短语层基频模型,得到各短语单元的预测基频特征。优选地,构建单词层基频模型包括:将所述短语单元对应的自然基频值减去所述短语单元的预测基频值,得到用于单词层建模的自然残差基频值;将所述自然残差基频值以单词为单位进行划分,得到各单词单元对应的自然基频值;对所述自然基频值进行参数化,得到各单词单元对应的自然基频特征;利用所述各单词单元对应的自然基频特征构建单词层基频模型,得到各单词单元的预测基频特征。优选地,所述方法还包括:使用DCT参数表征短语单元和单词单元对应的自然基频特征。优选地,所述方法还包括:基于DNN的方法对各韵律层的基频模型参数进行优化。一种基频建模系统,包括:韵律层划分模块,用于将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态层,并确定各层韵律单元,所述短语层和所述单词层为较高韵律层,所述音节层、所述音素层和所述状态层为较低韵律层;影响确定模块,用于确定所述音节层包含的声调信息对较高韵律层基频建模的影响;建模模块,用于根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型,并且对于较高韵律层,在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响,所述建模模块包括:短语层建模模块,单词层建模模块,低层建模模块。优选地,所述影响确定模块包括:自然基频划分单元,用于将自然基频以音节为单位进行划分,得到各音节单元对应的自然基频值;参数化单元,用于对所述自然基频值进行参数化,得到各音节单元对应的
自然基频特征;预测基频值获取单元,用于根据所述自然基频特征获得各音节单元的预测基频值。优选地,所述参数化单元,具体用于使用优化后的DCT变换对所述自然基频值进行参数化,所述优化后的DCT变换是指以生成基频特征与自然基频特征差的平方和作为目标函数的,对DCT变换系数进行估计;所述预测基频值获取单元包括:基频建模子单元,用于根据各音节单元对应的上下文属性信息和所述自然基频特征,对各音节单元对应的自然基频特征进行基频建模;预测子单元,用于根据所述基频模型,将各音节单元所属模型均值作为所述音节单元的预测基频特征;DCT反变换子单元,用于对所述预测基频特征进行DCT反变换,得到各音节单元的预测基频值。优选地,所述短语层建模模块包括:短语层获取单元,用于将所述音节单元对应的自然基频值减去所述音节单元的预测基频值,得到用于去除音节层影响后的短语层建模的自然残差基频值;短语层划分单元,用于将所述自然残差基频值以短语为单位进行划分,得到各短语单元对应的自然基频值;短语层参数化单元,用于对所述自然基频值进行参数化,得到各短语单元对应的自然基频特征;短语层预测单元,用于利用所述各短语单元对应的自然基频特征构建短语层基频模型,得到各短语单元的预测基频特征。优选地,所述单词层建模模块包括:单词层获取单元,用于将所述短语单元对应的自然基频值减去所述短语单元的预测基频值,得到用于单词层建模的自然残差基频值;单词层划分单元,用于将所述自然残差基频值以单词为单位进行划分,得到各单词单元对应的自然基频值;单词层参数化单元,用于对所述自然基频值进行参数化,得到各单词单元
对应的自然基频特征;单词层预测单元,用于利用所述各单词单元对应的自然基频特征构建单词层基频模型,得到各单词单元的预测基频特征。优选地,所述系统还包括:模型参数优化模块,用于基于DNN的方法对各韵律层的基频模型参数进行优化。本专利技术实施例提供的基频建模方法及系统,通过将韵律层从高到低划分为包括短语层的各韵律层,增加对短语层基频特征的建模,从而可以增强合成语句的起伏感,并在对较高韵律层(短语层、单词层)的基频特征进行建模之前,去除了声调信息对较高韵律层基频建模的影响,提高了较高韵律层基频特征建模的效果。进一步地,对较高韵律层的基频特征采用优化后的DCT变换本文档来自技高网
...
一种基频建模方法及系统

【技术保护点】
一种基频建模方法,其特征在于,包括:将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态层,并确定各层韵律单元,所述短语层和所述单词层为较高韵律层,所述音节层、所述音素层和所述状态层为较低韵律层;确定所述音节层包含的声调信息对较高韵律层基频建模的影响;根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型,并且对于较高韵律层,在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响。

【技术特征摘要】
1.一种基频建模方法,其特征在于,包括:将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态层,并确定各层韵律单元,所述短语层和所述单词层为较高韵律层,所述音节层、所述音素层和所述状态层为较低韵律层;确定所述音节层包含的声调信息对较高韵律层基频建模的影响;根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型,并且对于较高韵律层,在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响。2.根据权利要求1所述的方法,其特征在于,所述确定所述音节层包含的声调信息对较高韵律层基频建模的影响包括:将自然基频以音节为单位进行划分,得到各音节单元对应的自然基频值;对所述自然基频值进行参数化,得到各音节单元对应的自然基频特征;根据所述自然基频特征获得各音节单元的预测基频值。3.根据权利要求2所述的方法,其特征在于,所述对所述自然基频值进行参数化包括:使用优化后的DCT变换对所述自然基频值进行参数化,所述优化后的DCT变换是指以生成基频特征与自然基频特征差的平方和作为目标函数的,对DCT变换系数进行估计;所述根据所述自然基频特征获得各音节单元预测基频值包括:根据各音节单元对应的上下文属性信息和所述自然基频特征,对各音节单元对应的自然基频特征进行基频建模;根据所述基频模型,将各音节单元所属模型均值作为所述音节单元的预测基频特征;对所述预测基频特征进行DCT反变换,得到各音节单元的预测基频值。4.根据权利要求1所述的方法,其特征在于,构建短语层基频模型包括:将所述音节单元对应的自然基频值减去所述音节单元的预测基频值,得到用于去除音节层影响后的短语层建模的自然残差基频值;将所述自然残差基频值以短语为单位进行划分,得到各短语单元对应的自然基频值;对所述自然基频值进行参数化,得到各短语单元对应的自然基频特征;利用所述各短语单元对应的自然基频特征构建短语层基频模型,得到各短语单元的预测基频特征。5.根据权利要求1所述的方法,其特征在于,构建单词层基频模型包括:将所述短语单元对应的自然基频值减去所述短语单元的预测基频值,得到用于单词层建模的自然残差基频值;将所述自然残差基频值以单词为单位进行划分,得到各单词单元对应的自然基频值;对所述自然基频值进行参数化,得到各单词单元对应的自然基频特征;利用所述各单词单元对应的自然基频特征构建单词层基频模型,得到各单词单元的预测基频特征。6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:使用DCT参数表征短语单元和单词单元对应的自然基频特征。7.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:基于DNN的方法对各韵律层的基频模型参数进行优化。8.一种基频建模系统,其特征在于,包括:韵律层划分模块,用于将韵律层从高到低依次划分为:短语层、单词层、音节层、音素层、状态...

【专利技术属性】
技术研发人员:殷翔江源王影胡国平胡郁刘庆峰
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1