定量的F0轮廓生成装置及方法、以及用于生成F0轮廓的模型学习装置及方法制造方法及图纸

技术编号:13145151 阅读:57 留言:0更新日期:2016-04-07 05:07
本发明专利技术提供一种基于统计模型的F0轮廓的合成装置,能够在确保精度的同时使语言学信息与F0轮廓的对应变得明确。HMM学习装置包括:参数估计部,其将与连续F0轮廓(132)拟合的F0轮廓(133)作为短语成分与音调成分之和来表征,并估计这些成分的目标点;和HMM学习单元,其将拟合后的F0轮廓作为学习数据来进行HMM(139)的学习。也可以将连续F0轮廓(132)分离为音调成分(134)、短语成分(136)及微韵律成分(138)来进行单独的HMM(140、142、144)的HMM学习。利用文本解析的结果,单独地根据HMM(140、142、144)来生成音调成分、短语成分及微韵律成分,并进行合成来获得F0轮廓。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及声音合成技术,特别是涉及声音合成时的基频轮廓(fundamental frequency contours)的合成技术。
技术介绍
声音的基频的时间变化轮廓(以下称为"F0轮廓")有助于使句子的划分明确、表现 音调(accent)位置、或者区分单词。F0轮廓还在传递伴随于发声的感情等非语言的信息方 面发挥着很大作用。进而,F0轮廓对于发声的自然度也会产生较大影响。特别是,为了使发 声中的焦点所在的位置明了,从而使句子的构造明确,需要使句子以适当的语调来发声。若 F0轮廓不适当,则有损于合成声音的可理解性。因此,在声音合成中,如何合成期望的F0轮 廓成为大的问题。 作为F0轮廓的合成方法,存在后述的非专利文献1中公开的被称为藤崎模型的方 法。 藤崎模型是通过少量的参数来定量地描述F0轮廓的F0轮廓生成过程模型。参照图 1,该F0轮廓生成过程模型30是将F0轮廓作为短语成分、音调成分与基底成分F b之和来表现 的模型。 所谓短语成分是指在发声之中按照下述方式变化的成分,即,该成分具有在一个 短语开始之后立即上升到顶峰,然后直至短语结束为止缓慢下降。所谓音调成分是指由与 词对应的局部凹凸来表征的成分。 参照图1的左侧,在藤崎模型中,由短语控制机构42针对在短语的起始处产生的脉 冲型的短语指令40的响应来表征短语成分。另一方面,音调成分同样由音调控制机构46针 对台阶状的音调指令44的响应来表征。通过利用加法器48将这些短语成分、音调成分与基 底成分F b的对数l〇geFb进行加法运算,从而可获得F0轮廓50的对数表现l〇g eF0(t)。 在该模型中,音调成分及短语成分、与发声的语言学信息及副语言学信息之间的 对应关系是明确的。另外,还具有仅通过改变模型参数就能容易地确定句子的焦点的特征。 然而,在该模型中,存在难以决定适当的参数的问题。在最近的声音技术中,随着 计算机的发展,根据大量收集到的声音数据来构筑模型的方法成为主流。在藤崎模型中,难 以根据在声音语料库中观测到的轮廓来自动获得模型参数。 另一方面,作为根据大量收集到的声音数据来构筑模型的方法的典型方法,有如 后述的非专利文献2所记载的根据在声音语料库中观测到的F0轮廓来构筑HMM(Hidden Marcov Model:隐马尔可夫模型)的方法。该方法由于能够从声音语料库获得各种各样的发 声语境中的F0轮廓来进行模型化,因此在实现合成声音的自然度及信息传递功能上是极为 重要的。 参照图2,按照该方法的现有的声音合成系统70包括:模型学习部80,其根据声音 语料库进行轮廓合成用的HMM模型的学习;和声音合成部82,其按照利用通过学习获得的 HMM而得到的F0轮廓,对与所输入的文本对应的合成声音信号118进行合成。模型学习部80包括:声音语料库存储装置90,其存储标注了音素的语境标签的声 音语料库;F0提取部92,其根据声音语料库存储装置90所存储的声音语料库内的各发声的 声音信号来提取F0;频谱参数提取部94,其同样根据各发声来提取梅尔倒谱(me 1-cepstrum)参数来作为频谱参数;和HMM学习部96,其利用由R)提取部92提取出的F0轮廓、从 声音语料库存储装置90获得的与F0轮廓对应的发声中的各音素的标签、及从频谱参数提取 部94赋予的梅尔倒谱参数,生成各帧的特征向量,若被赋予了由成为生成对象的音素的语 境标签构成的标签串,则进行HMM的统计性学习,以输出在该帧中各F0频率与梅尔倒谱参数 的组被输出的概率。在此,所谓语境标签是声音合成用的控制符号,是对该音素赋予了该音 素环境等各种各样的语言信息(context)的标签。 声音合成部82包括:HMM存储装置110,其存储进行了由HMM学习部96执行的学习的 HMM的参数;文本解析部112,其若被赋予了成为声音合成的对象的文本,则对该文本进行文 本解析,进行发声中的单词及其音素的确定、音调的决定、停顿的插入位置的决定、以及句 子的种类的决定等,输出表征发声的标签串;参数生成部114,其若从文本解析部112接受了 标签串,则比对HMM存储装置110中存储的HMM和该标签串,作为发声原来的文本时的F0轮廓 及梅尔倒谱串的组合而生成并输出概率最高的组合;和声音合成器116,其按照从参数生成 部114赋予的F0轮廓,合成由从参数生成部114赋予的梅尔倒谱参数表征的声音,并作为合 成声音信号118来输出。 根据该声音合成系统70,可获得能够基于大量的声音数据而在广泛的语境下输出 丰富多彩的轮廓的效果。在先技术文献 非专利文献 非专利文献1 : Fu ji saki,Η ·,and Hirose,K · (1984),"Analysis of voice fundamental frequency contours for declarative sentences of Japanese,', J.Acoust.Soc.Jpn.,5,233_242. 非专利文献2:Tokuda,K.,Masuko,T.,Miyazaki,N.,and Kobayashi,T. (1999)," Hidden Markov models based on multi-space probability distribution for pitch pattern modeling/^roc.of ICASSP1999?229-232. 非专利文献3:Ni,J.and Nakamura,S. (2007),"Use of Poisson processes to generate fundamental frequency contours',,Proc · of ICASSP2007 ?825-828. 非专利文献4:Ni,J,Shiga,Y,Kawai,H.,and Kashioka,H. (2012) /'Resonance-based spectral deformation in HMM-based speech synthesis,',Proc·of ISCSLP2012, 88-92.
技术实现思路
专利技术所要解决的课题 在实际的发声中,在音素的边界等处,随着发声方法的变化等而声音的音调会产 生微细的变动。将此称为微韵律(micro-prosody)。特别是在有声/无声区间的边界等处F0 会急剧变化。关于这样的变化,通过对声音进行处理而能够观测到,但在听觉上没什么意 义。在上述利用了 HMM的声音合成系统70(参照图2)的情况下,受到这样的微韵律的影响而 存在F0轮廓的误差变大的问题。另外,还存在追随在比较长的区间内的F0的变化轮廓的能 力低的问题。除了这些问题之外,进一步还存在被合成的F0轮廓与语言学信息之间的关系 不清楚、及难以设定句子的焦点(不依赖于上下文的的变动)的问题。因此,本专利技术的目的在于提供一种F0轮廓的合成装置及方法,在根据统计模型来 生成轮廓时,能够在确保精度的同时使语言学信息与F0轮廓的对应变得明确。本专利技术的另一目的在于提供一种装置及方法,在根据统计模型来生成F0轮廓时, 能够在确保精度的同时使语言学信息与F0轮廓的对应变得明确,而且能够容易地设定句子 的本文档来自技高网
...

【技术保护点】
一种定量的基频F0轮廓生成装置,其中,包括:针对通过文本解析而获得的发声的韵律词,利用所赋予的数量的目标点来生成基频F0轮廓的音调成分的单元;按照包含发声的构造的语言信息,将发声分为包含一个以上的韵律词的小组,从而利用被限定的数量的目标点来生成基频F0轮廓的短语成分的单元;和基于所述音调成分和所述短语成分来生成基频F0轮廓的单元。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:倪晋富志贺芳则
申请(专利权)人:国立研究开发法人情报通信研究机构
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1