声音合成装置以及声音合成方法制造方法及图纸

技术编号:8981118 阅读:160 留言:0更新日期:2013-07-31 23:12
本发明专利技术提供声音合成装置及声音合成方法,得到保持语调的自然性、自然嗓音感高、片段之间的音色的连续性也高的合成声音。具备:片段辞典,存储了多个片段信息;语言信息一致度计算部,计算与输入语言信息和片段辞典的片段信息的语言信息的一致度对应的语言信息一致度;候补片段选择部,根据语言信息一致度选择片段信息作为候补片段信息;目标声音特征计算部,使用候补片段信息计算目标声音特征信息;声音特征成本计算部,计算与目标声音特征信息和候补片段信息的声音特征信息的距离对应的声音特征成本;片段决定部,根据声音特征成本从候补片段信息中决定片段信息;声音波形生成部,使用决定的片段信息的声音特征信息生成声音波形。

【技术实现步骤摘要】

本专利技术涉及合成声音的,例如,涉及使用积蓄了大量的片段的辞典,根据输入到计算机的文本文合成声音的。
技术介绍
以往,为了得到更优良的合成声音,考虑将大量的片段积蓄到辞典,并从其中选择更适合的片段的方法。在日本专利第2761552号公报(专利文献I)中,叙述了如下方法:根据对所输入的文本进行解析而生成的音素序列和韵律信息,从积蓄了大量的片段的辞典中读出音素的波形,并根据相应音素的韵律信息,对该音素的波形进行变形处理而得到输出声音波形。此时,在辞典中 ,在构成音素等输出声音波形的基础上,以适合的单位,存储了音素的波形、所发声的音素环境、基本频率图案形状、音素继续长度、振幅。施加以相应的音素为中心的音素数的窗来从音素序列中切出,并从辞典中检索接近该切出音素序列的音素的波形的候补,在未发现相应音素序列的情况下,从该音素序列的两侧依次删除该音素来进行上述检索。描述了:通过从在该过程中检索出的音素的波形的候补中选择与由基于呼气段落内莫勒(mora)数、重音型、发声速度等的规则决定的平均基本频率、基本频率的形状、时间长度、振幅等韵律信息相接近的音素的波形的候补,从而能够提供清楚性高、而且自然性也良好的声音。专利文献I日本专利第2761552号公报
技术实现思路
但是,在专利文献I中,除了以音素序列为基准以外,还以与由基于呼气段落内莫勒数、重音型、发声速度等的规则决定的平均基本频率、基本频率的形状、时间长度、振幅的近似度为基准而选择音素的波形,所以在辞典中积蓄的片段的数量不充分多的情况下,得不到接近期望的韵律信息的音素的波形。其结果,存在如下课题:使音素的波形大幅变形,所以成为自然嗓音感低的音质。另外,除了以音素序列为基准以外,还以与由基于呼气段落内莫勒数、重音型、发声速度等的规则决定的平均基本频率、基本频率的形状、时间长度、振幅的近似度为基准而选择音素的波形,所以在所选择的基准偏离了辞典中积蓄的片段的平均基本频率、基本频率的形状、时间长度、振幅的情况下,无法选择适合的片段。其结果,存在如下课题:使音素的波形大幅变形,所以成为自然嗓音感低的音质。另外,除了以音素序列为基准以外,还以与由基于呼气段落内莫勒数、重音型、发声速度等的规则决定的平均基本频率、基本频率的形状、时间长度、振幅的近似度为基准而选择音素的波形,所以存在如下课题:不易得到在原声音(制作音素的波形时的原来的声音)中连续的音素的波形,而在音素的波形之间产生不连续。本专利技术是为了解决上述问题而完成的,其目的在于提供一种,能够得到保持了语调的自然性,而且自然嗓音感高,且片段之间的音色的连续性也高的合成声音。本专利技术涉及的声音合成装置,具备:片段辞典,存储了多个片段信息,该片段信息包括至少包括音素的片段的语言信息和所述片段的声音特征信息;语言信息一致度计算部,计算与至少包括音素的输入语言信息和所述片段辞典中存储的片段信息的语言信息的一致度相对应的语言信息一致度;候补片段选择部,根据由所述语言信息一致度计算部计算出的语言信息一致度,从所述片段辞典选择片段信息作为候补片段信息;目标声音特征计算部,使用由所述候补片段选择部选择出的候补片段信息,计算表示目标声音的特征的目标声音特征信息;声音特征成本计算部,计算与由所述目标声音特征计算部计算出的目标声音特征信息和所述候补片段信息的声音特征信息的距离相对应的声音特征成本;片段决定部,根据由所述声音特征成本计算部计算出的声音特征成本,从所述候补片段信息中决定片段信息;以及声音波形生成部,使用由所述片段决定部决定的片段信息的声音特征信息,生成声音波形。本专利技术涉及的声音合成方法,具有:语言信息一致度计算步骤,参照存储了多个包括至少包括音素的片段的语言信息和所述片段的声音特征信息的片段信息的片段辞典,计算与至少包括音素的输入语言信息和所述片段辞典中存储的片段信息的语言信息的一致度相对应的语言信息一致度;候补片段选择步骤,根据在所述语言信息一致度计算步骤中计算出的语言信息一致度,从所述片段辞典选择片段信息作为候补片段信息;目标声音特征计算步骤,使用在所述候补片段选择步骤中选择出的候补片段信息,计算表示目标声音的特征的目标声音特征信息;声音特征成本计算步骤,计算与在所述目标声音特征计算步骤中计算出的目标声音特征信息和所述候补片段信息的声音特征信息的距离相对应的声音特征成本;片段决定步骤, 根据在所述声音特征成本计算步骤中计算出的声音特征成本,从所述候补片段信息中决定片段信息;以及声音波形生成步骤,使用在所述片段决定步骤中决定的片段信息的声音特征信息,生成声音波形。根据本专利技术的声音合成装置,具备:片段辞典,存储了多个包括至少包括音素的片段的语言信息和所述片段的声音特征信息的片段信息;语言信息一致度计算部,计算与至少包括音素的输入语言信息和所述片段辞典中存储的片段信息的语言信息的一致度相对应的语言信息一致度;候补片段选择部,根据由所述语言信息一致度计算部计算出的语言信息一致度,从所述片段辞典选择片段信息作为候补片段信息;目标声音特征计算部,使用由所述候补片段选择部选择出的候补片段信息,计算表示目标声音的特征的目标声音特征信息;声音特征成本计算部,计算与由所述目标声音特征计算部计算出的目标声音特征信息和所述候补片段信息的声音特征信息的距离相对应的声音特征成本;片段决定部,根据由所述声音特征成本计算部计算出的声音特征成本,从所述候补片段信息中决定片段信息;以及声音波形生成部,使用由所述片段决定部决定的片段信息的声音特征信息,生成声音波形,从而能够得到保持了语调的自然性、而且自然嗓音感高、且片段之间的音色的连续性也高的合成声音。根据本专利技术的声音合成方法,具有:语言信息一致度计算步骤,参照存储了多个包括至少包括音素的片段的语言信息和所述片段的声音特征信息的片段信息的片段辞典,计算与至少包括音素的输入语言信息和所述片段辞典中存储的片段信息的语言信息的一致度相对应的语言信息一致度;候补片段选择步骤,根据在所述语言信息一致度计算步骤中计算出的语言信息一致度,从所述片段辞典选择片段信息作为候补片段信息;目标声音特征计算步骤,使用在所述候补片段选择步骤中选择出的候补片段信息,计算表示目标声音的特征的目标声音特征信息;声音特征成本计算步骤,计算与在所述目标声音特征计算步骤中计算出的目标声音特征信息和所述候补片段信息的声音特征信息的距离相对应的声音特征成本;片段决定步骤,根据在所述声音特征成本计算步骤中计算出的声音特征成本,从所述候补片段信息中决定片段信息;以及声音波形生成步骤,使用在所述片段决定步骤中决定的片段信息的声音特征信息,生成声音波形,从而能够得到保持了语调的自然性、而且自然嗓音感高、且片段之间的音色的连续性也高的合成声音。附图说明图1是示出实施方式I的声音合成装置的结构的框图。图2是示出片段辞典8的一个例子的说明图。图3是示出输入语言信息101的一个例子的说明图。图4是示出语言信息一致度103的概要的说明图。(符号说明)1:语言信息一致度计算部;2:候补片段选择部;3:目标声音特征计算部;4:声音特征成本计算部;5:声音特征成本最小片段决定部;6:声音特征变形部;7:波形连接部;8:片段辞典;101:输入语言信息;102:片段信息;103:语本文档来自技高网...

【技术保护点】
一种声音合成装置,其特征在于,具备:片段辞典,存储了多个片段信息,该片段信息包括至少包括音素的片段的语言信息和所述片段的声音特征信息;语言信息一致度计算部,计算与至少包括音素的输入语言信息和所述片段辞典中存储的片段信息的语言信息的一致度相对应的语言信息一致度;候补片段选择部,根据由所述语言信息一致度计算部计算出的语言信息一致度,从所述片段辞典选择片段信息作为候补片段信息;目标声音特征计算部,使用由所述候补片段选择部选择出的候补片段信息,计算表示目标声音的特征的目标声音特征信息;声音特征成本计算部,计算与由所述目标声音特征计算部计算出的目标声音特征信息和所述候补片段信息的声音特征信息的距离相对应的声音特征成本;片段决定部,根据由所述声音特征成本计算部计算出的声音特征成本,从所述候补片段信息中决定片段信息;以及声音波形生成部,使用由所述片段决定部决定的片段信息的声音特征信息,生成声音波形。

【技术特征摘要】
2012.01.31 JP 2012-0176701.一种声音合成装置,其特征在于,具备: 片段辞典,存储了多个片段信息,该片段信息包括至少包括音素的片段的语言信息和所述片段的声音特征信息; 语言信息一致度计算部,计算与至少包括音素的输入语言信息和所述片段辞典中存储的片段息的语目Ih息的一致度相对应的语目息一致度; 候补片段选择部,根据由所述语言信息一致度计算部计算出的语言信息一致度,从所述片段辞典选择片段信息作为候补片段信息; 目标声音特征计算部,使用由所述候补片段选择部选择出的候补片段信息,计算表示目标声音的特征的目标声音特征信息; 声音特征成本计算部,计算与由所述目标声音特征计算部计算出的目标声音特征信息和所述候补片段信息的声音特征信息的距离相对应的声音特征成本; 片段决定部,根据由所述声音特征成本计算部计算出的声音特征成本,从所述候补片段信息中决定片段信息;以及 声音波形生成部,使用由所述片段决定部决定的片段信息的声音特征信息,生成声音波形。2.根据权利要求1所述的声音合成装置,其特征在于, 所述目标声音特征计算部使用由所述候补片段选择部选择出的候补片段信息和由所述语言信息一致度计算部计算出的语言信息一致度,计算所述目标声音特征信息。3.根据权利要求1所述的声音合成装置,其特征在于, 所述目标声音特征计算部使用由所述候补片段选择部选择出的候补片段信息和所述输入语言信息,计算所述目标声音特征信息。4.根据权利要求1所述的声音合成装置,其特征在于, 所述声音波形生成部具备声音特征变形部,该声音特征变形部使用所述目标声音特征信息,对由所述片段决定部决定的片段信息的声音特征信息进行变形。5.根据权利要求1所述的声音合成装置,其特征在于, 所述声音波形生成部将由所述片段决定部决定的多个片段信息的声音特征信息连接而生成...

【专利技术属性】
技术研发人员:大塚贵弘川岛启吾古田训山浦正
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1