语音合成装置和方法制造方法及图纸

技术编号:3045028 阅读:141 留言:0更新日期:2012-04-11 18:40
波形存储器存储多个语音单元波形。信息存储器对应地存储语音单元信息以及所述多个语音单元波形的每一个的地址。选择器通过参考所述语音单元信息,选择对应于所述输入音素序列的语音单元序列。语音单元波形获取单元通过参考所述地址,从所述波形存储器获取对应于所述语音单元序列的各个语音单元的语音单元波形。语音单元连接单元通过连接所述获取的语音单元波形来产生所述语音。所述语音单元波形获取单元在一次访问期间从波形存储器的连续区域获取与包含在所述语音单元序列中的至少两个语音单元相对应的至少两个语音单元波形。

【技术实现步骤摘要】

本专利技术涉及一种,其用于通过连接从诸如硬盘的大规模存储介质读取的语音单元数据来合成语音。
技术介绍
文本语音合成可以从任意句子(文本数据)人工产生语音信号。例如,在JP-A(公开)08-254993(第4页和图1)中公开了此技术。由三个要素构成用以实现这样的文本语音合成的语音合成装置,即,语言处理单元、韵律处理单元,以及语音合成单元。首先,在所述语言处理单元中,在语形学和句法上分析输入文本。接下来,在所述韵律处理单元中,处理经过分析的文本的重音和声调,并计算诸如音素序列、基频和音素片段持续时间的信息。最后,在所述语音合成单元中,通过基于(通过所述韵律处理单元计算得到的)基频和音素片段持续时间连接语音单元数据(特征参数和语音波形),来产生合成语音。在这种情况下,为作为语音连接单位的每个合成单位(例如,音素或音节)预先存储所述语音单元数据,以产生所述合成语音。作为合成高质量语音的方法,预先存储大量语音单元数据,通过所述输入文本的韵律/音素环境从所存储的语音单元数据中选择适当的语音单元数据,并且通过修改和连接所选出的语音单元数据来产生合成语音。在JP-A(公开)2001-282278(第3页和图2)中公开了此方法。在此方法中,预先定义用以估计(通过修改和连接语音单元所产生的)合成语音的质量失真度的代价函数。通过从大量语音单元中选择具有最小代价函数的多个语音单元,能够实现高质量的合成语音。在上述语音合成方法中,如果使用诸如RAM的昂贵的半导体存储器作为存储介质来存储大量的语音单元数据,成本会非常高。于是,常常使用诸如硬盘驱动器(HDD)的大容量存储介质。然而,在将语音单元数据存储于HDD的情况下,从HDD读取语音单元数据需要花很长的时间。于是,处理时间会变得很长,很难进行实时处理。为了解决此问题,将HDD上的语音单元数据的部分拷贝存放在另一个存储器中,在容易访问该存储器上的语音单元的条件下,从所述存储器选择多个语音单元。于是,可以减少访问HDD的次数,并减少处理时间。JP-A(公开)2005-266010中公开了此技术。通过设计所述代价函数来实现此语音单元选择,其中,通过惩罚对来自HDD的语音单元的选择使所述代价函数的值变大。在上述技术中,利用带惩罚的代价函数,使得难于选择HDD上的语音单元数据,并且减小了对HDD的访问次数。在这种情况下,即使HDD中存储了适于质量的语音单元,也常常选择存储在存储器中的另一个语音单元。于是,相比没有惩罚的代价函数,语音质量下降。此外,用以存储所述语音单元数据的部分拷贝的存储器是必需的,并且增加了硬件成本。
技术实现思路
本专利技术致力于一种,其用以减小对大容量存储器的访问次数,并且不会降低语音质量,也无需准备另一个存储器。根据本专利技术一个方面,提供了一种合成输入音素序列语音的装置,其包括波形存储器,其被配置为存储多个语音单元波形;信息存储器,其被配置为对应地存储语音单元信息以及在所述波形存储器中存储的所述多个语音单元波形的每一个的地址;语音单元选择单元,其被配置为通过参考在所述信息存储器中存储的所述语音单元信息,选择对应于所述输入音素序列的语音单元序列;获取单元,其被配置为通过参考在所述信息存储器中存储的所述地址,从所述波形存储器获取对应于所述语音单元序列的各个语音单元的语音单元波形;以及语音单元连接单元,其被配置为通过连接由所述获取单元获取的所述语音单元波形来产生所述语音;其中,所述语音单元波形获取单元在一次访问期间从所述波形存储器的连续区域获取与包含在所述语音单元序列中的至少两个语音单元相对应的至少两个语音单元波形。根据本专利技术另一个方面,提供了一种合成输入音素序列的语音的方法,其包括在第一存储器中存储多个语音单元波形;在第二存储器中对应地存储语音单元信息以及所述多个语音单元波形的每一个的地址;通过参考在所述第二存储器中存储的所述语音单元信息,选择对应于所述输入音素序列的语音单元序列;通过参考在所述第二存储器中存储的所述地址,从所述第一存储器获取与所述语音单元序列的各个语音单元相对应的语音单元波形;以及通过连接所获取的所述语音单元波形来产生所述语音;其中,所述获取步骤包括在一次访问期间,从所述第一存储器的连续区域获取与包含在所述语音单元序列中的至少两个语音单元相对应的至少两个语音单元波形。附图说明图1是根据第一实施例的语音合成装置的框图;图2是根据第一实施例的语音合成装置的处理的流程图;图3是输入文本的音素序列的一个例子的示意图;图4是各个音素的基频和音素片段持续时间的一个例子的示意图;图5是作为音素的合成单位的一个例子的示意图;图6是输入文本、音素序列以及所选择的语音单元序列的一个例子的示意图;图7是语音单元信息104c的一个例子的示意图;图8是对应于图7的语音单元信息的语音单元波形的一个例子的示意图;图9是为各音素提取的语音单元波形的一个例子的示意图;图10A和10B是用以解释基频代价、音素片段持续时间代价以及频谱连接代价的例子的示意图;图11是图1中的语音单元连接单元104d的处理的流程图;图12是图11中的S304的处理的流程图;图13是读出的语音单元波形的一个例子的示意图;图14A和14B是用以解释图11中的S307的合成语音的生成方法的示意图;图15是语音单元波形的地址顺序的优化处理的流程图。具体实施例方式此后,通过参考附图解释本专利技术的各种实施例。本专利技术不限于如下实施例。(第一实施例)图1是根据第一实施例的语音合成装置的框图。所述语音合成装置包括文本输入单元101,语言处理单元102,韵律处理单元103,语音合成单元104,以及合成语音输出单元105。文本输入单元101输入文本。语言处理单元102在语形学和句法上分析所述文本。韵律处理单元103从语言处理单元102的分析结果获取所述文本的音素序列和目标单元环境。语音合成单元104基于所述音素序列和目标单元环境从(预先存储的)大量语音单元中为各合成单位选择多个语音单元,并通过连接所述多个语音单元来产生合成语音。合成语音输出单元105输出由语音合成单元104产生的合成语音。此外,语音合成单元104包括语音单元波形语料库(存储器)104a,语音单元选择单元104b,语音单元信息语料库(存储器)104c,以及语音单元连接单元104d。语音单元波形语料库104a存储多个语音单元波形,其各自对应于语音单元。语音单元信息语料库104c存储语音单元信息,其各自对应于存储在语音单元波形语料库104a中的语音单元(波形)。语音单元选择单元104b通过参考语音单元信息,计算(通过连接语音单元产生的)合成语音的失真,并基于所述失真为各个合成单位(片段)选择多个语音单元。语音单元连接单元104d读取多个语音单元波形,其各自对应于由语音单元选择单元104b选出的语音单元,并通过修改和连接所述语音单元波形来产生合成语音。接下来,通过参考图1和2来解释语音合成装置的操作。图2是根据第一实施例的语音合成装置的处理的流程图。首先,由用户向文本输入单元101输入用以产生合成语音的文本(S101)。例如,所述用户可利用键盘输入所述文本。如果在存储区域(图1中未示出)存储文本数据文件,所述用户可以选择性地指示该文件。向语言处理单元102发送输入到文本文档来自技高网
...

【技术保护点】
一种合成输入音素序列的语音的装置,包括:波形存储器,其被配置为存储多个语音单元波形;信息存储器,其被配置为对应地存储语音单元信息以及在所述波形存储器中存储的所述多个语音单元波形的每一个的地址;选择器,其被配置为通过参考在所述信息存储器中存储的所述语音单元信息,选择对应于所述输入音素序列的语音单元序列;获取单元,其被配置为通过参考在所述信息存储器中存储的所述地址,从所述波形存储器获取对应于各个语音单元的语音单元波形;以及连接单元,其被配置为通过连接由所述获取单元获取的所述语音单元波形来产生所述语音;其中,所述获取单元在一次访问期间从所述波形存储器的连续区域获取与包含在所述语音单元序列中的至少两个语音单元相对应的至少两个语音单元波形。

【技术特征摘要】
JP 2006-5-18 139587/20061.一种合成输入音素序列的语音的装置,包括波形存储器,其被配置为存储多个语音单元波形;信息存储器,其被配置为对应地存储语音单元信息以及在所述波形存储器中存储的所述多个语音单元波形的每一个的地址;选择器,其被配置为通过参考在所述信息存储器中存储的所述语音单元信息,选择对应于所述输入音素序列的语音单元序列;获取单元,其被配置为通过参考在所述信息存储器中存储的所述地址,从所述波形存储器获取对应于各个语音单元的语音单元波形;以及连接单元,其被配置为通过连接由所述获取单元获取的所述语音单元波形来产生所述语音;其中,所述获取单元在一次访问期间从所述波形存储器的连续区域获取与包含在所述语音单元序列中的至少两个语音单元相对应的至少两个语音单元波形。2.根据权利要求1所述的装置,其中,所述信息存储器对应地存储语音单元名称、作为所述语音单元波形的头位置的所述地址,以及所述语音单元波形的数据大小。3.根据权利要求1所述的装置,其中,当所述连续区域的数据大小低于预定大小时,所述获取单元在一次访问期间从该连续区域获取所述至少两个语音单元波形。4.根据权利要求1所述的装置,其中,当在所述连续区域中包含的语音单元波形的数目低于预定数时,所述获取单元在一次访问期间从该连续区域获取所述至少两个语音单元波形。5.根据权利要求1所述的装置,其中,当包含所述至少两个语音单元的连续语音单元序列的语音单元的数目低于预定数时,所述获取单元在一次访问期间从该连续区域获取所述至少两个语音单元波形。6.根据权利要求1所述的装置,其中,当所述至少两个语音单元波形被相邻地存储在所述连续区域中时,所述获取单元在一次访问期间从该连续区域获取所述至少两个语音单元波形。7.根据权利要求1所述的装置,其中,所述波形存储器在不同的地址存储多个相同的语音单元波形。8.根据权利要求1所述的装置,其中,所述输入音素序列是训练数据,以及其中,所述获取单元对在所述语音单元序列中连续出现的两个语音单元的组合的频率进行计算,以所述频率更高的顺序来选择两个语音单元的所述组合,并且将对应于该组合的两个语音单元波形相邻地存储在所述波形存储器中。9.根据权利要求8所述的装置,其中,如果对应于所述组合的一个语音单元的语音单元波形是所述相邻存储的两个语音单元波形之一,所述获取单元将对应于所述组合的另一个语音单元的语音单元波形与相邻地存储在所述波形存储器中的所述两个语音单元波形的所述一个相连接。...

【专利技术属性】
技术研发人员:笼岛岳彦
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1