声音合成装置制造方法及图纸

技术编号:11182701 阅读:53 留言:0更新日期:2015-03-25 11:56
得到能够制作高质量的合成声音的声音合成装置。候补声音片段系列制作部(1)针对输入语言信息系列(101),使用声音片段数据库(4)的DB声音片段(105)来制作候补声音片段系列(102)。输出声音片段系列决定部(2)使用表示与输入语言信息系列(101)、和表示候补声音片段系列(102)中的多个候补声音片段各自的属性的声音参数的共生条件(106)对应的值的参数(107),来计算候补声音片段系列(102)适合于输入语言信息系列(101)的程度,根据适合的程度,决定输出声音片段系列(103)。

【技术实现步骤摘要】

本专利技术涉及与输入语言信息的时间系列对应地从声音片段合成声音来生成合成声音的声音合成装置
技术介绍
在基于大容量的声音数据库的声音合成方式中,提出了通过代替组合了根据预期的知识决定的物理性的参数的尺度,而将基于在声音识别等中使用的HMM(Hidden Markov Model,隐马尔可夫模型)的统计性的似然度用作尺度,从而一并具有基于依照HMM的合成方式的概率尺度的合理性和声音质量的均匀性的优点、和基于大容量的声音数据库的声音合成方式的高质量这样的优点的、以实现高质量并且均质的合成声音为目的的声音合成方法(参照例如专利文献1)。在专利文献1中,使用表示按照音韵输出每个状态迁移的音响参数(线性预测系数、倒谱等)系列的概率的音响模型、和表示按照韵律输出每个状态迁移的韵律参数(基本频率等)系列的概率的韵律模型,通过与构成针对输入文本的音韵系列的各音韵对应的每个状态迁移的音响参数系列的音响上的似然度、和与构成针对输入文本的韵律系列的各韵律对应的每个状态迁移的韵律参数系列的韵律上的似然度,计算声音片段成本,选择声音片段。【专利文献1】日本特开2004-233774号公报
技术实现思路
但是,在上述那样的以往的声音合成方法中,对于声音片段的选择,难以决定如何决定按照音韵,得不到恰当的按照音韵的音响模型,存在无法恰当地求出输出音响参数系列的概率这样的问题。另外,关于韵律,也同样地,难以决定如何决定按照韵律,得不到恰当的按照韵律的韵律模型,存在无法恰当地求出输出韵律参数系列的概率的问题。另外,在以往的声音合成方法中,通过按照音韵的音响模型,计算音响参数系列的概率,所以按照音韵的音响模型不成为适合于依赖于韵律参数系列的音响参数系列的模型,存在无法恰当地输出音响参数系列的概率这样的问题。另外,关于韵律,也同样地,通过按照韵律的韵律模型,计算韵律参数系列的概率,所以按照韵律的韵律模型不成为适合于依赖于音响参数系列的韵律参数系列的韵律模型,存在无法恰当地求出输出韵律参数系列的概率这样的问题。另外,在以往的声音合成方法中,使用设定与输入文本对应的音韵系列(每个音韵的功率、音韵长、基本频率),按照音韵输出每个状态迁移的音响参数系列的音响模型存储单元的内容记载于专利文献1中,但在使用了这样的单元的情况下,存在如果音韵系列的设定的精度低,则无法选择恰当的音响模型这样的问题。另外,还存在需要音韵系列的设定,动作变得繁杂的问题。另外,在以往的声音合成方法中,预先根据输出音响参数系列、韵律参数系列等声音参数系列的概率,计算声音片段成本,不成为考虑了声音参数的听觉上的重要性的声音片段成本,存在所得到的声音片段听觉上成为不自然这样的问题。本专利技术是为了解决上述那样的课题而完成的,其目的在于得到一种能够制作高质量的合成声音的声音合成装置。本专利技术提供一种声音合成装置,其特征在于,具备:候补声音片段系列制作部,针对作为所输入的声音单位的时间系列的输入语言信息系列,参照积蓄声音片段的时间系列的声音片段数据库来制作候补声音片段系列;输出声音片段决定部,使用表示与输入语言信息系列、和表示候补声音片段系列中的多个候补声音片段各自的属性的声音参数的共生条件对应的值的参数,来计算候补声音片段系列适合于输入语言信息系列的程度,根据适合的程度,决定输出声音片段系列;以及波形片段连接部,连接与输出声音片段系列对应的声音片段来制作声音波形。本专利技术的声音合成装置使用表示与输入语言信息系列、和表示候补声音片段系列中的多个候补声音片段各自的属性的声音参数的共生条件对应的值的参数,计算候补声音片段系列适合于输入语言信息系列的程度,根据适合的程度,决定输出声音片段系列,所以能够制作高质量的合成声音。附图说明图1是示出本专利技术的实施方式1~5的声音合成装置的结构图。图2是示出本专利技术的实施方式1~5的声音合成装置的输入语言信息系列的说明图。图3是示出本专利技术的实施方式1~5的声音合成装置的声音片段数据库的说明图。图4是示出本专利技术的实施方式1~5的声音合成装置的参数辞典的说明图。图5是示出本专利技术的实施方式1~5的声音合成装置的动作的流程图。图6是示出本专利技术的实施方式1的声音合成装置的输入语言信息系列和候补声音片段系列的一个例子的说明图。符号说明1:候补声音片段系列制作部;2:输出声音片段系列决定部;3:波形片段连接部;4:声音片段数据库;5:参数辞典;101:输入语言信息系列;102:候补声音片段系列;103:输出声音片段系列;104:声音波形;105:DB声音片段;106:共生条件;107:参数。具体实施方式实施方式1.图1是示出本专利技术的实施方式1的声音合成装置的结构图。图1所示的声音合成装置具备候补声音片段系列制作部1、输出声音片段系列决定部2、波形片段连接部3、声音片段数据库4、参数辞典5。在候补声音片段系列制作部1中,组合成为向声音合成装置的输入的输入语言信息系列101和声音片段数据库4的DB声音片段105,来制作候补声音片段系列102。在输出声音片段系列决定部2中,参照输入语言信息系列101、候补声音片段系列102以及参数辞典5,制作输出声音片段系列103。在波形片段连接部3中,参照输出声音片段系列103,制作成为声音合成装置6的输出的声音波形104。输入语言信息系列101是输入语言信息的时间系列。输入语言信息具有表示所制作的声音波形的语言内容的音韵和音高等记号。图2示出输入语言信息系列的例子。该例子是表示所制作的声音波形“湖”(みずうみ(mizuumi)(日文))的输入语言信息系列,是7个输入语言信息的时间系列。例如,第1输入语言信息表示音韵是m,音高是L,第3输入语言信息表示音韵是z,音高是H。此处,m是表示“湖”的开头的“み”的子音的记号。音高L是表示音的高低低的记号,音高H是表示音的高低高的记号。输入语言信息系列101既可以人工制作,也可以通过使用以往的一般的语言解析技术对表示所制作的声音波形的语言内容的文本进行自动解析而机械地制作。声音片段数据库4是存储DB声音片段系列的数据库。DB声音片段系列是DB声音片段105的时间系列。DB声音片段105具有波形片段、DB语言信息以及声音参数。波形片段是音压信号系列。音压信号系列是与用麦克风等记录解...
声音合成装置

【技术保护点】
一种声音合成装置,其特征在于,具备:候补声音片段系列制作部,针对作为所输入的声音单位的时间系列的输入语言信息系列,参照积蓄声音片段的时间系列的声音片段数据库来制作候补声音片段系列;输出声音片段决定部,使用表示与所述输入语言信息系列、和表示所述候补声音片段系列中的多个候补声音片段各自的属性的声音参数的共生条件对应的值的参数,来计算所述候补声音片段系列适合于所述输入语言信息系列的程度,根据所述适合的程度,决定输出声音片段系列;以及波形片段连接部,连接与所述输出声音片段系列对应的所述声音片段来制作声音波形。

【技术特征摘要】
2013.09.25 JP 2013-1982521.一种声音合成装置,其特征在于,具备:
候补声音片段系列制作部,针对作为所输入的声音单位的时间系
列的输入语言信息系列,参照积蓄声音片段的时间系列的声音片段数
据库来制作候补声音片段系列;
输出声音片段决定部,使用表示与所述输入语言信息系列、和表
示所述候补声音片段系列中的多个候补声音片段各自的属性的声音
参数的共生条件对应的值的参数,来计算所述候补声音片段系列适合
于所述输入语言信息系列的程度,根据所述适合的程度,决定输出声
音片段系列;以及
波形片段连接部,连接与所述输出声音片段系列对应的所述声音
片段来制作声音波形。
2.根据权利要求1所述的声音合成装置,其特征在于,
所述输出声音片段系列决定部将所述声音片段数据库中的所述
声音片段的时间系列视作所述输入语言信息系列,制作与相应视作的
时间系列对应的多个候补声音片段系列,使用以下方案中的至少某一
个来计算:在相应制作了的多个候补声音片段系列中、与所述视作的
时间系列相同的系列的情况下,使所述参数成为大的值,或者,在是
与所述视作的时间系列不同的系列的情况下,使所述参数成为小的
值。
3.根据权利要求1所述的声音合成装置,其特征在于,
所述输出声音片段系列决定部将所述声音片段数据库中的所述
声音片段的时间系列视作所述输入语言信息系列,制作与相应视作的
时间系列对应的多个候补声音片段系列,在相应制作了的多个候补声
音片段系列中、所述视作的时间系列中的各个声音片段的...

【专利技术属性】
技术研发人员:大塚贵弘川岛启吾古田训山浦正
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1