声音合成装置制造方法及图纸

技术编号:5382099 阅读:193 留言:0更新日期:2012-04-11 18:40
一种声音合成装置,能够高速地进行声音内容的编辑,并可以容易地制作声音内容,其中包括:小规模声音单元DB(101)、小规模声音单元选择部(102)、小规模声音单元连接部(103)、韵律校正部(104)、大规模声音单元DB(105)、使小规模声音单元DB(101)和大规模声音单元DB(105)相对应的对应DB(106)、声音单元候补获得部(107)、大规模声音单元选择部(108)、以及大规模声音单元连接部(109),该声音合成装置利用小规模声音单元DB(101)来编辑合成音,并通过根据编辑结果,利用大规模声音单元DB(105)进行高音质化,从而能够容易地在移动终端上制作声音内容。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及基于声音合成技术的声音内容的编辑或生成方法。
技术介绍
近些年,随着声音合成技术的发展,已经可以制作音质非常高的 合成音。然而,以往的合成音的用途基本上是用于以广播员的语调读新闻等。另外,在移动电话服务等方面所提供的服务中,逐渐普及的是以 某种特殊的声音(具有个人再现性的高合成音,或具有高中女学生的 语气、关西方言等特殊韵律或音质的合成音)融汇于一个内容之中, 例如,以有名人物的声音消息来代替来电铃声等。因此,考虑到的是 要想在个人间的交流之中增加娱乐性,则制作特殊的声音让对方听的 需求就会不断增高。根据以上所述的需求,则需要的不仅是以往的那种单调的读音, 而且还需要编辑或制作具有各种音质或韵律的声音内容,并希望能够 利用。从上述的声音内容制作的观点来看,"声音内容的编辑或制作"相 当于,制作符合编辑者喜好的合成音,例如制作具有高中女学生语气 或关西方言等特征性的抑扬顿挫,或为了传达作者的感情而变更韵律 或音质,或强调句尾语气等。像这样满足用户的需求不是通过一次处 理来实现的,而是通过反复编辑和试听,才制作成了用户所希望的内作为便捷地进行上述声音内容的编辑或制作的环境需要具备以下 的条件。(1) 即使是移动终端等小规模硬件资源也能够制作。(2) 能够高速地编辑合成音。(3) 在合成音的编辑过程中能够简单地试听。 在以往的高音质合成音的制作方法中提出了,例如从记录再生时的合计时间从几个小时到几百个小时的大规模声音的声音数据库中, 选择最佳的声音单元系列,并连接,据此,制作高音质的合成音(例 如,参照专利文献1 )。图1是专利文献1中所记载的以往的声音合成 装置的构成方框图。以往的声音合成装置将合成器指令002作为输入来接受,并输出 合成声音波形019,所述合成器指令002是通过分析成为合成目标的文 本结果而得到的,所述合成声音波形019是通过从声音单元DB (数据 库)OOl中所包含的被扩展的声音单元中选择合适的声音单元并连接而 得到的。声音合成装置包括多级预备选择部003、单元选择部004、以及连 接部005。多级预备选择部003接受合成器指令002,在由合成器指令002 指定的声音单元中进行以后将要叙述的多级预备选择,从而选择预备 选择候补群018。单元选择部004接受合成器指令002,从预备选择候补群018中选 择,利用所有辅助费用计算的费用最小的声音单元。连接部005连接由单元选择部004选择的声音单元,并输出合成 声音波形019。另外,由于预备选择候补群018仅用于声音单元的选择,因此仅 含有费用计算中所需要的特征量,而不含有声音单元数据本身。连接 部005参照声音单元DB001来获得由单元选择部004选择的声音单元的声音单元数据。在以往的声音合成装置中所使用的辅助费用包括基频误差、持续时间长度误差、MFCC(Mel Frequency Cepstrum Coefficient :梅尔倒 频谱系数)误差、F0 (基频)不连续误差、MFCC不连续误差、以及音素 环境误差所分别对应的六种辅助费用。在这些费用之中,前三者属于 目标费用,后三者属于连接费用。在通过以往的声音合成装置所涉及的单元选择部004的费用计算 中,费用是从辅助费用中计算出的。多级预备选择部003包括四个预备选择部006、 009、 012、以及015。第一预备选择部006接受合成器指令002,并从声音单元DB001 中的声音单元候补中,进行根据在各个时刻的FO误差、持续时间长度 误差的预备选择,并输出第一候补群007。第二预备选择部009从第一候补群007的声音单元中,进行根据 在各个时刻的FO误差、继续时间长度误差、MFCC误差的预备选择,并 输出第二候补群OIO。同样,第三预备选择部012以及第四预备选择部015也使用辅助 费用的一部分进行预备选择。通过进行这样的预备选择,可以消减从声音单元DB001中选择的 最佳声音单元的计算量。专利文献l日本特开2005 — 265895号公报(图1)如以上所述,本专利技术的目的是要制作声音内容,为此需要对合成 音进行编辑的单元。然而,在利用专利文献l的技术对合成音即声音 内容进行编辑的情况下,存在以下的问题。也就是说,专利文献1中所记载的声音合成装置在选择声音单元 时,通过利用预备选择部,可以消减总共的计算费用。但是,结果上 是为了得到合成音,就需要在第一预备选择部006从所有的声音单元 进行预备选择。并且,连接部005每次都需要从声音单元DB001中选 择最终的最佳声音单元。而且,为了生成高音质的合成音,需要预先10在声音单元DB001中存储大量的声音单元,这样,再生时的合计时间 也会成为从几个小时到几百个小时的大规模数据库。因此,在编辑合成音时,每次都需要从大规模的声音单元DB001中选择声音单元,在这种情况下,要想得到最终所需的合成音,每次都需要在大规模的声音单元DB001中进行搜索。因此,就会出现在编 辑时计算费用增大的问题。
技术实现思路
为了解决上述以往的课题,本专利技术的目的在于提供一种声音合成 装置,该声音合成装置可以高速地执行声音内容的编辑,并可以容易 地制作声音内容。本专利技术所涉及的声音合成装置,生成符合声音记号以及韵律信息的合成音,其中包括小规模数据库,保持用于生成合成音的合成音生成用数据;大规模数据库,保持比所述小规模数据库所保持的所述 合成音生成用数据还要多的声音单元;合成音生成用数据选择机构, 从所述小规模数据库中选择,被生成的合成音符合声音记号以及韵律 信息的合成音生成用数据;符合声音单元选择机构,从所述大规模数 据库中选择,在所述合成音生成用数据选择机构所选择的所述合成音 生成用数据所对应的声音单元;以及声音单元连接机构,通过连接在 所述符合声音单元选择机构所选择的所述声音单元,而生成合成音。根据此构成,合成音生成用数据选择机构可以从小规模数据库中 选择合成音生成用数据。并且,符合声音单元选择机构可以从大规模 数据库中选择,与被选择的合成音生成用数据相对应的高质量的声音 单元。这样,通过以两个阶段来选择声音单元,从而可以快速地选择 高质量的声音单元。并且,也可以是,所述大规模数据库被设置在,通过计算机网络 与所述声音合成装置相连接的服务器;所述符合声音单元选择机构, 从被设置在所述服务器的所述大规模数据库中选择所述声音单元。通过使服务器设置于大规模数据库,从而在终端可以不需要不必 要的存储容量,以最小的构成来构成声音合成装置。并且,上述声音合成装置进一步包括小规模声音单元连接机构, 通过连接在所述合成音生成用数据选择机构所选择的声音单元,来生 成简易合成音;以及韵律信息校正机构,接受用于校正所述简易合成 音的韵律信息的信息,并根据该信息校正所述韵律信息。并且,也可 以是,所述合成音生成用数据选择机构,在所述简易合成音的韵律信 息被校正的情况下,从所述小规模数据库再次选择,被生成的合成音 符合声音记号以及被校正后的所述韵律信息的合成音生成用数据,并 将所述再次选择的合成音生成用数据输出到所述小规模声音单元连接 机构。并且,也可以是,所述符合声音单元选择机构接受在所述校正 和所述再次选择中所决定的所述合成音生成用数据,并从所述大规模 数据库中选本文档来自技高网
...

【技术保护点】
一种声音合成系统,生成符合声音记号以及韵律信息的合成音,其特征在于, 所述声音合成系统包括通过计算机网络而相互连接的制作终端、服务器、以及接收终端; 所述制作终端包括: 小规模数据库,保持用于生成合成音的合成音生成用数据; 以及 合成音生成用数据选择机构,从所述小规模数据库选择合成音生成用数据,该合成音生成用数据是指,被生成的合成音最符合声音记号以及韵律信息的合成音生成用数据; 所述服务器包括大规模数据库,保持众多数量的声音单元,所保持的这些声音单 元比所述小规模数据库所保持的所述合成音生成用数据多,且生成的合成音比所述小规模数据库所保持的所述合成音生成用数据更能够详细表现韵律信息; 所述接收终端包括: 符合声音单元选择机构,从所述大规模数据库中选择,与所述合成音生成用数据 选择机构所选择的所述合成音生成用数据相对应、且生成的合成音最符合所述声音记号以及所述韵律信息的声音单元;以及 声音单元连接机构,通过连接在所述符合声音单元选择机构所选择的所述声音单元,而生成合成音。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:广濑良文加藤弓子釜井孝浩
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1