语音合成装置和方法制造方法及图纸

技术编号:3047213 阅读:176 留言:0更新日期:2012-04-11 18:40
公开了一种语音合成装置和一种语音合成方法,用于根据输入其中的文本数据合成语音,以输出由记录的语音部分和具有与记录的语音部分一致的回声特性的合成的语音部分组成的语音,其中具有回声特性的合成的语音部分在幅值上比记录的语音部分实质上大,以减少由于记录的语音部分和合成的语音部分之间音质的不同引起的奇怪的感觉。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种语音合成装置和一种语音合成方法,用于根据输入其中的文本数据合成语音,尤其涉及这样一种语音合成装置和一种语音合成方法,用于根据输入其中的文本数据合成语音,以输出由记录的语音部分和合成的语音部分组成的语音,该合成的语音部分具有与记录的语音部分一致的回声特性,以减少由于记录的语音部分和合成的语音部分之间音质的不同引起的奇怪的感觉。
技术介绍
近年来,已经发展和使用了各种的语音合成装置用于根据输入其中的文本数据合成语音。该类型的语音合成装置通常包括一个数据库,其工作以便将某种语言中的语音分为多个语音段,每个至少包括该语言中的一个音素,将每个语音段分解为多个音调波形,将这些音调波形与每个语音段相关联,然后在数据库中存储与这些音调波形相联系的每个语音段。当合成语音时,使用在数据库中与每个语音段相联系而存储的音调波形。例如,一个这样的传统语音合成装置被公开在日本专利申请公开出版物No.27789/1993中。参考附图中的图5,其示出了一种传统的语音合成装置500,包括文本输入单元501、文本判断单元502、合成方法选择单元503、合成单元504、再现单元505、语音叠加单元506和输出单元507。文本输入单元501适于输入文本数据。文本判断单元502适于分解文本数据,例如,将由文本输入单元501输入的“This is a pen”分解为多个文本数据元素,例如“This”、“is”、“a”和“pen”,并分析每个文本数据元素。合成方法选择单元503适于基于由文本判断单元502进行的分析从合成方法和再现方法中选择每个文本数据元素的合成方法。然后,合成方法选择单元503被操作以输出文本数据元素(例如,为合成方法所选择的“a”和“pen”)到合成单元504,和输出文本数据元素(例如,为再现方法所选择的“this”和“is”)到再现单元505。合成单元504适于根据从合成方法选择单元503输入的文本数据元素(即,“a”和“pen”)产生合成的语音部分。再现单元505适于根据从合成方法选择单元503输入的文本数据元素(即,“this”和“is”)再现记录的语音部分。语音叠加单元506适于输入和叠加由合成单元504产生的合成的语音部分和由再现单元505再现的记录的语音部分的波形,以输出由表示“this”和“is”的记录的语音部分和表示“a”和“pen”的合成的语音部分组成的语音“this is a pen”。输出单元507适于输出从语音叠加单元506输入的语音到外部设备,诸如扬声器(未示出)。这样构造的传统的语音合成装置500可以根据输入其中的文本数据合成由记录的语音部分和合成的语音部分组成的语音。而且,上面提到的传统的语音合成装置500部分再现了记录的语音部分,例如“this”和“is”,其是记录的自然的话音,因而能够合成类似于对听者而言言语清晰的自然语音的语音。然而,传统的语音合成装置500带来的问题是,构成相同语音的记录的语音部分和合成的语音部分在音质上是不同的。在记录的语音部分和合成的语音部分之间音质上的不同会引起听者被奇怪的感觉所困扰。在记录的语音部分和合成的语音部分之间音质上的不同变得越大,听者越需要仔细听该语音,从而使她或他对专注于理解该言语感到疲惫。每种自然的声音在声源已经被切断后因为重复的反射都有声音延续。在声源已经被切断后的声音延续以后被称为“回声”。合成的语音部分没有回声,而另一方面记录的语音部分有回声。在声音质量中的前述不同,部分是由于在记录的语音部分和合成的语音部分之间出现或不出现回声的不同。这意味着在记录的语音部分和合成的语音部分之间出现或不出现回声的不同会引起听者被奇怪的感觉所困扰。该不同变得越大,听者越需要仔细听该语音,从而使她或他对专注于理解该言语感到疲惫。另外,合成的语音部分比记录的语音部分发音更加不清晰。在声音质量中的前述不同,还由于在记录的语音部分和合成的语音部分之间发音清晰度上的不同。这意味着在记录的语音部分和合成的语音部分之间发音清晰度上的不同会引起听者被奇怪的感觉所困扰。该不同变得越大,听者越需要仔细听该语音,从而使她或他对专注于理解该言语感到疲惫。考虑到要克服传统的语音合成装置内在的前述缺陷,提出了本专利技术。
技术实现思路
因此本专利技术的一个目的是提供一种语音合成装置,用于根据输入其中的文本数据合成由记录的语音部分和合成的语音部分组成的语音,该合成的语音部分具有与记录的语音部分一致的回声特性。根据本专利技术的语音合成装置能够合成语音,且其中在记录的语音部分和合成的语音部分之间的回声上的不同大大减少,从而帮助听者专注地和舒适地收听该言语。本专利技术的另一个目的是提供一种语音合成装置,用于合成由记录的语音部分和具有回声特性的合成的语音部分组成的语音,其中具有回声特性的合成的语音部分在幅值上比记录的语音部分实质上大。这样调节的具有回声特性的合成的语音部分在发音清晰度上提高了。这意味着根据本专利技术的语音合成装置可以合成语音,且其中在记录的语音部分和合成的语音部分之间的发音清晰度上的不同大大减少,从而帮助听者专注地和舒适地收听该言语。本专利技术的另一个目的是提供一种语音合成方法,用于根据输入其中的文本数据合成由记录的语音部分和合成的语音部分组成的语音,该合成的语音部分具有与记录的语音部分一致的回声特性。根据本专利技术的语音合成方法能够合成语音,且其中在记录的语音部分和合成的语音部分之间的回声上的不同大大减少,从而帮助听者专注地和舒适地收听该言语。本专利技术的另一个目的是提供一种语音合成方法,用于合成由记录的语音部分和具有回声特性的合成的语音部分组成的语音,其中具有回声特性的合成的语音部分在幅值上比记录的语音部分实质上大。这样调节的具有回声特性的合成的语音部分在发音清晰度上提高了。这意味着根据本专利技术的语音合成方法可以合成语音,且其中在记录的语音部分和合成的语音部分之间的发音清晰度上的不同大大减少,从而帮助听者专注地和舒适地收听该言语。附图说明通过结合附图的以下描述,根据本专利技术的语音合成装置和语音合成方法的特征和优点将被更清楚地理解,附图中图1是根据本专利技术的语音合成装置100的第一个实施例的方框图;图2是示出由图1所示的语音合成装置100执行的语音合成方法的流程图;图3是根据本专利技术的语音合成装置200的第二个实施例的方框图;图4是示出由图3所示的语音合成装置200执行的语音合成方法的流程图;和图5是传统的语音合成装置500的方框图。具体实施例方式参考附图,特别是图1和图2,其示出了实施了本专利技术的第一个实施例的语音合成装置100,用于根据输入其中的文本数据合成语音。图1所示的第一个实施例的语音合成装置100包括文本存储单元101、语音部分存储单元102、语音段存储单元103、文本输入单元104、判断单元105、拆分单元106、记录的语音装载单元107、语音合成单元108、回声特性赋予单元109、语音叠加单元110和语音输出单元111。文本存储单元101适于在其中存储多个记录的文本数据元素,其将在后面描述。语音部分存储单元102适于在其中存储分别对应于记录的文本数据元素的多个记录的语音部分。语音段存储单元103适于存储多个语音段。这里,语音段意味着包括至少一个音素的语音的段。文本输入单元104适于本文档来自技高网
...

【技术保护点】
一种语音合成装置,用于根据输入其中的文本数据合成语音,该装置包括:文本存储单元,用于在其中存储多个记录的文本数据元素;语音部分存储单元,用于在其中存储分别对应于所述记录的文本数据元素的多个记录的语音部分;语音段存储单元,用于存储 多个语音段;文本输入单元,用于输入所述文本数据;判断单元,用于将由所述文本输入单元输入的所述文本数据分解为多个文本数据元素,一个文本数据元素接一个地判断是否所述文本数据元素与存储在所述文本存储单元中的所述记录的文本数据元素的任一个一 致;拆分单元,用于基于所述判断单元的判断结果,将所述文本数据元素拆分为由记录的文本部分和未记录的文本部分组成的两个文本部分,所述记录的文本部分包括与存储在所述文本存储单元中的所述文本数据元素一致的记录的文本数据元素,所述未记录的文本部分 包括与未存储在所述文本存储单元中的所述文本数据元素一致的未记录的文本数据元素;记录的语音装载单元,用于输入由所述拆分单元拆分的包括与所述文本数据元素一致的所述记录的文本数据元素的所述记录的文本部分,并从存储在所述语音部分存储单元中的记录 的语音部分中,选择性地装载分别对应于所述记录的文本部分的所述记录的文本数据元素的记录的语音部分;语音合成单元,用于输入由所述拆分单元拆分的包括与所述文本数据元素一致的所述未记录的文本数据元素的所述未记录的文本部分,并根据所述未记录的文本 部分的所述未记录文本数据元素合成在所述语音段存储单元中存储的所述语音段,以产生合成的语音部分;回声特性赋予单元,用于将与存储在所述语音部分存储单元中的所述记录的语音部分的回声特性一致的回声特性,赋予由所述语音合成单元产生的所述合成的语音 部分,从而构造具有所述回声特性的合成的语音部分;语音叠加单元,用于叠加由所述记录的语音装载单元装载的所述记录的语音部分和由所述回声特性赋予单元构造的具有所述回声特性的所述合成的语音部分,以产生由所述记录的语音部分和具有所述回声特性的所述 合成的语音部分组成的所述语音;和语音输出单元,用于输出由所述记录的语音部分和具有回声特性的所述合成的语音部分组成的所述语音。...

【技术特征摘要】
【国外来华专利技术】JP 2000-11-29 363394/001.一种语音合成装置,用于根据输入其中的文本数据合成语音,该装置包括文本存储单元,用于在其中存储多个记录的文本数据元素;语音部分存储单元,用于在其中存储分别对应于所述记录的文本数据元素的多个记录的语音部分;语音段存储单元,用于存储多个语音段;文本输入单元,用于输入所述文本数据;判断单元,用于将由所述文本输入单元输入的所述文本数据分解为多个文本数据元素,一个文本数据元素接一个地判断是否所述文本数据元素与存储在所述文本存储单元中的所述记录的文本数据元素的任一个一致;拆分单元,用于基于所述判断单元的判断结果,将所述文本数据元素拆分为由记录的文本部分和未记录的文本部分组成的两个文本部分,所述记录的文本部分包括与存储在所述文本存储单元中的所述文本数据元素一致的记录的文本数据元素,所述未记录的文本部分包括与未存储在所述文本存储单元中的所述文本数据元素一致的未记录的文本数据元素;记录的语音装载单元,用于输入由所述拆分单元拆分的包括与所述文本数据元素一致的所述记录的文本数据元素的所述记录的文本部分,并从存储在所述语音部分存储单元中的记录的语音部分中,选择性地装载分别对应于所述记录的文本部分的所述记录的文本数据元素的记录的语音部分;语音合成单元,用于输入由所述拆分单元拆分的包括与所述文本数据元素一致的所述未记录的文本数据元素的所述未记录的文本部分,并根据所述未记录的文本部分的所述未记录文本数据元素合成在所述语音段存储单元中存储的所述语音段,以产生合成的语音部分;回声特性赋予单元,用于将与存储在所述语音部分存储单元中的所述记录的语音部分的回声特性一致的回声特性,赋予由所述语音合成单元产生的所述合成的语音部分,从而构造具有所述回声特性的合成的语音部分;语音叠加单元,用于叠加由所述记录的语音装载单元装载的所述记录的语音部分和由所述回声特性赋予单元构造的具有所述回声特性的所述合成的语音部分,以产生由所述记录的语音部分和具有所述回声特性的所述合成的语音部分组成的所述语音;和语音输出单元,用于输出由所述记录的语音部分和具有回声特性的所述合成的语音部分组成的所述语音。2.如权利要求1所述的语音合成装置,还包括噪声测量单元,用于测量可听见地输出所述语音的环境中的噪声电平,其中所述回声特性赋予单元还包括幅值调节单元,用于基于由所述噪声测量单元测量的所述噪声电平和由所述记录的语音装载单元装载的所述记录的语音部分的幅值,调节由所述回声特性赋予单元构造的具有所述回声特性的所述合成的语音部分的幅值,使得具有所述回声特性的所述合成的语音部分在幅值上与所述噪声电平成比例地比所述记录的语音部分实质上大;从而所述语音叠加单元被操作以叠加由所述记录的语音装载单元装载的所述记录的语音部分和由所述幅值调节单元调节的具有所述回声特性的所述合成的语音部分,以便产生由包括所述记录的语音部分和具有回声特性的所述合成的语音部分的所述语音部分组成的所述语音。3.如权利要求1或2所述的语音合成装置,其中所述语音段存储单元被操作以存储多个语音段,每个语音段至少包括一个音素,且可拆分为多个音调波形,所述语音段被分别在所述音素上与所述音调波形相关联,且所述语音合成单元被操作以便根据由所述拆分单元拆分的所述未记录的文本部分的所述未记录的...

【专利技术属性】
技术研发人员:野敏幸西村洋文
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1