当前位置: 首页 > 专利查询>索尼公司专利>正文

用于文本到语音转换的方法和系统技术方案

技术编号:8688004 阅读:202 留言:0更新日期:2013-05-09 07:54
一种文本到语音转换的系统和方法。在便携式装置上执行文本到语音转换的方法包括:识别用于转换到语音格式的文本的一部分,其中所述识别包括基于与用户关联的信息执行预测。在便携式装置连接到电源时,对所述文本的一部分执行文本到语音转换以产生转换的语音。把转换的语音存储在便携式装置的存储装置中。执行阅读器应用,其中接收对所述文本的一部分的叙述的用户请求。在所述执行期间,响应于用户请求从存储装置访问转换的语音,并且把转换的语音呈现给用户。

【技术实现步骤摘要】
【国外来华专利技术】
根据本专利技术的实施例一般地涉及文本到语音转换,具体地讲,涉及用于数字阅读器的文本到语音转换。
技术介绍
文本到音频系统能够把输入文本转换成模仿自然语音的输出声学信号。文本到音频系统在很多应用中很有用。例如,对于自动信息服务、自动服务员、基于计算机的指令、用于视觉障碍者的计算机系统和数字阅读器,文本到音频系统很有用。一些简单的文本到音频系统工作于纯文本输入,并在几乎没有或没有对接收的文本的处理或分析的情况下产生对应的语音输出。其它更复杂的文本到音频系统处理接收的文本输入以确定影响文本的发音的文本的各种语义和语法属性。另外,其它复杂的文本到音频系统处理接收的具有注释的文本输入。有注释的文本输入指定由文本到音频系统使用的发音信息以产生更流利的像人类的语音。一些文本到音频系统几乎实时地把文本转换成高质量、听起来自然的语音。然而,产生高质量语音需要大量潜在声学单元、复杂规则和用于组合这些单元的例外。因此,这种系统通常需要大存储容量和高计算能力,并通常消耗大量功率。经常地,文本到音频系统将会多次接收相同的文本输入。这种系统完全处理每个接收的文本输入,把该文本转换成语音输出。因此,每个接收的文本输入被处理以构造对应的口语输出,而不考虑以前已把相同的文本输入转换成语音,并且不考虑每隔多久由文本到音频系统接收相同的文本输入。例如,在数字阅读器的情况下,在用户首次收听书时以及另外当用户决定再一次收听该书时,单个文本到音频系统可接收文本输入。另外,在多个用户的情况下,单本书可被许多不同的数字阅读器转换成百上千次。这种冗余处理可以是能量效率低,消耗处理资源,并且浪费时间。专利
技术实现思路
本专利技术的实施例涉及一种用于高效的文本到语音转换的方法和系统。在一个实施例中,一种在便携式装置上执行文本到语音转换的方法包括:识别用于转换到语音格式的文本的一部分,其中所述识别包括基于与用户关联的信息执行预测;在所述便携式装置连接到电源时,对所述文本的一部分执行文本到语音转换以产生转换的语音;把所述转换的语音存储在所述便携式装置的存储装置中;执行阅读器应用,其中接收对所述文本的一部分的叙述的用户请求;以及在所述执行期间,从所述存储装置访问所述转换的语音,并且响应于所述用户请求在所述便携式装置上呈现所述转换的语音。在一个实施例中,所述文本的一部分包括音频转换的书。在一些实施例中,所述信息包括新添加的书的标识,并且从所述新添加的书获得所述文本的一部分。在各种实施例中,所述文本包括音频转换的书,并且所述执行预测包括基于音频转换的书的特征预期随后的书。在另外的实施例中,所述信息包括书的播放列表。在一些实施例中,所述书的播放列表是用户创建的书的播放列表。在其它实施例中,所述书的播放列表由具有与所述用户类似的属性的其他用户创建。在另一实施例中,一种文本到语音转换方法包括:识别用于转换到书的音频版本的所述书,其中所述识别包括基于与所述书关联的信息执行预测;在数字阅读器连接到电源时,访问所述书的所述音频版本;把所述音频版本存储在所述数字阅读器的存储装置中;执行阅读器应用,其中由用户请求所述书的叙述;以及在所述执行期间,从所述数字阅读器的所述存储装置中的所述音频版本产生模仿自然语音的声学信号。在一些实施例中,所述信息包括存储在服务器上的书的列表,并且所述书的列表包括所述书的标识。在各种实施例中,所述信息包括书的主题、类型、标题、作者和日期之O在一个实施例中,所述访问包括经互联网从服务器接收流传输通信。在另外的实施例中,所述访问包括经互联网从服务器下载音频版本。在一些实施例中,所述访问包括经互联网从另一数字阅读器下载音频版本。在各种实施例中,所述访问包括直接从另一数字阅读器下载。 在另一实施例中,一种文本到语音转换系统包括:处理器;显示器,耦合到处理器;输入装置,耦合到处理器;音频输出装置,耦合到处理器;存储器,耦合到处理器。存储器包括指令,当执行所述指令时,所述指令使所述系统在便携式装置上执行文本到语音转换。该方法包括:识别用于转换到语音格式的文本的一部分,其中所述识别包括基于与用户关联的信息执行预测;在便携式装置连接到电源时,对所述文本的一部分执行文本到语音转换以产生转换的语音;把转换的语音存储在便携式装置的存储装置中;执行阅读器应用,其中接收对所述文本的一部分的叙述的用户请求;以及在所述执行期间,从存储装置访问转换的语音,并且响应于用户请求把转换的语音呈现给用户。在一些实施例中,所述文本的一部分包括音频转换的书。在其它实施例中,所述信息包括新添加的书的标识,并且从所述新添加的书获得所述文本的一部分。在各种实施例中,所述文本包括音频转换的书,并且所述执行预测包括基于音频转换的书的特征预期随后的书。在另外的实施例中,所述信息包括用户创建的书的播放列表或由具有与所述用户类似的属性的其他用户创建的书的播放列表。在阅读下面在各种附图中表示的实施例的详细描述之后,本领域普通技术人员将会意识到本专利技术的各种实施例的这些和其它目的和优点。附图说明在附图的示图中作为例子而非限制性地表示本专利技术的实施例,其中相似的标号表示相似的元件。图1是根据本专利技术实 施例的示例性文本到语音系统的示图。图2是根据本专利技术实施例的示例性服务器-客户机系统的示图。图3是根据本专利技术实施例的示例性客户机-客户机系统的示图。图4是根据本专利技术实施例的示例性客户机-客户机系统的示图。图5是根据本专利技术实施例的示例性服务器-客户机系统的示图。图6是根据本专利技术实施例的示例性客户机-客户机系统的示图。图7是根据本专利技术实施例的示例性客户机-客户机系统的示图。图8是通用计算机系统的例子的框图,在该计算机系统内,能够实现根据本专利技术的文本到语音系统。图9描述根据本专利技术实施例的文本到语音转换的示例性方法的流程图。图10描述根据本专利技术实施例的文本到语音转换的另一示例性方法的流程图。具体实施例方式现在将详细参照根据本专利技术的实施例,其例子表示在附图中。尽管将会结合这些实施例描述本专利技术,但将会理解,它们并不意图把本专利技术限制于这些实施例。相反地,本专利技术意图包括可被包括在如所附权利要求所定义的本专利技术的精神和范围内的替换、修改和等同物。另外,在下面的本专利技术的实施例的详细描述中,阐述许多特定细节以便提供本专利技术的彻底的理解。然而,本领域普通技术人员将会意识到,在没有这些特定细节的情况下可实施本专利技术。在其它实例中,公知方法、过程、部件和电路未被详细描述以免不必要地模糊本专利技术的实施例的各方面。显示系统的实施例的附图是半图式的并且未按照比例绘制,具体地讲,一些尺寸为了清楚呈现而在附图中被夸大地显示。此外,在公开并描述具有一些共同的特征的多个实施例的情况下,为了说明、描述及其理解的清楚和方便,彼此相似的特征通常将会由相似的标号描述。按照过程、步骤、仿真、计算、逻辑块、处理和计算机系统内关于数据的操作的其它符号表示,呈现下面的详细描述的一些部分(例如,图9和图10)。这些描述和表示是由数据处理领域技术人员用来最有效地向其他本领域技术人员表达他们的工作的实质的方式。过程、计算机执行的步骤、逻辑块、处理等在这里并且通常被认为是导致所希望的结果的前后一致的一系列步骤或指令。步骤是需要物理量的物理操纵的步骤。通常,这些量采用能够被存储、传送、组合、比较本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.09.14 US 12/881,9791.一种在便携式装置上执行文本到语音转换的方法,所述方法包括: 识别用于转换到语音格式的文本的一部分,其中所述识别包括基于与用户关联的信息执行预测; 在所述便携式装置连接到电源时,对所述文本的一部分执行文本到语音转换以产生转换的语音; 把所述转换的语音存储在所述便携式装置的存储装置中; 执行阅读器应用,其中接收对所述文本的一部分的叙述的用户请求;以及 在所述执行期间,从所述存储装置访问所述转换的语音,并且响应于所述用户请求在所述便携式装置上呈现所述转换的语音。2.按权利要求1所述的方法,其中所述文本的一部分包括音频转换的书。3.按权利要求1所述的方法,其中所述信息包括新添加的书的标识,并且其中从所述新添加的书获得所述文本的一部分。4.按权利要求1所述的方法,其中所述文本包括音频转换的书,并且所述执行预测包括基于音频转换的书的特征预期随后的书。5.按权利要求1所述的方法,其中所述信息包括书的播放列表。6.按权利要求5所述的方法,其中所述书的播放列表是用户创建的书的播放列表。7.按权利要求5所述的 方法,其中所述书的播放列表由具有与所述用户类似的属性的其他用户创建。8.一种方法,包括: 识别用于转换到书的音频版本的所述书,其中所述识别包括基于与所述书关联的信息执行预测; 在数字阅读器连接到电源时,访问所述书的所述音频版本; 把所述音频版本存储在所述数字阅读器的存储装置中; 执行阅读器应用,其中由用户请求所述书的叙述;以及 在所述执行期间,从所述数字阅读器的所述存储装置中的所述音频版本产生模仿自然语音的声学信号。9.按权利要求8所述的方法,其中所述信息包括存储在服务器上的书的列表,并且其中所述书的列表包括所述书的标识。10.按权利...

【专利技术属性】
技术研发人员:L·J·黄T·熊
申请(专利权)人:索尼公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1