自动语音识别(ASR)片区化制造技术

技术编号:5390433 阅读:213 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及位置确定装置及相应的方法。描述了与自动语音识别数据的片区有关的技术。在实现中,获得自动语音识别(ASR)数据。ASR数据基于要被包含于各片区中的数据的近似量被划分成多个片区。片区中的每一个是ASR数据的分割区。

【技术实现步骤摘要】
【国外来华专利技术】自动语音识别(ASR)片区化(相关申请) 本正式申请要求在2007年7月11日提交的专利技术名称为"AUTOMATED SPEECH RECOGNITION(ASR)TILING"的美国临时申请No. 60/949158的权益,在此通过引入并入其全 部内容。
技术介绍
诸如全球定位系统(GPS)的定位系统可被各种各样的装置采用以向用户提供各 种不同的功能。例如,可以在便携式装置内并入位置确定功能,使得可以将其安装在各种不 同的车辆中,以提供诸如汽车或摩托车中的逐圈(turn-by-turn)驱动指令的导航指令。在 其它的实例中,位置确定功能可以作为仪表的一部分被并入飞机内以给出飞行数据,可以 被安装在船上以获知在水体上的位置(例如,船所处的位置以及该位置处的水深)、被并入 健身器材内,等等。 在这些实例中的至少一些中,可能期望在不需要用户使用手的情况下使用位置确 定功能与并入了位置确定功能的装置的其它功能。例如,并入了位置确定功能的装置可被 配置为用于汽车中,因此,会期望使得用户能够在不使他们的手脱离方向盘的情况下与装 置交互作用。 一种这样的可被用于提供这种功能的技术是自动语音识别(ASR)。 ASR—般 被用于将语音翻译成从语音提取意思的形式(例如,文本和数值表达等),该形式然后可被 用于执行期望的功能。但是,常规的用于提供ASR的技术一般消耗大量的资源(例如,处理 资源),因此实现起来会是昂贵的。另外,当遇到诸如会在具有位置确定功能的装置中遇到 的数据量的大量的数据时,这种实现会进一步复杂化。
技术实现思路
描述了创建用于自动语音识别(ASR)中的数据的片区(tile)的技术。在实现中, 获得自动语音识别(ASR)数据。ASR数据被划分成多个片区。片区中的每一个是ASR数据 的分割区(partition)。 在另一实现中,选择多个片区中的一个或多个,这些片区中的每一个是自动语音 识别(ASR)数据。该选择基于与要通过使用音频输入执行的搜索有关的信息和地理位置。 选择的一个或多个片区的ASR数据被组合和用于翻译音频输入。 本
技术实现思路
被提供作为在具体实施方式和附图中完整描述的主题的介绍。因此,
技术实现思路
不应被认为是描述基本特征,也不应被用于确定权利要求的范围。附图说明 参照附图进行详细的描述。在图中,附图标记的最左侧数字表示首先出现该附图 标记的图。在说明书和附图中的不同实例中使用相同的附图标记可表示类似或相同的项 目。图1是可操作以提供位置确定技术的示例性实现的环境的示图,在图1中示出其例子作为全球定位系统(GPS)。 图2是表示可被图1的环境100采用的ASR数据片区化(tiling)的示例性实现 中的系统的示图。 图3是示出示例性实现中的过程的流程图,其中,通过将ASR数据划分成地理分割 区来形成片区而形成片区。 图4是示出示例性实现中的过程的流程图,其中,通过使用定义ASR数据的地理分 割区的一个或多个片区翻译音频输入。 图5是示出示例性实现中的过程的流程图,其中,通过使用定义ASR数据的地理分 割区的一个或多个片区和一个或多个公共片区翻译音频输入。具体实施例方式常规的用于提供自动语音识别(ASR)的技术一般消耗大量的资源(例如,处理和 存储资源)。当遇到大量的数据(诸如会在具有位置确定功能的装置中遇到的数据量,诸如 包含名胜、地址、电话号码等的数据库)时ASR的实现也会复杂化。 例如,当与诸如服务器或桌上型计算机的不被配置为用于便携式用途的装置相比 时,个人全球定位系统(GPS)装置可被配置为用于便携式用途,并因此具有相对有限的资 源(例如,处理资源,大容量存储能力、随机存取存储器等)。但是,个人GPS装置可包含大 量的用于基于确定的地理位置提供功能的数据。例如,用户可说出期望的餐馆的名称。在响 应中,个人GPS装置可翻译所说出的名称,这会消耗大量的资源。个人GPS装置也可确定当 前的地理位置,然后使用该位置来搜索数据,以定位具有该名称或类似名称的最近的餐馆, 这也会消耗大量的资源。 因此,涉及自动语音识别(ASR)片区化的技术被描述,该技术可被用于改善ASR中 的效率和精度。在实现中,诸如地址、名胜等的用于实现ASR的数据被称为ASR数据。ASR数据被分成多个片区,这些片区是数据的地理分割区。然后,可基于地理位置搜索特定片 区内的数据,诸如与用户的当前位置、期望的目的地、计算的路线等对应的片区内的ASR数 据。以此方式,可以减少被搜索的ASR数据的量,由此在装置的资源的使用中改善精度和提 高效率。可关于图3和图4找到ASR数据片区创建的进一步的讨论。 在另一实现中,描述了创建和利用"公共(common)"片区的技术。例如,公共片区 可被用于包含"冗余"ASR数据,这些"冗余"ASR数据原本被包含在多个片区中,由此减少数 据的出现次数并减少要被存储和搜索的数据量。在名胜的例子中,在公共片区内包含可能 包含于多个片区中的公共连锁商店(chain brand),以减少、甚至消除该数据在多个片区内 的重复。公共片区从而可被用来改善语音识别的效率,可关于图5找到其进一步的讨论。 在以下的讨论中,首先描述可操作以执行ASR片区化技术的示例性环境。然后描 述可在示例性环境中采用以及在其它环境中采用而不背离其精神和范围的示例性过程。 图1示出可操作以采用自动语音识别片区化技术的示例性环境100。示出的环境 100包含具有一个或多个处理器104和存储器106的计算装置102。计算装置102可另外 包含用于检测用户语音的麦克风和/或其它装置、用于以可视的方式向用户呈现与语音和 导航相关的信息的显示器、和用于以可听的方式与用户通信的扬声器。处理器不受形成它 们的材料或其中采用的处理机制限制。例如,处理器可包含半导体和/或晶体管(例如,电5子集成电路(IC))。在这种情况下,处理器可执行的指令可以是电子可执行的指令。另外, 虽然示出单一的存储器106,但是,可以采用诸如随机存取存储器(RAM)、硬盘存储器、可移 动介质存储器和其它类型的计算机可读介质的各种各样的类型的存储器和它们的组合。 计算装置被示为在处理器104上执行语音识别模块108,该语音识别模块108也 可被存储在存储器106中。语音识别模块108代表在自动语音识别(ASR)中涉及的技术。 例如,语音识别模块108可采用语音引擎IIO,该语音引擎IIO代表从由用户112提供的音 频输入提取意思以诸如将音频输入转换成理解"用户什么意思"的文本或其它形式的功能。 由于通过使用数字标识符对意思进行编码可以更有效(因为它们是更加紧凑的并且被更 加有效地计算处理),因此语音引擎110的输出未必是文本。也想到了各种其它的例子。 语音识别模块108也可代表对于ASR数据114采用片区化技术的功能。如前所 述,诸如在导航装置中遇到的那些的大的数据集会使ASR技术的执行复杂化。例如,数据集 越大,则执行ASR耗费的时间会越长。另外,数据集越大,所说的内容与数据集中的非相关 项目混淆的危险性就越高。因此,为了在执行ASR时同时改善速度和精度,可以将ASR数据 114布置为使得可视需要取出ASR数据的若干部分。可以以各种方式执行该布置。 例如,ASR数据11本文档来自技高网
...

【技术保护点】
一种方法,包括:选择多个片区中的一个或多个,所述多个片区中的每一个是自动语音识别ASR数据的分割区,其中,所述选择基于:与用户想要的搜索有关的信息;和地理位置;以及通过使用来自所选择的一个或多个片区的ASR数据来翻译音频输入。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:PM卢茨JW凯尔KA博尔顿CJ斯特里克林
申请(专利权)人:佳明有限公司
类型:发明
国别省市:KY[开曼群岛]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1