用于变换粒子集合的方法及系统技术方案

技术编号:8082137 阅读:269 留言:0更新日期:2012-12-14 15:05
本发明专利技术的实施方式公开了一种变换表示适于在信息检索系统中使用的单词集合的输出粒子集合中的粒子集合的系统和方法。该方法针对所述粒子集合中的各个粒子生成粒子的部分的组合,并且使用使得粒子集合的总的最小编辑距离(MED)最大化的组合的部分来替代粒子集合中的粒子。例如,该方法确定粒子集合中的各个粒子的MED,将粒子集合中的总的MED确定为各个粒子的MED的总和,然后确定使得粒子集合的总的MED最大化的组合。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总体上涉及信息检索,并且具体地,涉及使用粒子(particle)之间的最大编辑距离来变换粒子集合。
技术介绍
信息检索(IR)系统通常包括很大的项目表,这些项目诸如为感兴趣的地理点(POI)或者音乐专辑名称等。该列表通过索引进行访问。对索引的输入是由用户提供的查询。响应于查询,IR系统生成与该查询最佳匹配的结果列表。可以根据各种因素对结果列表进行排序。结果列表、索引、查询以及结果列表通常由单词表示。输入列表、查询以及结果列表是文本方式或语音方式。 语音查询是在用户无法使用键盘(例如,在驾驶时)或者用户接口包括麦克风的情况下使用的。在那些环境下,使用自动语音识别器(ASR:Automatic Speech Recognizer)将语音转换成单词。ASR使用两种基本的数据结构,单词的发音词典和单词的语言模型。通常,IR系统按照发音将单词表示为音素,例如,将RESTAURANT表示为“R EH S T R AA N T”。音素是指特定语言中的声音的基本单位。音素可包括重音符号、音节边界(syllable boundary)和指示单词如何发音的其它记号。语言模型描述了单词排序的可能性,并且供ASR使用,以强制搜索正确的单词假设。语言模型可以是η元(n-gram)语法。如果η元语法是二元语法,则该二元语法列出诸如P (“BELL” I “TAC0”)的可能性,即单词“BELL”跟随在单词“TAC0”之后的可能性。语言模型也可是有限状态语法,其中语法中的状态表示能够在各个状态出现的单词,并且状态之间的转变表示从一个状态到另一个状态的可能性。基于单词的IR存在两个主要问题。首先,用于IR的重要单词通常是罕见的标识符单词(identifier word)。例如,在项目POI “MJ’S RESTAURANT”中,重要的标识符单词是“MJ’S”。这些标识符单词常常是来自其它语言的专有名词。例如,项目“AASHIANI RESTAURANT”中的单词“AASHIANI”来自印地语。这些标识符单词出现的另一种方式是通过组合,如“GREENHOUSE”。修改单词的词根也会增加词汇量的大小。一般而言,罕见但重要的标识符单词的数量非常大。另外,重要的标识符单词常常被念错,或者语言模型对重要的标识符单词的表示非常差。针对η元语法的精确统计一般也无法获得。因此,识别重要的罕见的单词的可能性很低,并且单词顺序常常不正确。这导致IR系统的查全性(recall performance)差。其次,随着列表和索引的大小的增大,基于单词的IR系统的计算负荷也增大,并且系统的性能对于实时检索来说变得不可接受。
技术实现思路
本专利技术的实施方式提供了一种用于在以粒子表示的信息检索(IR)数据库中检索项目的方法。唯一粒子的数量大大小于唯一单词的数量(例如,至少小一个数量级)。这改善了自动语音识别(ASR)系统的性能,使得识别时间减少多达50%。令人惊讶地是,即使与单词的数量相比显著减少了粒子的数量并且吞吐量同样增加时,通过查全率(recall rate)测量的IR系统的性能提高了 2%。本专利技术的实施方式基于如下认识针对信息检索(IR)系统的操作,使用尽可能彼此不同的粒子来表示单词集合是有利的。例如,具有尽可能彼此不同的粒子在ASR期间允许精确的识别。而且,实施方式基于如下进一步的认识可使用编辑距离来测量粒子之间的差异。本专利技术的一个实施方式公开了一种变换输出粒子集合中的由项目集合中的至少一部分形成的粒子集合的方法,其中所述项目集合表示适于在信息检索系统中使用的单词集合。针对所述粒子集合中的各个粒子,该方法生成所述粒子集合中的粒子的部分的组合,并且使用使所述粒子集合的总的最小编辑距离(MED)最大化的组合的所述部分来替代所述 粒子集合中的所述粒子。例如,该方法确定所述粒子集合中的各个粒子的MED,将所述粒子集合的所述总的MED确定为各个粒子的MED的总和,然后确定使所述粒子集合的所述总的MED最大化的所述组合。另一个实施方式公开了一种用于生成表示单词集合的输出粒子集合的方法,该方法包括如下步骤由所述单词集合确定粒子集合;生成所述粒子集合中的粒子的部分的组合;使用使所述粒子集合的总的最小编辑距离(MED)最大化的组合的所述部分来替代所述粒子集合中的所述粒子;以及针对所述粒子集合中的各个粒子,重复所述生成步骤和所述替代步骤,以生成所述输出粒子集合,其中该方法的步骤由处理器执行。又一个实施方式公开了一种用于变换表示单词集合的输出粒子集合中的粒子集合的系统,该系统包括变换模块,其被配置为针对所述粒子集合中的各个粒子确定使所述粒子集合的总的最小编辑距离(MED)最大化的所述粒子的部分的组合;以及处理器,其被配置为使用所述组合的所述部分来替代所述粒子集合中的所述粒子。该实施方式的一个变形包括用于确定所述粒子集合中的各个粒子的MED的单元;用于确定所述粒子集合的所述总的MED的单元;以及用于确定使所述粒子集合的所述总的MED最大化的所述组合的单元。附图说明图I是根据本专利技术实施方式的信息检索系统的框图;图2A是按照单词书写的感兴趣项目的索引的表;图2B是根据索引的单词的发音词典的表;图3是根据本专利技术实施方式的从单词到粒子的映射的示例的表;图4是根据本专利技术实施方式的、按照粒子书写的感兴趣项目的索引的示例的表;图5是粒子的发音词典的表;图6是根据本专利技术实施方式的用于变换输出粒子集合中的粒子集合的方法;图7是根据本专利技术实施方式的用粒子的前缀和后缀替代该粒子的方法的框图;以及图8是示出粒子的变换的表。 图9是示出粒子的变换的表。图10是示出粒子的变换的表。图11示出粒子的变换的表。具体实施例方式如图I所示,本专利技术的实施方式提供了一种在信息检索(IR)系统100中从数据库中检索项目的方法。如本领域公知的那样,该方法的步骤在处理器中运行。处理器包括存储器和I/O接口。IR系统包括由单词表不的项目列表101。由该基于单词的列表101,我们生成110由粒子(particle)表示的项目列表102。基于单词的列表中的项目与基于粒子的列表中的项目之间的对应关系可以是一对一,或者当可能存在单词的另选发音时,该对应关系可以是一对多。粒子在语音识别领域中是公知的。如这里所定义的,“粒子”表示连接的音素序列。一串粒子表示单词的音素序列,参见Whittaker等人的“Particle-based languagemodelling”,语音和语言处理国际会议(ICSLP),2000。迄今为止,粒子仅在自动语音识别器(ASR)系统中用于识别单词。相比之下,本专利技术使用粒子来执行信息检索(IR)。我们将索引器120应用到列表102,以产生基于粒子的索引121。为了检索项目,从用户104获取基于粒子的查询103。查询可以来自文本中的单词或使用ASR的语音。查询103用于查找从基于粒子的列表102构成的索引121。响应于查询103的输出是来自基于单词的列表101的与基于粒子的列表102中的项目最佳匹配的项目的结果列表。为了生成基于粒子的列表102,在预处理步骤中,我们维持列表101中的唯一单词的集合149。我们将基于单词的集合149转换成唯一粒子的集合151。在我们获得基于粒子的集合151之后,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:托尼·伊扎特
申请(专利权)人:三菱电机株式会社
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1