为文本文档语料库建立索引的方法和装置制造方法及图纸

技术编号:2873166 阅读:440 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种用于实现一种方法(图2)以修剪一个文本文档语料库的索引的装置,其中该方法包括以下步骤:对索引中的显出记录进行排序(50)和从该索引中修剪掉(48)排序中低于给定水平的显出记录。本发明专利技术的这些修剪方法是有损的,因为一些文档显出记录被从完全的索引中去掉;然而,用户无法区别该有损索引和完全索引。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般地涉及在大的文本数据体中进行计算机化搜索的方法和系统,具体地涉及建立搜索索引。
技术介绍
快速和精确的文本搜索引擎被广泛地用于网络和桌面应用。正在出现的手持设备,如Palm PilotTM,具有足够的存储能力,允许在设备上存储完整的中等大小的文档集以供快速引用和浏览。希望以高级的基于索引的搜索引擎装备这些设备,但手持设备上的存储能力仍然相当有限。大多数高级信息检索(IR)应用创建倒排索引,以支持对给定文档集的高质量搜索服务。这类系统的一个实例是Guru搜索引擎,它由Maarek和Smadja在“基于词法关系的全文本索引,一个应用软件库”(关于信息检索的研究与开发的第12届国际ACM-SIGIR年会文集,第198-206页,1989)一文中予以描述,这里以引用方式将全文纳入。对文档集内的每个文档进行分析并根据该文档的内容由索引单元或索引项的向量简表来表示。一个索引项可以是一个词(word)、一对紧密相关的词(词法结合体)或一个短语。在一个文档中的每个索引项与它所关联的显出表(postinglist)一起存储在索引中。显出表包含显出记录,这里每个显出记录包括含有该索引项的文档的标识符,该索引项在那个文档中的评分,还可能有关于该索引项在该文档中出现情况的附加信息,如出现次数和出现位置的偏移量。在许多信息检索系统中使用的一个典型评分模型是tf-idf公式,由Salton和McGill在“现代信息检索引论”(McGraw-Hill出版社,1983)中描述,该文在这里以引用方式将全文纳入。项t对文档d的评分依赖于t在d中的项频度(tf)、文档d的长度以及在该集合中含t的文档个的倒数(idf)。Chris Buckley等在“使用SMART的新检索途径TREC 4”一文(第四届文本检索会议(TREC 4)文集,第25-48页,Gaithersberg,Maryland,1995年11月)中描述了一个tf-idf公式示例,该文在这里以引用方式将全文纳入。该公式给出,文档d对项t的评分A(t,d)是A(t,d)=log(1+tf)log(1+avgtf)×log(N/Nt)/|d|]]>这里avgtf是文档d中的平均项频度,N是在该集合中的文档数,Nt是含有项t的文档数,|d|是文档d的长度。通常,|d|是由d中(唯一)项的数量的平方根来近似的。在搜索时,从用户查询中提取出项,从倒排索引中检索出这些项各自的显出表。通过对从属于同一文档的显出记录的评分求和,积累该文档的显出评分以形成文档评分。在这一过程结束时,这些文档按它们的评分排队,并返回具有顶级评分的那些文档。对大的文档集合建立索引造成难于维护的巨大的索引文件。在索引压缩领域已做了大量工作,以便得到较小的索引文件。在本领域存在两种互补的途径。一种途径是在数据结构层进行压缩,即保留所有索引数据而同时试图得到显出表的更紧凑表示。另一种途径是通过删除或组合项,例如省去无用词(stop-word),以及潜在语义索引(LSI)来修剪索引。这类索引修剪的主要目的是通过从索引项中去掉可能降低搜索精度的那些项来降低索引系统中的“噪声”,但它对减小索引尺寸的实际作用使它与索引压缩这一主题密切相关。在省去无用词时,使用语言统计找出在语言中出现如此频繁以致在大多数文档中不可避免地会出现的那些词。在构成倒排索引时,在该语言中很频繁出现的那些词(无用词)被忽略。诸如“the”和“is”等词对检索任务没有贡献。如在“第七届文本检索会议(TREC-7)概述”(第七届文本检索会议(TREC-7)文集,国家标准和技术研究所,1999)中呈现的那样,TREC集合列举了在一般性文本文档中的词频度。该文在此以引入方式纳入。通过忽略TREC集合中的135个最频繁出现的词,发现有大约25%显出记录被去掉(Witten等,“管理数千兆字节”,Morgan KaufmanPublishers,San Francisco,California,1999,该文在此以引用方式纳入)。潜在语义索引(LSI)由例如Deerweester等在“利用潜在语义分析建立索引”(美国信息科学杂志,第41卷第1期(1990)第391-407页)一文中做了描述,该文在这里以引用方式纳入。LSI使用称作“奇异值分解”(SVD)的统计技术把倒排索引表示成三个矩阵的乘积。这一表达式通过保留最有意义的那些项去掉所有其他项来减少索引中的项数。LSI和省去无用词都是以项为粒度进行操作。换言之,它们只能从索引中修剪掉整个项,于是,如果某项一旦被修剪掉,该项便根本不出现在索引中。当一项被修剪时,它的整个显出表被从索引中去掉。动态修剪技术在索引已被建成之后在文档排序过程中确定某些项或文档显出记录是否值得加入到累积文档评分中以及该排序过程应该继续还是停止。Persin在“用于快速排序的文档过滤”(关于信息检索的研究与开发的第17届国际ACM-SIGIR年会文集,Dublin,Ireland,1994,SIGIR论坛专集,第339-348页)一文中描述了这类技术的示例,该文在这里以引用方式纳入。动态技术应用于给定的查询,从而减少查询时间。动态技术对索引的大小没有影响,因为它们应用于已经存储的索引。
技术实现思路
在本专利技术的优选实施例中,把一个集合中的项与文档关联起来的倒排索引是在文档显出记录粒度级进行修剪的,而不是像在本领域已知的系统中那样在项级粒度上进行修剪。如下文中描述的那样,通过对给定项适当选择要修剪的显出记录,索引的大小能被显著地减少而从用户的观点看又不会显著地影响索引的搜索精度。优选地,为文档的显出记录确定矩阵,然后将矩阵用于选择要从倒排索引中去掉的显出记录。应用这些矩阵的方式是要使得当用户以给定的查询来搜索被压缩的倒排索引时,返回的文档列表与在未被修剪的索引中由同样查询返回的顶级文档列表基本相同。本专利技术的修剪方法是有损的,因为某些文档显出记录被从索引中去掉了,这与本领域已知的方法不同,那些方法通过使用紧凑的数据结构和表示把数据存储在显出表中来压缩索引。有损和无损方法能彼此互补。在以有损方式修剪索引后,该索引能进一步以无损方式压缩,从而得到比单独使用这两种方法中任何一种可能得到的还要小的索引。所以,根据本专利技术的一个优选实施例,提供了一种装置用于实现对文本文档语料库建立索引的方法,包括如下步骤建立文档中出现的项的倒排索引,该索引包括这些项在文档中的显出记录;对索引中的显出记录排序;以及从索引中修剪掉排序中低于给定水平的显出记录。对显出记录排序可以包括对至少是一些项的每一项分别确定单独的排序,而对索引的修剪可以包括对这至少是一些项的每一项修剪其单独的排序。优选地,修剪该索引包括从用户接收至少一个参数并根据该参数和单独的索引排序来设置给定的水平。再有,这至少一个参数优选地包括要从索引中检索出的文档数k和在一个查询中允许的项数γ,而设置给定水平包括根据从排序顶点算起排序为k的一个文档的评分来设置该水平。根据一个实施例,设置给定水平优选地包括以γ除这一个文档的评分。在另一个实施例中,这至少一个参数包括从该排序中检索出的部分文档的个数δ以及在一个查询中允许的项数γ,而设置给定水平包括根据该排序中的那些文档中的第本文档来自技高网
...

【技术保护点】
一种用于为文本文档语料库建立索引的装置,其特点在于一个索引处理器,它被安排成建立文档中出现的项的倒排索引,该索引包含文档中那些项的显出记录,该处理器进一步被安排成建立该索引中显出记录的排序,并从该索引中修剪掉排序中低于给定水平的显出记录。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:D卡梅尔D科亨R费金E法尔基M赫尔什科维奇Y马雷克A索弗
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1