索引实体的方法和系统技术方案

技术编号:2843840 阅读:200 留言:0更新日期:2012-04-11 18:40
一种索引位于分类体系中的多个实体的系统和方法,所述实体包括项的集合,所述方法包括:在索引结构中接收项;为实体建立关于定义实体的项的集合的位置和与各个项关联的数据的记录列表;以及索引包括组内的位于实体位置的实体的组的名称,所述组的数据包括在每个位置的各个实体的名称。记录列表的建立包括将项的位置以及与项关联的数据存储在该项的记录列表的条目中。该方法包括索引包括所述项的组的名称的别名,并使用倒排表索引以将数据与索引项的每个出现关联。

【技术实现步骤摘要】

本专利技术的实施例总的来说涉及信息检索系统,更具体地说,涉及用于在全文倒排表(full text inverted list)信息检索系统中的数据搜索的技术。
技术介绍
分类体系(taxonomy)是对事物的分类。例如,大多数操作系统中的公知目录结构是用于将单独的文件组织成组的方法。在全文索引中,索引利用的是许多文档共享相同的标记(token)(例如,单词或字符)的事实。尽管每个独特的标记在文档的原始集合中会出现多次,但是倒排表索引通常仅将该标记存储一次。因此,通常,可将倒排表索引看作压缩文档的集合的一种形式。典型地,压缩率依赖于索引的范围。通常,基本的倒排索引仅记录某个项(term)是否出现在文档之内,而并不记录它出现了多少次或者它出现在哪里。全倒排索引通常记录每个标记在每个文档之内的每次出现(occurrence)。尽管基本的倒排索引在存储方面更加紧凑,但是它通常不能支持搜索标记的序列,或在标记的特定窗之内搜索标记的存在。然而,全倒排索引通常允许这样的复杂搜索。在基本的倒排索引和全倒排索引之间,存在可以存储在某个项的倒排表之内的各种级别的信息。关于倒排表,一种最众所周知的索引形式是书本中的索引。几乎每本书都在书的末尾具有单词或单词序列(例如,段落和章节标题)的通常按字母顺序排列的列表,连同论述它们的页码。使用索引,人们可避免为了找到包含特定单词的页面而逐页地浏览。类似地,在例如网络搜索引擎的信息检索应用的情况下的倒排表索引所作的也正是上述内容。抽象地来说,可将网络看作一本书,各个网络文档代表书中的页面。通过扫描要被索引的所有文档并将它们分成标记来执行建立倒排表索引的处理。这一处理称作分析(parsing)或标记化(tokenization),它产生可以是英文文档中的单词、中文字符、4字节数字等的标记。对全文索引的查询与所有查询项的倒排表的交集/结合(取决于查询操作符,例如,OR、AND)相同。因此,查询结果本身是一个倒排表。对于查询的每个项,通常必须访问倒排表。数据挖掘(mining)的处理涉及从较大的数据集合中提取诸如模式、关系等信息。数据挖掘者(所谓的注解者)通常逐文档地操作所述集合,并将元数据添加到所述集合。可将实体(entity)理解为人们用许多名称或描述来引用的内容。实体可以是个人、机构、组织、建筑或国家。所有这些具有的共同点在于可以用不同的语言、不同的名称或别名、或者其名称的变化的简称来描述同一个事物。因此,通常也可将实体表示为搜索查询。上述概念允许用户搜索多个单词或挖掘的实体。然而,通常这是不够的。计算机用户通常趋于想要把事物组织和集中到一起。这种例子包括使用用于集中相关文件的目录或将电子邮件地址集中到一起的寄送列表的文件系统。基本的想法在于可通过引用单个别名(alias)(即,目录名称或寄送列表的名称)对一组事物执行操作。在搜索应用中,期望相似的功能。并不是搜索包含一组特定项的文档,使用别名来索引和搜索所述组通常更加高效。例如,可使用单个的项“政治家”将文档中出现的所有政治家的名字集中。这样,人们可以高效地搜索文档的集合,而不必单独地列出所有政治家。当搜索一组事物时,其通常不仅有助于找到匹配所述组的文档,还有助于了解组名称的出现的背后“隐藏”着哪个实体。针对这一问题的第一种传统解决方案为通过分别查询例如“政治家”的组中的每个政治家来查询该组。然而,由于该组会包含数千、数百万或者某些情况下数亿的条目(例如,所有人名的组),并且在这种情况下的处理速度会从几分之一秒到数日,所以这通常是不可接受的。第二种传统解决方案为创建与该组相对应的新标记。然而,这种解决方案通常无法提供重要的功能。用户知道结果集合中的文档涉及政治家,但是并不知道涉及哪个政治家。对于特定的分析应用,这一方法也是不可接受的。关系数据库是用于存储关系数据的比较成熟的工具。在组中包含实体也是一种关系。然而,关系数据库通常不适于建立大规模的文本索引。因此,需要一种新型的索引技术,其能够找到包含属于组的实体的文档,并且能够找出在组名称的出现的背后“隐藏”着哪个实体。
技术实现思路
考虑到以上内容,本专利技术的实施例提供一种索引位于分类体系中的多个实体的方法,所述实体包括项(term)的集合。在另一实施例中,由计算机可读的计算机存储设备,有形地包含由计算机可执行的指令的程序,所述程序用于执行索引位于分类体系中的多个实体的方法,其中,该方法包括在索引结构中接收项;为实体建立关于项的位置以及与从索引结构接收的项关联的数据的记录列表(postinglist);以及将组的名称索引到实体的位置,组的数据包括实体的名称。优选的是,建立记录列表的处理包括将所述实体的位置以及与所述实体关联的数据存储在用于该组的记录列表的条目中。此外,该方法还包括使用倒排表索引将数据与索引项的每次出现相关联,并搜索倒排表索引以允许在文档命中的集合中进行统计聚集,其中,统计聚集指示哪些单独的实体存在于文档集合中。此外,该方法还包括对于索引器找到的每个文档提取某个项的所有出现的数据字段。本专利技术的另一方面提供一种索引位于分类体系中的多个实体的系统,所述实体包括项的集合,其中,该系统包括适于接收项的索引结构;以及它们各自的记录列表,所述记录列表包括项的位置和与每个位置有关的数据,其中,索引结构包括组的名称和它的各个记录列表,所述记录列表包括组内的所有实体的位置,每个数据字段包括每个位置的相应实体的名称。优选的是,记录列表适于将项的位置以及与项关联的数据存储在用于该项的记录列表的条目中。该系统还包括适于将数据与索引项的每个出现相关联的倒排表索引结构。此外,该系统还包括查询机制,其适于搜索倒排表索引结构以允许在文档命中的集合中进行统计聚集(aggregation),其中,统计聚集指示哪些单独的实体存在于文档集合中。此外,该系统还包括索引器,适于对于该索引器找到的每个文档提取某个项的所有出现的数据字段。当结合下面的描述以及附图进行考虑时,将更好地认识和理解本专利技术的实施例的这些和其它方面。然而,应理解,以下描述在表示本专利技术的优选实施例以及其许多特定细节的同时,仅作为示例示出,而并不是限制性的。在不脱离本专利技术的精神的情况下,在本专利技术的实施例的范围之内可进行各种改变和修改,本专利技术的实施例包括所有这样的修改。附图说明通过下面参照附图进行的详细描述,将更好地理解本专利技术的实施例,其中图1是示出本专利技术实施例的优选方法的流程图;图2示出分类体系顺序的示意图;图3是根据本专利技术实施例的系统图;以及图4是根据本专利技术实施例的计算机结构图。具体实施例方式参照在附图中示出并在下面的描述中详细说明的非限制性实施例,将更加全面地解释本专利技术的实施例及其各种特征和有利细节。应注意到,并不一定按照比例来绘制附图所示的特征。将公知部件和处理技术的描述省略,以便避免不必要地模糊本专利技术的实施例。这里使用的示例仅仅是为了有助于理解可实施本专利技术实施例的方式,并进而使得本领域的技术人员能够实施本专利技术的实施例,因此,不应将示例解释为限制本专利技术实施例的范围。如上所述,需要一种新型的索引技术,其能够找到包含属于组的实体的文档,并且能够找出在组名称的出现的背后“隐藏”着哪个实体。本专利技术的实施例通过提供一种在大规模全文索引中支持索引本文档来自技高网
...

【技术保护点】
一种索引位于分类体系中的多个实体的方法,所述实体包括项的集合,所述方法包括:在索引结构中接收所述项的集合;为实体建立关于所述项的集合的位置和与所述项的集合关联的数据的记录列表;以及索引包括位于所述项的集合的所述位置的 所述实体的组的名称,所述组的数据包括所述实体的名称。

【技术特征摘要】
US 2005-9-30 11/241,6871.一种索引位于分类体系中的多个实体的方法,所述实体包括项的集合,所述方法包括在索引结构中接收所述项的集合;为实体建立关于所述项的集合的位置和与所述项的集合关联的数据的记录列表;以及索引包括位于所述项的集合的所述位置的所述实体的组的名称,所述组的数据包括所述实体的名称。2.如权利要求1所述的方法,其中,记录列表的建立包括将所述实体的所述位置以及与所述实体关联的数据存储在所述实体的所述记录列表的条目中。3.如权利要求1所述的方法,还包括使用倒排表索引将数据与索引项的每次出现相关联。4.如权利要求3所述的方法,还包括搜索所述倒排表索引以允许在文档命中的集合中进行统计聚集,其中,所述统计聚集指示哪些单独的实体存在于文档集合中。5.如权利要求1所述的方法,还包括对于由索引器找到的每个文档提取某个项的所有出现的数据字段。6.一种计算机可读的程序存储设备,其有形地包含可由所述计算机执...

【专利技术属性】
技术研发人员:乔尔格梅尔简H派博丹尼尔H梅里蒂斯安德鲁S托姆金斯纳达维埃洛恩
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1