用于内容的位置表示的装置和方法制造方法及图纸

技术编号:2833219 阅读:256 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种用于内容的位置表示的装置和方法。一种生成文档的位置表示的方法,其包括标识文档中的每个唯一词项以及所述唯一词项出现在所述文档中的位置,并且对于所述每个唯一词项,将从所述位置获得的位置信息存储到位置表示中。

【技术实现步骤摘要】

本专利技术一般涉及用于在大量文本数据中进行计算机化检索的系统和方法。
技术介绍
从支持诸如Google、 MSN的因特网搜索站点到诸如Lucene的开放式 源码(open source)范围的现代搜索引擎已经成为用于快速从各种源定位 信息文档和多^^体内容的极其有用的工具。典型的现代搜索引擎构建文档 中词项(term)的索引表示,以便定位相关的文档,该索引表示可以被认 为是对与特定搜索项相关的一组文档进行定位的查找表,该查找表对于所 有的搜索项是顺序排列的,并且该表中的每一词条(entry)均由一个搜索 项以及与该搜索项相关的所有文档组成。给定搜索项,在查找表中定位该 词条来返回一列相关文档。类似地,^使用词条查找的并集或集合交汇可以 处理搜索项的组合。该索引表示通常被称为倒排索引(inverted index)。在Web搜索和主页搜索的情况下,所期望的即是定位文档而不需要额 外在文档本身内定位搜索项。然而,在诸如用户手册、编程指南等的多页 或长篇文档,或者全长几分钟的多^^体(视频和音频文件)的情况下,这 也变得重要起来,即不仅要定位与给定的搜索查询相关的文档,而且还要 定位搜索项在文档本身内的适当位置。例如,如果用户想要定位关于特定 体育事件的新闻广播,该用户不仅会想要访问相关的广播,而且还要访问 其中提到该体育事件的、这样的广播内的精确时隙。类似地,对于用户手 册,可以在文档内深入定位相关的搜索项,而能够直接跳转到文档中该词 项的准确位置将会是理想的。对该问题的典型解决方案是将文档分成多个文档并且单独索引这些子 文档中的每一个,或者线性扫描文档以^更在已经将其标识为相关之后在该 文档内定位搜索项。然而,由于将文档任意組块为子文档,分割文档导致 了上下文信息的重大缺失。另外,线性扫描的成本是受限制的,尤其是当存在多个匹配文档并且每个文档的长度都长时(例如,现在1000页的pdf 文档并非罕见)。另 一 问题在于在索引和重新索引期间,搜索应用通常扫描文档并且创 建倒排字索引(inverted word index),以便内在地表示该文档。该过程 相当昂贵,特别是对于其中连续添加新文档的应用来说,要求有规律地定 期重新索引文档。需要一种对数据的位置表示,其使得有可能有效率地索引文档并且检 索所搜索的信息。
技术实现思路
根据本专利技术的示例性实施例,提供了 一种生成文档的位置表示的方法。 该方法包括标识文档中的唯一词项并且确定所述唯一词项中的每一个出 现在所述文档中的位置,以及对于所述唯一词项中的每一个,将从所述位置获得的位置信息存储到位置表示中。根据本专利技术的示例性实施例,提供了一种计算机可读介质,其包括用 于生成文档的位置表示的计算机代码。该计算机可读介质包括用于标识所 述文档中唯一词项中的每一个并且确定所述唯一词项中的每一个出现在所 述文档中的位置的计算机代码,以及对于所述唯一词项中的每一个,用于 将从所述位置获得的位置信息存储到位置表示中的计算机代码。根据本专利技术的示例性实施例,提供了一种用于从文档的位置表示生成 倒排索引的方法。该方法包括以下步骤输入文档的位置表示,其具有文 档标识符和位置记录,其中所述位置记录包括所述文档的词项以及所述词 项在所述文档中的出现位置;为所述位置记录中的每一个生成词条,其中 所述词条包括所述词项以及文档记录,其中所述文档记录包括所迷文档标识符和所述出现位置;以及将所述词条插入到倒排索引中。根据本专利技术的示例性实施例,提供了一种用于生成文本文档的位置表 示的装置。该装置包括处理器,所述处理器用于通过从文档中揭:取唯一 词项中的每一个及其在所述文档中相应的出现位置,将所述文档转换成位 置表示;为所述唯一词项中的每一个生成词条,其包括所述唯一词项的第 一唯一词项以及对应于所述唯一词项的第 一唯一词项的 一组出现位置;以 及将所述词条中的每一个添加到位置表示。通过结合附图阅读以下对示例性实施例的详细描述,本专利技术的这些和 其它的示例性实施例、方面、特征和优点将得到描述或变得更加明显。附图说明图l是根据本专利技术的示例性实施例的系统的高级框图,该系统用于在 通过搜索引擎进行索引之前组织文档;图2a说明了图1中所引用的文档的例子;图2b说明了根据图1的方法从图2a的文档生成的位置表示的示例性 实施例;图2c说明了根据图1的方法从图2a的文档生成的位置表示的示例性 实施例;以及图3a和图3b说明了根据本专利技术的示例性实施例从位置表示的集合生 成倒排索引。具体实施方式通常,如下文进一步详细描述的本专利技术的示例性实施例,包括了用于 在通过搜索引擎进行索引之前提供组织文档的有效技术的系统和方法。如 果通过使用文档的位置表示已经定位了相关文档,这有助于查找搜索项的 准确位置。位置表示还有助于通过搜索引擎有效地对文档进行倒排索引。 另外,位置表示大大地简化了倒排索引的计算,使其与由本领域状况下的 搜索引擎所使用的本地检索结构相容。文档的位置表示是这些文档的等效 无损表示。位置表示实际上是原始文档的压缩版本并且通常占用比原始文 档少的存储器,从而降低了存储需求。参照图l-3b的说明性实施例,现在将进一步详细讨论用于在通过搜索 51擎进行索《j之前组织文档的示例性系统和方法。应当理解文中所描述的 系统和方法可以以硬件、软件、固件、专用处理器或其组合的各种形式来 实现。特别地,本专利技术的至少一部分优选地实现为包括这样的程序指令的 应用,该程序指令有形地体现于一个或多个程序存储设备(例如,硬盘、 磁软盘、RAM、 ROM、 CDROM等)上,并且可由包括适当体系结构的 任何设备或机器来执行,例如,具有处理器、存储器,以及输入/输出接口 的通用数字计算机。应当进一步地理解,由于附图中所描述的组成系统部 件和过程步骤中的一些优选地以软件来实现,系统模块之间的连接(或方 法步骤的逻辑流程)可以取决于本专利技术的编程方式而不同。通过文中给出 的教导,相关领域的普通技术人员将能够设想本专利技术的这些和类似的实现。图l是根据本专利技术的示例性实施例的系统(100)的高级框图,该系统 (100)用于在通过搜索引擎进行索引之前组织文档。通常,系统(IOO) 包括词项标识和位置确定模块(120)、记录生成模块(130)、位置表示 数据库(140)、索引生成模块(150)、倒排索引数据库(160),以及查 询处理模块(180 ).将文档输入(110)到系统(100)并且将其传送到词项标识和位置确 定模块(120),词项标识和位置确定模块(120)标识文档中所有的唯一 词项及其相应的位置。唯一词项可以是一个或多个词或者注释。将该信息 传送到记录生成纟莫块(130),记录生成模块(130)为每个唯一词项构建 记录,其具有从相应位置获得的位置信息。记录生成模块(130)将记录组 合成位置表示数据结构并且将数据结构存储到位置表示数据库(140)中。 根据需要输入(110)另外的文档,每个文档均在位置表示数据库(140) 中创建新的词条。索引生成模块(150)处理存储在位置表示数据库(140) 中的位置表示,以便生成倒排索引。在典型的倒排索引中,对于每个词项,对其中出现该词项的一列文档 进行存储。倒排索引一般通过直接遍历每个文档来生成。然而,由于每本文档来自技高网
...

【技术保护点】
一种生成文档的位置表示的方法,其包括:标识文档中的唯一词项并且确定所述唯一词项中的每一个出现在所述文档中的位置;以及对于所述唯一词项中的每一个,将从所述位置获得的位置信息存储到位置表示中。

【技术特征摘要】
US 2006-8-23 11/508,6421.一种生成文档的位置表示的方法,其包括标识文档中的唯一词项并且确定所述唯一词项中的每一个出现在所述文档中的位置;以及对于所述唯一词项中的每一个,将从所述位置获得的位置信息存储到位置表示中。2. 根据权利要求l的方法,其进一步包括标识所述文档中的注释并且确定所述注释中的每一个出现在所述文 档中的注释位置;以及对于所述注释中的每一个,将从所述注释位置获得的注释位置信息存 储到所述位置表示中。3. 根据权利要求1的方法,其进一步包括将表示所述文档的文档 标识符存储到所述位置表示中。4. 根据权利要求3的方法,其中对所迷位置信息的存储包括 生成记录,所述记录具有所述唯一词项的第一唯一词项以及对应于所述第一唯一词项的位置;以及将所述记录添加到所述位置表示。5. 根据权利要求3的方法,其中对所述位置信息的存储包括 生成记录,所述记录具有所述唯一词项的第一唯一词项、对应于所述第 一唯一词项的位置的第 一位置,以及在所述第 一位置之后的位置的相对偏移量;以及将所述记录添加到所述位置表示。6. 根据权利要求1的方法,其中所述唯一词项中的每一个是由一个 或多个词组成的。7. 根据权利要求4的方法,其中所述记录进一步包括对所述第一 唯一词项在所述文档中的出现的计数。8. 根据权利要求5的方法,其中所述记录进一步包括对所述第一 唯一词项在所述文档中的出现的计数。9. 根据权利要求3的方法,其进一步包括对于所述唯一词项中的每一个,生成具有所述唯一词项的第 一唯一词 项以及所述文档标识符的词条,并且将所述词条添加到倒排索引。1...

【专利技术属性】
技术研发人员:G延加尔GN拉马斯瓦米
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1