【技术实现步骤摘要】
本专利技术一般涉及用于在大量文本数据中进行计算机化检索的系统和方法。
技术介绍
从支持诸如Google、 MSN的因特网搜索站点到诸如Lucene的开放式 源码(open source)范围的现代搜索引擎已经成为用于快速从各种源定位 信息文档和多^^体内容的极其有用的工具。典型的现代搜索引擎构建文档 中词项(term)的索引表示,以便定位相关的文档,该索引表示可以被认 为是对与特定搜索项相关的一组文档进行定位的查找表,该查找表对于所 有的搜索项是顺序排列的,并且该表中的每一词条(entry)均由一个搜索 项以及与该搜索项相关的所有文档组成。给定搜索项,在查找表中定位该 词条来返回一列相关文档。类似地,^使用词条查找的并集或集合交汇可以 处理搜索项的组合。该索引表示通常被称为倒排索引(inverted index)。在Web搜索和主页搜索的情况下,所期望的即是定位文档而不需要额 外在文档本身内定位搜索项。然而,在诸如用户手册、编程指南等的多页 或长篇文档,或者全长几分钟的多^^体(视频和音频文件)的情况下,这 也变得重要起来,即不仅要定位与给定的搜索查询相关的文档 ...
【技术保护点】
一种生成文档的位置表示的方法,其包括:标识文档中的唯一词项并且确定所述唯一词项中的每一个出现在所述文档中的位置;以及对于所述唯一词项中的每一个,将从所述位置获得的位置信息存储到位置表示中。
【技术特征摘要】
US 2006-8-23 11/508,6421.一种生成文档的位置表示的方法,其包括标识文档中的唯一词项并且确定所述唯一词项中的每一个出现在所述文档中的位置;以及对于所述唯一词项中的每一个,将从所述位置获得的位置信息存储到位置表示中。2. 根据权利要求l的方法,其进一步包括标识所述文档中的注释并且确定所述注释中的每一个出现在所述文 档中的注释位置;以及对于所述注释中的每一个,将从所述注释位置获得的注释位置信息存 储到所述位置表示中。3. 根据权利要求1的方法,其进一步包括将表示所述文档的文档 标识符存储到所述位置表示中。4. 根据权利要求3的方法,其中对所迷位置信息的存储包括 生成记录,所述记录具有所述唯一词项的第一唯一词项以及对应于所述第一唯一词项的位置;以及将所述记录添加到所述位置表示。5. 根据权利要求3的方法,其中对所述位置信息的存储包括 生成记录,所述记录具有所述唯一词项的第一唯一词项、对应于所述第 一唯一词项的位置的第 一位置,以及在所述第 一位置之后的位置的相对偏移量;以及将所述记录添加到所述位置表示。6. 根据权利要求1的方法,其中所述唯一词项中的每一个是由一个 或多个词组成的。7. 根据权利要求4的方法,其中所述记录进一步包括对所述第一 唯一词项在所述文档中的出现的计数。8. 根据权利要求5的方法,其中所述记录进一步包括对所述第一 唯一词项在所述文档中的出现的计数。9. 根据权利要求3的方法,其进一步包括对于所述唯一词项中的每一个,生成具有所述唯一词项的第 一唯一词 项以及所述文档标识符的词条,并且将所述词条添加到倒排索引。1...
【专利技术属性】
技术研发人员:G延加尔,GN拉马斯瓦米,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。