当前位置: 首页 > 专利查询>微软公司专利>正文

搜索索引格式优化制造技术

技术编号:4987914 阅读:212 留言:0更新日期:2012-04-11 18:40
提供了一种搜索索引结构,其通过结合为从存储中进行快速检索而优化并且消除专用于短语搜索的数据的索引来扩展典型的复合索引。其他数据以允许计算数据而非存储数据的方式来表示。将可变长度条目与逻辑类别相关联允许从类别推断条目长度而非存储类别长度。使用文档ID之间的增量值而非ID本身生成通过哈夫曼编码或类似的压缩方法来高效地压缩的紧凑的、密集的符号集。在编码之前使用上阈值来从该符号集中移除较大的且由此少见的增量值进一步提高编码性能。

【技术实现步骤摘要】
【国外来华专利技术】搜索索引格式优化背景在由多个文档组成的搜索域内搜索关键字或相似的数据项通常涉及使用索引。通 常,该索引是将关键字与文档相关联的倒排索引。在搜索索引本质上是通用的情况下,它必须支持各种类型的搜索。一个常见示例 是关键字搜索,其中用户提供一个或多个关键字或值,并且搜索结果是搜索域内包含所有 关键字的所有文档。另一示例是短语搜索,其中用户提供由两个或更多单词以特定顺序组 成的短语。在这种情况下,搜索结果是来自搜索域中包含恰如所提供的短语的短语(即,所 有单词相邻且以相同的顺序)的所有文档。支持短语查询的索引必须包含比不支持短语查 询的索引多得多的数据,因为它必须包括单词每一次出现在文档内的位置。为了满足用户需求,搜索必须既快速又准确。在索引层面,这引发了竞争的需求。 为了精确索引必须是完整的,但这驱动了对较大索引的需求。为了快速访问索引必须是较 小的,但这驱动了消除数据的需求。可以使用压缩方案来减少必须读入的数据量,但是这可 能不足以满足用户对快速结果的需求。概述提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概 念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征本文档来自技高网...

【技术保护点】
一种搜索搜索域内的多个文档的方法,所述方法包括:  (a)提供(1022)具有一系列连续、长度可变的文档ID增量条目(904)的经压缩的文档ID增量列表(708),对所述多个文档中包含关键字的每一个文档有一个所述文档ID增量条目;  (b)提供(1023)具有一系列连续、长度可变的关键字出现计数条目的出现计数列表(710),对所述经压缩的文档ID增量列表(708)中的多个文档中的至少某一些中的每一个有一个所述关键字出现计数条目;以及  (c)通过使用所述经压缩的文档ID增量列表(708)并使用所述出现计数列表(710)来搜索(202)所述多个文档。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:R卡萨诺夫CC梅里根M佩特立克AI科汉
申请(专利权)人:微软公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1