【技术实现步骤摘要】
【国外来华专利技术】搜索索引格式优化背景在由多个文档组成的搜索域内搜索关键字或相似的数据项通常涉及使用索引。通 常,该索引是将关键字与文档相关联的倒排索引。在搜索索引本质上是通用的情况下,它必须支持各种类型的搜索。一个常见示例 是关键字搜索,其中用户提供一个或多个关键字或值,并且搜索结果是搜索域内包含所有 关键字的所有文档。另一示例是短语搜索,其中用户提供由两个或更多单词以特定顺序组 成的短语。在这种情况下,搜索结果是来自搜索域中包含恰如所提供的短语的短语(即,所 有单词相邻且以相同的顺序)的所有文档。支持短语查询的索引必须包含比不支持短语查 询的索引多得多的数据,因为它必须包括单词每一次出现在文档内的位置。为了满足用户需求,搜索必须既快速又准确。在索引层面,这引发了竞争的需求。 为了精确索引必须是完整的,但这驱动了对较大索引的需求。为了快速访问索引必须是较 小的,但这驱动了消除数据的需求。可以使用压缩方案来减少必须读入的数据量,但是这可 能不足以满足用户对快速结果的需求。概述提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概 念。本概述并不旨在标识出所要求保护的主题 ...
【技术保护点】
一种搜索搜索域内的多个文档的方法,所述方法包括: (a)提供(1022)具有一系列连续、长度可变的文档ID增量条目(904)的经压缩的文档ID增量列表(708),对所述多个文档中包含关键字的每一个文档有一个所述文档ID增量条目; (b)提供(1023)具有一系列连续、长度可变的关键字出现计数条目的出现计数列表(710),对所述经压缩的文档ID增量列表(708)中的多个文档中的至少某一些中的每一个有一个所述关键字出现计数条目;以及 (c)通过使用所述经压缩的文档ID增量列表(708)并使用所述出现计数列表(710)来搜索(202)所述多个文档。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:R卡萨诺夫,CC梅里根,M佩特立克,AI科汉,
申请(专利权)人:微软公司,
类型:发明
国别省市:US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。