当前位置: 首页 > 专利查询>微软公司专利>正文

索引元数据的快速更新制造技术

技术编号:6055869 阅读:359 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及索引元数据的快速更新。提供了用于对存储器内索引执行更新过程的系统和方法。在以更新文件的形式接收到对与搜索引擎相关联的倒排索引所覆盖的文档修改的通知之后,将该修改的表示发布到各索引服务机器上。接收该更新文件的每一索引服务机器确定修改是否适用于该索引服务机器。如果索引服务机器确定它包含与经修改的文档相对应的映射信息,则索引服务机器利用该更新文件和相关联的映射信息来更新存储器内索引。在各实施方式中,存储器内索引被用来配合倒排索引提供对用户查询的结果。在一些实施方式中,维护使用持续传入的元数据更新来修订的额外存储器内索引,并且已有存储器内索引与经修订的存储器内索引周期性地进行交换。

Fast update of index metadata

The present invention relates to rapid updating of index metadata. Systems and methods are provided for performing update processes to indexes in memory. After receiving a notification of document modification covered by inverted indexes associated with the search engine in the form of an update file, the modified representation is posted to each index service machine. Each index service machine that receives the update file determines whether the modification applies to the index service machine. If the index service machine determines that it contains mapping information corresponding to the modified document, the index service machine updates the index in the memory with the update file and associated mapping information. In each embodiment, the intra memory index is used to match the inverted index to provide results for user queries. In some embodiments, additional memory indexes are updated using persistent metadata updates, and existing memory indexes are periodically exchanged with the revised memory index.

【技术实现步骤摘要】

本专利技术涉及索引更新,尤其涉及索弓I元数据的快速更新。
技术介绍
通常,索引被用来促进web的高效导航。这些索引是根据处于该索引的范围内的文档(例如,网页)的内容的改变来频繁更新的。在各种情况下,使用web爬行器来以预定的时间间隔浏览这些文档以发现对内容的改变。通常,在每次web爬行器发现对文档的内容的改变时都替换整个索引,而不管该改变有多么无关紧要。替换索引通常包括使该索引长时间离线并执行该索引的完全归并。另外,在主索引离线时,需要创建若干副本索引并在主索引停机时依赖这些副本索引来为用户服务。频繁地(例如,每天)执行完全归并惊人地昂贵,因为它消费大量计算资源。因此,索引并未被更新得足以有效地跟踪对它们的范围内的文档的内容的改变。因为用于更新索引以与所跟踪的文档或其他数据的内容相对应的当前解决方案在更新之前导致显著的延迟,所以该索引没有反映对网页的各项(例如,在线销售的物品所附的价格)的最新近改变或对其他结构化数据(例如,各种格式的文档、非web源)的更新。当索引在大小上昂贵从而覆盖了存储在多个网站处的多个文档时,延迟更新的这些缺点更加恶化。
技术实现思路
提供
技术实现思路
是为了本文档来自技高网
...

【技术保护点】
1.一个或多个存储计算机可使用指令的计算机存储介质,当所述指令由一个或多个计算设备执行时,使得所述一个或多个计算设备执行一种方法,所述方法包括:接收更新文件,其中所述更新文件提供已经发生了对与倒排索引相关联的一个或多个文档的内容的修改的指示;以及将所述更新文件发布给位于多个索引服务设备上的存储器内索引管理器,其中所述存储器内索引管理器被配置成启动将所述更新文件应用于主存储器内索引的更新过程;其中所述更新过程包括:对于发布给所述存储器内索引管理器的每一更新文件,确定所述多个索引服务设备中的每一索引服务设备是否包含与所述更新文件相对应的映射数据;对于包含与所述更新文件相对应的映射数据的每一索引服务...

【技术特征摘要】
...

【专利技术属性】
技术研发人员:P·佩曼德拉俞寅喆G·萨瑞恩A·库马
申请(专利权)人:微软公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1