索引合并方法和索引合并装置制造方法及图纸

技术编号：3903080 阅读：265 留言：0更新日期：2012-04-11 18:40

公开了索引合并方法及装置。索引合并方法包括：确定索引库中是否存在不少于ｎ个的、尺寸符合基于预定基准的预定合并条件的子索引，ｎ为整数且大于等于２，预定基准与预定子索引的尺寸相关；如果确定存在则将确定的子索引作为子索引集；计算如果合并子索引集中的子索引将获得的新子索引的尺寸；在剩余的子索引中查找不少于ｍ个的、尺寸符合基于与新子索引尺寸相关的基准的预定条件的子索引，ｍ为整数且大于等于１；如果找到了则将找到的子索引加入子索引集中并对新的子索引集执行计算步骤和查找步骤；如果未找到则对子索引集中的子索引进行合并。利用根据本发明专利技术的方法和／或装置，能够在动态文本集环境下获得较稳定的优化的系统性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术总体上涉及信息处理领域，尤其是涉及利用索引技术的索引合并方法和索引合并装置。
技术介绍
在动态文档集环境中通常需要频繁且高效地更新索引。由于实时检索系统要求支持动态文档集以及并发的索引和查询，即，要求允许用户在进行索引更新的同时进行查询。然而，频繁的索引更新非常消耗系统性能。在动态文档集环境中，对索引更新的主要要求是使索引更新的性能和查询的性能相折衷以达到更加优化的整体性能。在例如Strohman， Τ·所著的“Dynamic Collections in Indri. CIIR Technical R印ort (2005) ”中，分析了动态文档集环境对于索引更新技术的要求。关于如何在动态文档集环境中进行索引更新，在现有的许多专利、专利申请或者论文等中公开了多种方法。例如在N. Lester、J. Zobel和H. Ε. Williams所著的 “In-place versus re-build versus re-merge Indexmaintenance strategies for text retrieval systems，，(Proc. Twenty-SeventhAustralasian Computer Science Conference (ACSC2004)，第15-22页)中列举了目前三种主要的索引更新方法。第一种方法是重建索引，即，在添加新文档时丢弃所有旧索引，对整个文档集和新的文档一起重新建立新索引。这种方法对于大规模文档集的效率很低。第二种方法是原地索引，即，在建索引时给每个索引项的倒排项预留一...

【技术保护点】
一种索引合并方法，包括以下步骤：确定在索引库中是否存在不少于ｎ个的、尺寸符合基于预定基准的预定合并条件的子索引，其中ｎ为整数且ｎ大于等于２，并且所述预定基准与预定子索引的尺寸相关；在确定索引库中存在不少于ｎ个的、尺寸符合基于预定基准的预定合并条件的子索引的情况下，将所确定的子索引作为子索引集；计算如果对所述子索引集中的子索引进行合并将会获得的新子索引的尺寸；在所述索引库中剩余的子索引中查找不少于ｍ个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引，其中ｍ为整数且ｍ大于等于１；如果在所述索引库中剩余的子索引中找到了不少于ｍ个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引，则将所找到的子索引加入所述子索引集中，然后对新的子索引集执行所述计算的步骤和所述查找的步骤；以及如果在所述索引库中剩余的子索引中未找到不少于ｍ个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引，则对所述子索引集中的子索引进行合并。

【技术特征摘要】

【专利技术属性】
技术研发人员：葛付江，王主龙，孟遥，于浩，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人