索引合并方法和索引合并装置制造方法及图纸

技术编号:3903080 阅读:265 留言:0更新日期:2012-04-11 18:40
公开了索引合并方法及装置。索引合并方法包括:确定索引库中是否存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引,n为整数且大于等于2,预定基准与预定子索引的尺寸相关;如果确定存在则将确定的子索引作为子索引集;计算如果合并子索引集中的子索引将获得的新子索引的尺寸;在剩余的子索引中查找不少于m个的、尺寸符合基于与新子索引尺寸相关的基准的预定条件的子索引,m为整数且大于等于1;如果找到了则将找到的子索引加入子索引集中并对新的子索引集执行计算步骤和查找步骤;如果未找到则对子索引集中的子索引进行合并。利用根据本发明专利技术的方法和/或装置,能够在动态文本集环境下获得较稳定的优化的系统性能。

【技术实现步骤摘要】

本专利技术总体上涉及信息处理领域,尤其是涉及利用索 引技术的索引合并方法和索 引合并装置。
技术介绍
在动态文档集环境中通常需要频繁且高效地更新索引。由于实时检索系统要求支 持动态文档集以及并发的索引和查询,即,要求允许用户在进行索引更新的同时进行查询。 然而,频繁的索引更新非常消耗系统性能。在动态文档集环境中,对索引更新的主要要求 是使索引更新的性能和查询的性能相折衷以达到更加优化的整体性能。在例如Strohman, Τ·所著的“Dynamic Collections in Indri. CIIR Technical R印ort (2005) ”中,分析了动 态文档集环境对于索引更新技术的要求。关于如何在动态文档集环境中进行索引更新,在现有的许多专利、专利申请 或者论文等中公开了多种方法。例如在N. Lester、J. Zobel和H. Ε. Williams所著的 “In-place versus re-build versus re-merge Indexmaintenance strategies for text retrieval systems,,(Proc. Twenty-SeventhAustralasian Computer Science Conference (ACSC2004),第15-22页)中列举了目前三种主要的索引更新方法。第一种方 法是重建索引,即,在添加新文档时丢弃所有旧索引,对整个文档集和新的文档一起重新建 立新索引。这种方法对于大规模文档集的效率很低。第二种方法是原地索引,即,在建索引 时给每个索引项的倒排项预留一定的空间,当有新文档加入索引时,如果预留的空间足够, 就将新文档的索引信息直接写入预留的空间,如果预留的空间不足,则将这些新的索引信 息写到新的位置,同时在原来的索引中添加一个指向新的存储区域的指针,从而将同一索 引项的倒排项通过指针串连起来。第三种方法是重新合并,即,在每次新加入文档时,首先 对新加入的文档建立一个子索引,然后将该子索引和磁盘上的索引进行合并,并将合并结 果写至新的磁盘位置。这种方法能够保证索引库中每个索引项的索引信息在磁盘上连续存 放,在查询时仅需一次磁盘定位操作,但是在使用重新合并方法时会在磁盘上形成多个子 索引,在查询时需要逐个访问这些子索引以获取查询项的倒排列表。这意味着要进行多次 磁盘访问,从而降低了查询效率。因此,需要在合适的时机进行索引合并,将多个子索引合 并为单个索引,以降低查询时的磁盘访问次数。在实际系统中绝大多数情况下重新合并方 法的效果要优于原地索引方法和重建索引方法。在现有的许多文章或专利中对第三种方法即重新合并方法进行了不同程度的改 进,减少了读取和写入次数,使效率得到一定的提高。索引重新合并的方式包括立即合并方式和按策略合并方式。立即合并是指在每次 将索引从内存写入磁盘时都进行合并,这种方式的合并频率过高,因此非常消耗系统资源 并将降低系统速度。在现有的许多专利或论文等中公开了多种按策略合并的方法,例如,提 出了如下的对数合并策略对子索引进行分代,每次从内存中形成的索引为0代,经过一次 合并之后的索引为1代,依次类推;假设第i代触发一次合并,则生成第i+1代子索引;同一代中不允许出现超过两个索引,如果超过两个索引就对其进行合并。另一种类似的合并策 略的核心思想是将待索引的数据集分为多个数目可控的划分,对划分的数目进行限制可以 有策略地控制索引合并,最终达到减少索引和检索总代价的目的。此外还提出了根据词的 倒排项的长短对其实施不同的索引及合并策略。然而,从目前公开的诸多文章、专利和专利申请来看,大多数的索引合并方案都关 注于对新加入的索引的直接合并或根据加入的时间顺序进行合并,而没有考虑索引的尺寸 对合并代价的影响,并且无法对索引合并过程进行动态调节,因此在动态文本集环境下导 致了不稳定的尚需优化的系统性能。因此,目前仍然需要一种能够在动态文本集环境下获 得较为稳定的优化的系统性能的索引合并方法和/或装置。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本 理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的 关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概 念,以此作为稍后论述的更详细描述的前序。为了解决现有技术的上述问题,本专利技术的一个目的是提供一种索引合并方法以及 相应的索引合并装置,它们能够在动态文本集环境下获得较为稳定的优化的系统性能。本专利技术的另一个目的是提供相应的计算机程序产品和/或计算机可读存储介质。为了实现上述目的,根据本专利技术的一个方面,提供了一种索引合并方法,该索引合 并方法包括以下步骤确定在索引库中是否存在不少于η个的、尺寸符合基于预定基准的 预定合并条件的子索引,其中η为整数且η大于等于2,并且所述预定基准与预定子索引 的尺寸相关;在确定索引库中存在不少于η个的、尺寸符合基于预定基准的预定合并条件 的子索引的情况下,将所确定的子索引作为子索引集;计算如果对所述子索引集中的子索 引进行合并将会获得的新子索引的尺寸;在所述索引库中剩余的子索引中查找不少于m个 的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,其中m为 整数且m大于等于1 ;如果在所述索引库中剩余的子索引中找到了不少于m个的、尺寸符合 基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则将所找到的子索引加 入所述子索引集中,然后对新的子索引集执行所述计算的步骤和所述查找的步骤;以及如 果在所述索引库中剩余的子索引中未找到不少于m个的、尺寸符合基于与所计算的新子索 引的尺寸相关的基准的预定条件的子索引,则对所述子索引集中的子索引进行合并。根据本专利技术的另一个方面,还提供了一种索引合并装置,包括确定单元,被配置 用于确定在索引库中是否存在不少于η个的、尺寸符合基于预定基准的预定合并条件的 子索引,其中η为整数且η大于等于2,并且所述预定基准与预定子索引的尺寸相关,以及 在确定索引库中存在不少于η个的、尺寸符合基于预定基准的预定合并条件的子索引的情 况下,将所确定的子索引作为子索引集;合并控制单元,被配置用于计算如果对所述子索 引集中的子索引进行合并将会获得的新子索引的尺寸;在所述索引库中剩余的子索引中查 找不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索 弓丨。其中m为整数且m大于等于1 ;如果在所述索引库中剩余的子索引中找到了不少于m个 的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则将所找到的子索引加入所述子索引集中,然后对新的子索引集执行所述计算的操作和所述查找的 操作;如果在所述索引库中剩余的子索引中未找到不少于m个的、尺寸符合基于与所计算 的新子索引的尺寸相关的基准的预定条件的子索引,则输出指示对所述子索引集中的子索 引进行合并的信息;以及合并单元,被配置用于对所述合并控制单元输出的信息所指示的 子索引集中的子索引进行合并。依据本专利技术的其它方面,还提供了相应的计算机可读存储介质和计算机程序产 品。本专利技术的一个优点在于,在根据本专利技术实施例的索引合并本文档来自技高网
...

【技术保护点】
一种索引合并方法,包括以下步骤:确定在索引库中是否存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引,其中n为整数且n大于等于2,并且所述预定基准与预定子索引的尺寸相关;在确定索引库中存在不少于n个的、尺寸符合基于预定基准的预定合并条件的子索引的情况下,将所确定的子索引作为子索引集;计算如果对所述子索引集中的子索引进行合并将会获得的新子索引的尺寸;在所述索引库中剩余的子索引中查找不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,其中m为整数且m大于等于1;如果在所述索引库中剩余的子索引中找到了不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则将所找到的子索引加入所述子索引集中,然后对新的子索引集执行所述计算的步骤和所述查找的步骤;以及如果在所述索引库中剩余的子索引中未找到不少于m个的、尺寸符合基于与所计算的新子索引的尺寸相关的基准的预定条件的子索引,则对所述子索引集中的子索引进行合并。

【技术特征摘要】

【专利技术属性】
技术研发人员:葛付江王主龙孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1