扩展索引的方法技术

技术编号:2841703 阅读:420 留言:0更新日期:2012-04-11 18:40
一种索引结构和扩展索引的方法,包含:(a)在内存中对新插入的数据源进行生成倒排索引的索引操作;(b)如果索引操作所包含的源数据的个数达到第一阀值k1,则将所生成的倒排索引顺序地写入第一子索引文件;(c)如果第一子索引文件中最小的索引组的个数达到第二阀值k2,则把这k2个索引组合并成更大的索引组,顺序地写入第二子索引文件;(d)如果第二子索引文件中最小的索引组达到第三阀值k3个,则把它们组合并成更大的索引组,顺序地写入第一子索引文件。由于索引更新大都发生在小索引组中,大索引组的IO操作次数减少,因此能提高索引建立/更新速度,另外,可以根据系统资源的使用情况自动调整阀值k1、k2、k3。

【技术实现步骤摘要】

本专利技术涉及信息检索技术,更具体来说,涉及建立和扩展索引的方法
技术介绍
随着因特网的普及以及网络上信息量的迅速增加,人们对高效的全文检索搜索引擎越来越依赖。全文搜索引擎的对象是文本,它能够对大量文档建立由字(词)到文档的倒排索引,当用户使用关键词来对文档(例如网页)进行查询时,搜索引擎向用户返回含有该关键词的文档。为了降低硬件和软件成本,目前的大多数搜索引擎都将倒排索引以文件形式(称为倒排文件)存储在非易失性存储器(例如硬盘)上,通过文件读/写操作来访问倒排文件,直接在磁盘索引上进行搜索。中国专利申请03109847.9(公开号CN1536509A,公开日2004.10.31)公开了一种倒排索引存储方法、倒排索引机制以及在线更新的方法,特此引用作为参考。全文搜索引擎有两个主要的性能指标索引建立速度和查询响应时间,这两个指标的提高,在很大程度上取决于搜索引擎所使用的索引结构和相应的搜索方法。好的索引结构应当能提高索引建立速度,缩短查询响应时间。一种传统的索引方法是使用磁盘上的两个索引文件,即主索引文件和二级索引文件。当更新磁盘上的索引时,例如向主索引文件插入新文档时,需要频本文档来自技高网...

【技术保护点】
一种扩展索引的方法,该索引包含一个第一子索引文件和一个第二子索引文件,该方法包含以下步骤:(a)在内存中对新插入的数据源进行生成倒排索引的索引操作;(b)如果索引操作所包含的源数据的个数达到一个预定的第一阀值k1,则将所生成 的倒排索引,作为一个最小的索引组,顺序地写入第一子索引文件;(c)如果第一子索引文件中最小的索引组的个数达到一个预定的第二阀值k2,则把这k2个索引组合并成一个更大的索引组,顺序地写入第二子索引文件;否则返回步骤(a);(d )如果第二子索引文件中最小的索引组的个数达到第三阀值k3,则把这k2个索引组合并成一个更...

【技术特征摘要】
1.一种扩展索引的方法,该索引包含一个第一子索引文件和一个第二子索引文件,该方法包含以下步骤(a)在内存中对新插入的数据源进行生成倒排索引的索引操作;(b)如果索引操作所包含的源数据的个数达到一个预定的第一阀值k1,则将所生成的倒排索引,作为一个最小的索引组,顺序地写入第一子索引文件;(c)如果第一子索引文件中最小的索引组的个数达到一个预定的第二阀值k2,则把这k2个索引组合并成一个更大的索引组,顺序地写入第二子索引文件;否则返回步骤(a);(d)如果第二子索引文件中最小的索引组的个数达到第三阀值k3,则把这k2个索引组合并成一个更大的索引组,顺序地写入第一子索引文件,返回步骤(c);否则,返回步骤(a)。2.按照权利要求1的方法,特征在于,K2等于K3。3.按照权利要求1的方法,特征在于,K2和K3至少一个等于第一阀值K1。4.按照权利要求1、2或3的方法,特征在于,第一子索引文件和第二子索引文件存储在包括磁盘、光盘、光磁盘等的非易失性存储器中。5.按照权利要求1、2或3的方法,其中,源数据是包括Word文档、PDF文档、HTML文档等的任何电子文档。6.按照权利要求5的方法,其...

【专利技术属性】
技术研发人员:陈伟柱苏中张俐王睿
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1