一种基于Lucene的大索引快速分裂方法技术

技术编号:23161627 阅读:36 留言:0更新日期:2020-01-21 21:58
本发明专利技术公开了一种基于Lucene的大索引快速分裂方法,包括以下步骤:利用Linux下文件的软连接原理,在当前新建索引分片目录上进行标记,标记出当前文件所指向的原索引文件存储位置;借助于Lucene的delete from特性,在当前新建索引分片上删除一半指定的索引数据,在另一块索引分片上删除相反的另一半数据,完成索引文件由一分裂为二的过程;完成索引分裂后,根据删除操作时所使用的删除条件决定当前索引数据定位的存储目录,将后续数据进行重新入库;本发明专利技术提供的方法分裂过程无需额外copy开销,删除指定索引数据时效率高,加快了索引分裂的过程;索引分裂过程完成后,后续数据入库索引数据定位规则与上述删除操作的删除条件有关,无需额外算法,简便快捷。

A fast splitting method of large index based on Lucene

【技术实现步骤摘要】
一种基于Lucene的大索引快速分裂方法
本专利技术涉及文件索引
,具体为一种基于Lucene的大索引快速分裂方法。
技术介绍
随着大数据时代的带来,数据量呈爆发式增长。数据在入库时建立索引之后大大提升了数据的检索性能。遗憾的是为表设置索引也要付出一定的代价。首先索引的建立需要占用物理空间,当数据越来越多时,索引文件也越来越大;其次创建索引和维护索引要耗费时间,这种时间随着数据量的增加而增加;当对表中的数据进行增加、删除和修改的时候,索引也要动态的维护,数据量越多,索引文件越大,数据的维护效率也越低。若只有一个索引文件或索引最初创建的分片数量不足,当达到一定程度时,若还有数据写入或数据更新,对索引树的重建也会非常缓慢,导致数据入库非常困难。此时需要通过重建索引重建来扩大分片的数量。传统方案是先向当前索引中添加新的索引分片,再将当前索引数据copy到新建分片之上,通过一定的算法进行数据重新排列以达到索引分裂的目的。但当数据量过大时该过程会非常耗时,且分裂过程中如果原始数据发生修改,可能会造成数据丢失,需要一定的措施保证数据安本文档来自技高网...

【技术保护点】
1.一种基于Lucene的大索引快速分裂方法,其特征在于:包括以下步骤:/nS1:利用Linux下文件的软连接原理,在当前新建索引分片目录上进行标记,标记出当前文件所指向的原索引文件存储位置;/nS2:借助于Lucene的delete from特性,在当前新建索引分片上删除一半指定的索引数据,在另一块索引分片上删除相反的另一半数据,完成索引文件由一分裂为二的过程;/nS3:完成索引分裂后,根据删除操作时所使用的删除条件决定当前索引数据定位的存储目录,将后续数据进行重新入库。/n

【技术特征摘要】
1.一种基于Lucene的大索引快速分裂方法,其特征在于:包括以下步骤:
S1:利用Linux下文件的软连接原理,在当前新建索引分片目录上进行标记,标记出当前文件所指向的原索引文件存储位置;
S2:借助于Lucene的deletefrom特性,在当前新建索引分片上删除一半指定的索引数据,在另一块索引分片上删除相反的另一半数据,完成索引文件由一分裂为二的过程;
S3:完成索引分裂后...

【专利技术属性】
技术研发人员:王帅
申请(专利权)人:南京录信软件技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1