一种基于Lucene的Payloads压缩方法技术

技术编号:23149027 阅读:35 留言:0更新日期:2020-01-18 13:27
本发明专利技术公开了一种基于Lucene的Payloads压缩方法,包括如下步骤,S1、块内存的设定;S2、数据的加载;S3、块的划分;S4、块的压缩;本发明专利技术对Payloads文件进行压缩的同时未影响到Lucene原先的API,不影响其功能,封装性较好,也便于之后对Lucene进行各项功能的拓展;采用某个可变长大小作为一个块单位,对超大Payloads文件进行分块压缩,压缩效果极其明显;减少了Payloads文件的存储大小,节省了存储空间,降低了硬件成本;有效解决了存储的索引数据文件较多时,会极大地占用硬件存储空间的问题。

A compression method of payloads based on Lucene

【技术实现步骤摘要】
一种基于Lucene的Payloads压缩方法
本专利技术涉及计算机算法
,具体为一种基于Lucene的Payloads压缩方法。
技术介绍
索引是大数据时代搜索引擎的核心,建立索引的过程是将元数据处理成索引文件的过程。Lucene作为业内开源的高性能、可扩展的信息检索引擎,不仅仅能支持全文索引,也能够提供多种其他类型的索引方式,来满足不同类型的查询需求。Term是Lucene中索引的最小单位,一个Field会由一个或多个Term组成。Payloads即词条的元数据或称载荷,支持用户在索引的过程中将词条的元数据添加到索引库中,同时也提供了在检索结果时读取PayLoads信息的功能,其存储的最终是以.pay为后缀名的文件。利用词条的Payload功能来存储文档级别的元数据的确可以减少词条的数目,提高检索效率,但当面对大量索引数据文件时,payload存储出元数据文件也会相应变得很大,耗费存储空间的同时降低索引检索的性能。原生Lucene中未对Payloads存储的元数据文件.pay进行压缩,当需要存储的索引数据文件较多时,会极大地占本文档来自技高网...

【技术保护点】
1.一种基于Lucene的Payloads压缩方法,其特征在于:包括如下步骤,/nS1、块内存的设定;/nS2、数据的加载;/nS3、块的划分;/nS4、块的压缩。/n

【技术特征摘要】
1.一种基于Lucene的Payloads压缩方法,其特征在于:包括如下步骤,
S1、块内存的设定;
S2、数据的加载;
S3、块的划分;
S4、块的压缩。


2.根据权利要求1所述的一种基于Lucene的Payloads压缩方法,其特征在于:所述步骤S1中,块内存设定值包括但不限于16k、32k、64k、128k,优选为32k。


3.根据权利要求1所述的一种基于Lucene...

【专利技术属性】
技术研发人员:王帅
申请(专利权)人:南京录信软件技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1