一种基于RLE的倒排格式索引实现方法技术

技术编号：37719043 阅读：8 留言：0更新日期：2023-06-02 00:17

本发明专利技术提供了一种基于RLE的倒排格式索引实现方法，包括倒排结构以及中间结构，所述倒排结构用于存储每个Term的倒排链，所述中间结构用于存储多个Term合并后的倒排链，还包括自定义RLEContainer：采用RLE编码对倒排链进行编码存储，倒排链编码为[start1,length1,start2,length2,...]，倒排链为[1,2,....,1000]，用ArrayContainer存储，内存空间占用为16bit*100＝200Byte,RLE编码存储需要16bit*2＝4Byte，选择[start1,length1,start2,length2,...]的存储格式，[start,start+length]之间两两互不重叠。本发明专利技术通过RLE编码的方式设计倒排格式，大幅减少倒排链读取及倒排链合并两个过程中出现的CPU热点问题；重新定义倒排链查询的数据结构，支持批量Merge，减少倒排链Merge耗时，此外内存占用少，支持处理千万数量级的倒排链。千万数量级的倒排链。千万数量级的倒排链。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于RLE的倒排格式索引实现方法

[0001]本专利技术涉及软件开发
，具体涉及一种基于RLE的倒排格式索引实现方法。

技术介绍

[0002]数据集的检索通常使用倒排索引模型进行检索,可以在海量的文本数据获取信息。基于数据集构建倒排索引文件通常十分庞大,压缩倒排索引可以减少空间使用,在相同的内存中驻留更多的信息,加快检索的速度。而现有的倒排索引压缩算法在空间利用、解压性能存在局限性,因此,倒排索引的高效压缩与解压成为一个重要的课题。倒排索引的压缩分为单词压缩和倒排链表的压缩,倒排链表的压缩主要将单词在文档中出现的docID、frequency和positions等信息进行压缩,而这些信息的压缩通常为整数压缩，Elasticsearch已经成为了最受欢迎的开源检索引擎，其作为离线数仓、近线检索、B端检索的经典基建，已沉淀了大量的实践案例及优化总结。然而在高并发、高可用、大数据量的C端场景。目前优化方案较少；
[0003]对于一个通用的检索引擎而言，Terms检索非常高效，平均到每个Term检索不到0.001ms。然而随着数据和供给的增长，达到万级别的Terms检索的性能与耗时已然无法忽略，仅仅这一次检索就需要5～10ms。一次Terms检索的流程分为两步：分别检索单个Term的倒排链，多个Term的倒排链进行合并。随着数据量的增加，原生的流程数据结构(倒排链读取&倒排链合并)会带来明显的CPU热点问题；
[0004]Elasticsearch一次Terms检索的流程分为两步：分...

【技术保护点】

【技术特征摘要】
1.一种基于RLE的倒排格式索引实现方法，其特征在于：包括倒排结构以及中间结构，所述倒排结构用于存储每个Term的倒排链，所述中间结构用于存储多个Term合并后的倒排链；还包括自定义RLEContainer：采用RLE编码对倒排链进行编码存储，将倒排链编码为[start1,length1,start2,length2,...]；倒排链为[1,2,....,1000]，用ArrayContainer存储，内存空间占用为16bit*100＝200Byte,RLE编码存储需要16bit*2＝4Byte。2.根据权利要求1所述的一种基于RLE的倒排格式索引实现方法，其特征在于：选择[start1,length1,start2,length2,...]的存储格式，[start,start+length]之间两两互不重叠。3.根据权利要求1所述的一种基于RLE的倒排格式索引实现方法，其特征在于：对于多个检索标的的倒排合并流程，对于该格式的合并，将原时间复杂度为的合并流程，改造为复杂度为O的合并流程。4.根据权利要求1所述的一种基于RLE的倒排格式索引实现方法，其特征在于：保存倒排链的过程与lucene原生的RoaringDocIDSet保持一致，在确认具体的Container的分桶时，额外使用一组...

【专利技术属性】
技术研发人员：王龙，庄春，
申请(专利权)人：天翼视讯传媒有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人