一种基于分词的索引压缩方法、存储装置及电子设备制造方法及图纸

技术编号:42100580 阅读:22 留言:0更新日期:2024-07-25 00:26
本发明专利技术公开一种基于分词的索引压缩方法、存储装置及电子设备,其中,基于分词的索引压缩方法包括数据写入流程:通过分隔符将索引字符串进行分词,得到一组索引分词;将各个索引分词映射成整数编号,生成整数编号与索引分词的内存映射map表;将索引字符串中原来的索引分词替换成整数编号进行编码,写入持久化文件的KV数据区;将内存映射map表按照整数编号顺序写入持久化文件的分词数据区。本发明专利技术基于分词的技术,通过特殊分隔符将所有相同前缀部分以索引分词为最小单元拆分,避免中间有随机字符串的干扰,能最大化的找到所有相同前缀的部分对索引Key进行压缩,极大的提高了磁盘利用率,减少了文件I O消耗和CPU消耗,对于存储系统性能有很大的提高。

【技术实现步骤摘要】

本专利技术涉及数据存储,具体提供一种基于分词的索引压缩方法、存储装置及电子设备


技术介绍

1、在存储领域中,为了提高磁盘利用率,降低io和cpu消耗,需要对存储的索引数据进行压缩。业务系统中对于索引的设计,一般会按照数据的属性和参数来作为索引的前缀部分,多个值使用特殊定义的字符作为分隔符,这类型的索引中大部分有相同的前缀字符串,能很好的利用压缩技术来存储,如prefix1_prefix2_prefixn_randvalue。

2、目前现有的索引压缩技术有前缀压缩、字典树压缩等,这些压缩技术都是通过写入的时候比较相邻索引字符串,找出相同前缀部分来单独存储,当遇到字符不相同的位置时则停止,因此要求索引中间部分不能有随机字符串,对于在索引中间部分出现了如md5生成的随机字符串后,后面即使还有相同前缀的部分,也不能进行单独存储压缩,如prefix1_prefix2_randvalue1_prefix3_prefix4_key,这种索引格式只能将randvalue1前面的相同前缀部分prefix1_prefix2找到,对于randvalue1后面的相同本文档来自技高网...

【技术保护点】

1.一种基于分词的索引压缩方法,其特征在于,包括数据写入流程:

2.根据权利要求1所述的一种基于分词的索引压缩方法,其特征在于,所述通过分隔符将索引字符串进行分词之前包括:

3.根据权利要求2所述的一种基于分词的索引压缩方法,其特征在于,所述将索引字符串中原来的索引分词替换成整数编号进行编码,写入持久化文件的KV数据区包括:

4.根据权利要求3所述的一种基于分词的索引压缩方法,其特征在于,所述将内存映射map表按照整数编号顺序写入持久化文件的分词数据区包括:

5.根据权利要求1-4任意一项所述的一种基于分词的索引压缩方法,其特征在于,包括数...

【技术特征摘要】

1.一种基于分词的索引压缩方法,其特征在于,包括数据写入流程:

2.根据权利要求1所述的一种基于分词的索引压缩方法,其特征在于,所述通过分隔符将索引字符串进行分词之前包括:

3.根据权利要求2所述的一种基于分词的索引压缩方法,其特征在于,所述将索引字符串中原来的索引分词替换成整数编号进行编码,写入持久化文件的kv数据区包括:

4.根据权利要求3所述的一种基于分词的索引压缩方法,其特征在于,所述将内存映射map表按照整数编号顺序写入持久化文件的分词数据区包括:

5.根据权利要求1-4任意一项所述的一种基于分词的索引压缩方法,其特征在于,包括数据读取流程:

6.根据权利要求5所述的一种基于分词的索引压缩方法,其特征在于,所述根据整数编号找到内存映...

【专利技术属性】
技术研发人员:徐锐波幸福卢文伟刘方
申请(专利权)人:北京百舸飞驰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1