【技术实现步骤摘要】
本专利技术涉及数据存储,具体提供一种基于分词的索引压缩方法、存储装置及电子设备。
技术介绍
1、在存储领域中,为了提高磁盘利用率,降低io和cpu消耗,需要对存储的索引数据进行压缩。业务系统中对于索引的设计,一般会按照数据的属性和参数来作为索引的前缀部分,多个值使用特殊定义的字符作为分隔符,这类型的索引中大部分有相同的前缀字符串,能很好的利用压缩技术来存储,如prefix1_prefix2_prefixn_randvalue。
2、目前现有的索引压缩技术有前缀压缩、字典树压缩等,这些压缩技术都是通过写入的时候比较相邻索引字符串,找出相同前缀部分来单独存储,当遇到字符不相同的位置时则停止,因此要求索引中间部分不能有随机字符串,对于在索引中间部分出现了如md5生成的随机字符串后,后面即使还有相同前缀的部分,也不能进行单独存储压缩,如prefix1_prefix2_randvalue1_prefix3_prefix4_key,这种索引格式只能将randvalue1前面的相同前缀部分prefix1_prefix2找到,对于randv
...【技术保护点】
1.一种基于分词的索引压缩方法,其特征在于,包括数据写入流程:
2.根据权利要求1所述的一种基于分词的索引压缩方法,其特征在于,所述通过分隔符将索引字符串进行分词之前包括:
3.根据权利要求2所述的一种基于分词的索引压缩方法,其特征在于,所述将索引字符串中原来的索引分词替换成整数编号进行编码,写入持久化文件的KV数据区包括:
4.根据权利要求3所述的一种基于分词的索引压缩方法,其特征在于,所述将内存映射map表按照整数编号顺序写入持久化文件的分词数据区包括:
5.根据权利要求1-4任意一项所述的一种基于分词的索引压缩方法
...【技术特征摘要】
1.一种基于分词的索引压缩方法,其特征在于,包括数据写入流程:
2.根据权利要求1所述的一种基于分词的索引压缩方法,其特征在于,所述通过分隔符将索引字符串进行分词之前包括:
3.根据权利要求2所述的一种基于分词的索引压缩方法,其特征在于,所述将索引字符串中原来的索引分词替换成整数编号进行编码,写入持久化文件的kv数据区包括:
4.根据权利要求3所述的一种基于分词的索引压缩方法,其特征在于,所述将内存映射map表按照整数编号顺序写入持久化文件的分词数据区包括:
5.根据权利要求1-4任意一项所述的一种基于分词的索引压缩方法,其特征在于,包括数据读取流程:
6.根据权利要求5所述的一种基于分词的索引压缩方法,其特征在于,所述根据整数编号找到内存映...
【专利技术属性】
技术研发人员:徐锐波,幸福,卢文伟,刘方,
申请(专利权)人:北京百舸飞驰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。