一种面向元数据稀疏分布的LSM数据组织方法及装置制造方法及图纸

技术编号:41404005 阅读:29 留言:0更新日期:2024-05-20 19:29
本发明专利技术公开了一种面向元数据稀疏分布的LSM数据组织方法及装置。本发明专利技术使用动态分区组织排序字符串表,具体先对键值对数据的键名进行聚类分析得到键名群组,然后修剪键名群组形成键值对分区,将键值对数据刷写进对应的键值对分区内形成排序字符串表,各键值对分区独立进行合并排序操作,从而有效限制了元数据稀疏分布的排序字符串表的形成,进而大大减少参与合并排序过程的高层级排序字符串表数量,减少高层级排序字符串表反复参与合并排序操作的次数,检索键值对数据时,键值对分区进一步加快定位键值对数据,从而实现系统读写性能的提升。

【技术实现步骤摘要】

本专利技术属于数据存储,具体涉及一种面向元数据稀疏分布的日志结构合并(log structured merge,以下简称:lsm)数据组织方法及装置。


技术介绍

1、基于lsm的数据库将海量键值对数据的随机读写实现为内存随机读写、顺序刷盘和定期归并,充分利用磁盘顺序写性能高于随机写的特性,内存中的mutable memtable(以下称为:可变内存表)达到阈值时会转化为immutable memtable(以下称为:不可变内存表)状态,后续刷写进磁盘中。

2、键值对数据刷写进磁盘时,先刷写形成排序字符串表并放入低层级,然后随着合并排序操作,键值对数据逐层向上迁移。其中,合并排序操作会先从低层级中选取某个排序字符串表作为低层级排序字符串表输入,然后在相邻高层级中选取键控范围和低层级排序字符串表键控范围存在交集的排序字符串表,并作为高层级排序字符串表输入,在内存中完成键值对数据的合并排序,并再次刷写进高层级中。若键值对数据写入速度大于合并排序操作的速度,就会使得低层级延迟完成排序字符串表迁移,延迟释放空间,进而阻塞写入,因而合并排序操作的速度直接影本文档来自技高网...

【技术保护点】

1.一种面向元数据稀疏分布的LSM数据组织方法,其步骤包括:

2.根据权利要求1所述的方法,其特征在于,对每一所述键名群组进行修剪的方法为:将所述键名群组中的最小键作为对应键值对分区的键控范围左边界值,将所述键名群组中的最大键作为所述键值对分区的键控范围右边界值;若所述键值对分区的键控范围右边界值与左边界值的绝对差值超过所述键值对分区的键控范围大小阈值R,则依据所述键值对分区的键控范围大小阈值R对所述键值对分区的键控范围进行修剪,修剪方式为按键大小依次淘汰最小键,直至所述键值对分区的键控范围右边界值与左边界值的绝对差值保持在所述键值对分区的键控范围大小阈值R之内。

...

【技术特征摘要】

1.一种面向元数据稀疏分布的lsm数据组织方法,其步骤包括:

2.根据权利要求1所述的方法,其特征在于,对每一所述键名群组进行修剪的方法为:将所述键名群组中的最小键作为对应键值对分区的键控范围左边界值,将所述键名群组中的最大键作为所述键值对分区的键控范围右边界值;若所述键值对分区的键控范围右边界值与左边界值的绝对差值超过所述键值对分区的键控范围大小阈值r,则依据所述键值对分区的键控范围大小阈值r对所述键值对分区的键控范围进行修剪,修剪方式为按键大小依次淘汰最小键,直至所述键值对分区的键控范围右边界值与左边界值的绝对差值保持在所述键值对分区的键控范围大小阈值r之内。

3.根据权利要求1或2所述的方法,其特征在于,所述新的键值对分区的键控范围右边界值与左边界值的绝对差值保持在所述键值对分区的键控范围大小阈值r之内,且所述新的键值对分区和已有键值对分区的键控范围之间不存在交集。

4.根据权利要求1所述的方法,其特征在于,所述键值对数据暂存区使用设定的检索数据结构实现,应用支持快速检索;所述键值对数据暂存区向外部模块提供获取暂存区内全量键值对数据和全...

【专利技术属性】
技术研发人员:李斌斌陈如阳贾思宇丁煜
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1