【技术实现步骤摘要】
一种基于日志结构合并树的两阶段合并方法
本专利技术是关于一种基于日志结构合并树的两阶段合并方法,属于信息存储
技术介绍
随着Web2.0时代的到来,数据规模呈爆炸式增长,传统的关系型数据库已经很难满足海量数据存储时代的需求,而具有读写速度快,易于扩展,成本低廉等特征的非关系型数据库开始被广泛应用。按存储方式和存储内容,非关系型数据库可以分为列存储、文档存储、键值存储、图存储和对象存储等多种类型,其中,键值存储简单,非常适合不涉及过多数据关系和业务关系的业务数据,在各大互联网公司业务中已称为主流的存储方式。键值存储通常有哈希表、B树及其变体、日志结构合并树三种架构。日志结构合并树主要对大量写入的场景进行优化,同时也提供合理的读性能和范围查询功能,并且有LevelDB和RockDB等成熟的开源系统可以使用,通常用于存储应用产生的海量数据。日志结构合并树的概念于上世纪90年代被提出,近年来开始被大规模使用,说明这种存储方式能够在大数据时代发挥其主要优势。宏观来看,日志结构合并树由两个或两个以上存储结构组成,其中,上层是一个常驻内存的结构称为C0,C0空间较小, ...
【技术保护点】
一种基于日志结构合并树的两阶段合并方法,其特征在于,包括以下步骤:1)根据不均衡得分,在开源系统中选出空间分布最不合理的一层;2)根据轮询原则,选出空间分布最不合理的一层中的目标文件;3)链接阶段:将目标文件按照覆盖相同键值范围的下层文件分割碎片,将每一碎片与对应键值范围的下层文件进行链接,并为每一下层文件均增加用于记录链接信息的链接元数据,记为SliceLink;4)检查每一下层文件的SliceLink数量,若所有下层文件的SliceLink数量均不超过预设阈值,则进入步骤2),直到存在下层文件的SliceLink数量超过预设阈值,则进入步骤5);5)合并阶段:将Slic ...
【技术特征摘要】
1.一种基于日志结构合并树的两阶段合并方法,其特征在于,包括以下步骤:1)根据不均衡得分,在开源系统中选出空间分布最不合理的一层;2)根据轮询原则,选出空间分布最不合理的一层中的目标文件;3)链接阶段:将目标文件按照覆盖相同键值范围的下层文件分割碎片,将每一碎片与对应键值范围的下层文件进行链接,并为每一下层文件均增加用于记录链接信息的链接元数据,记为SliceLink;4)检查每一下层文件的SliceLink数量,若所有下层文件的SliceLink数量均不超过预设阈值,则进入步骤2),直到存在下层文件的SliceLink数量超过预设阈值,则进入步骤5);5)合并阶段:将SliceLink数量超过预设阈值的下层文件以及与该下层文件碎片链接的对应键值范围的目标文件分别读入开源系统的内存中进行合并,生成新文件后写入下层文件所在层中。2.如权利要求1所述的一种基于日志结构合并树的两阶段合并方法,其特征在于,所述步骤3)中将目标文件按照覆盖相同键值范围的下层文件分割碎片,将每一碎片与对应键值范围的下层文件进行链接,并为每一下层文件均增加用于记录链接信息的链接元数据,具体过程为:①将目标文件标记为冻结状态,通过开源系统表缓存中的目标文件元数据记录目标文件的键值范围;②在开源系统的表缓存中获取与目标文件覆盖相同键值范围的若干下层文件;③根据每一下层文件的键值范围将目标文件分割成若干碎片,并将每一碎片与对应键值范围的下层文件进行链接;④为目标文件引入用于记录目...
【专利技术属性】
技术研发人员:柴云鹏,韦皓诚,梁雨诗,
申请(专利权)人:中国人民大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。