当前位置: 首页 > 专利查询>鹏城实验室专利>正文

一种基于HBase的分区数据调整方法、系统及终端技术方案

技术编号:26890748 阅读:27 留言:0更新日期:2020-12-29 16:07
本发明专利技术公开了一种基于HBase的分区数据调整方法、系统及终端,所述方法包括:搜集HBase分区内的分区数据,计算所述分区数据的倾斜程度;根据所述倾斜程度、行键所属分区的调整记录、行键相关的历史分区数据倾斜及整体分区倾斜确定行键的目标调整分区,并生成目标调整分区键;根据所述目标调整分区键对待调整行键进行修改,在所述待调整行键前添加所述目标调整分区键,完成行键分区的动态调整。本发明专利技术通基于分区内数据量的大小进行动态计算,得到分区数据量的变化,动态调整行键,对分区数据进行动态分配,同时考虑相同行键尽可能归属到相同的分区,既保证了数据查询的效率,又降低了分区数据倾斜情况,提高了系统资源利用率。

【技术实现步骤摘要】
一种基于HBase的分区数据调整方法、系统及终端
本专利技术涉及计算机应用
,尤其涉及一种基于HBase的分区数据调整方法、系统及终端。
技术介绍
HBase是一个分布式的、面向列的开源数据库,是一个适合于非结构化数据存储的数据库。用户在建立HBase表时先根据业务情况预估数据量的大小,根据数据量的大小及HBase集群的数量进行索引即行键的设计,通过行键的定义决定分区键的设计(决定行键的分区归属范围),最终完成预规划分区的设计。这样基于预测未来的数据量大小虽然能保证短时间内的分区数据量平衡,但是其依赖对数据量的提前预测,预测准备度不能保证,一旦预测不准确,往往会导致预分区的失效,导致分区的数据倾斜问题。因此,现有技术还有待于改进和发展。
技术实现思路
本专利技术的主要目的在于提供一种基于HBase的分区数据调整方法、系统及终端,旨在解决现有技术中分区的数据倾斜问题。为实现上述目的,本专利技术提供一种基于HBase的分区数据调整方法,所述基于HBase的分区数据调整方法包括如下步骤:搜集H本文档来自技高网...

【技术保护点】
1.一种基于HBase的分区数据调整方法,其特征在于,所述基于HBase的分区数据调整方法包括:/n搜集HBase分区内的分区数据,计算所述分区数据的倾斜程度;/n根据所述倾斜程度、行键所属分区的调整记录、行键相关的历史分区数据倾斜及整体分区倾斜确定行键的目标调整分区,并生成目标调整分区键;/n根据所述目标调整分区键对待调整行键进行修改,在所述待调整行键前添加所述目标调整分区键,完成行键分区的动态调整。/n

【技术特征摘要】
1.一种基于HBase的分区数据调整方法,其特征在于,所述基于HBase的分区数据调整方法包括:
搜集HBase分区内的分区数据,计算所述分区数据的倾斜程度;
根据所述倾斜程度、行键所属分区的调整记录、行键相关的历史分区数据倾斜及整体分区倾斜确定行键的目标调整分区,并生成目标调整分区键;
根据所述目标调整分区键对待调整行键进行修改,在所述待调整行键前添加所述目标调整分区键,完成行键分区的动态调整。


2.根据权利要求1所述的基于HBase的分区数据调整方法,其特征在于,所述搜集HBase分区内的分区数据,计算所述分区数据的倾斜程度,之前还包括:
在存储数据的过程中,基于工作分区组中每个分区数据量的大小,将属于工作分区内的行键数据分配至预留分区内,并将预留分区调整为工作分区组,以将工作分区组内行键数据进行动态均匀分布。


3.根据权利要求2所述的基于HBase的分区数据调整方法,其特征在于,在一定时间间隔后,将所有预留分区调整为工作分区,动态行键调整包括:
基于行键在动态调整前和调整后所归属的分区之间的数据量的大小进行行键调整,控制相同行键的数据在已分配分区中分配;
或者,基于工作分区组中每个分区数据量的大小进行行键调整,控制所有RegionServer上的数据分布均衡;
分配后的行键动态调整到行键工作分区内或工作分区组中其他工作分区。


4.根据权利要求1所述的基于HBase的分区数据调整方法,其特征在于,所述搜集HBase分区内的分区数据,计算所述分区数据的倾斜程度,包括:
输入分区数据表,输出每个分区内行键的列数量。


5.根据权利要求4所述的基于HBase的分区数据调整方法,其特征在于,所述根据所述倾斜程度、行键所属分区的调整记录、行键相关的历史分区数据倾斜及整体分区倾斜确定行键的目标调整分区,并生成目标调整分区键,包括:
...

【专利技术属性】
技术研发人员:朱健俊周建二黄勇
申请(专利权)人:鹏城实验室南方科技大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1