【技术实现步骤摘要】
一种基于HBase的分区数据调整方法、系统及终端
本专利技术涉及计算机应用
,尤其涉及一种基于HBase的分区数据调整方法、系统及终端。
技术介绍
HBase是一个分布式的、面向列的开源数据库,是一个适合于非结构化数据存储的数据库。用户在建立HBase表时先根据业务情况预估数据量的大小,根据数据量的大小及HBase集群的数量进行索引即行键的设计,通过行键的定义决定分区键的设计(决定行键的分区归属范围),最终完成预规划分区的设计。这样基于预测未来的数据量大小虽然能保证短时间内的分区数据量平衡,但是其依赖对数据量的提前预测,预测准备度不能保证,一旦预测不准确,往往会导致预分区的失效,导致分区的数据倾斜问题。因此,现有技术还有待于改进和发展。
技术实现思路
本专利技术的主要目的在于提供一种基于HBase的分区数据调整方法、系统及终端,旨在解决现有技术中分区的数据倾斜问题。为实现上述目的,本专利技术提供一种基于HBase的分区数据调整方法,所述基于HBase的分区数据调整方法包括如下 ...
【技术保护点】
1.一种基于HBase的分区数据调整方法,其特征在于,所述基于HBase的分区数据调整方法包括:/n搜集HBase分区内的分区数据,计算所述分区数据的倾斜程度;/n根据所述倾斜程度、行键所属分区的调整记录、行键相关的历史分区数据倾斜及整体分区倾斜确定行键的目标调整分区,并生成目标调整分区键;/n根据所述目标调整分区键对待调整行键进行修改,在所述待调整行键前添加所述目标调整分区键,完成行键分区的动态调整。/n
【技术特征摘要】
1.一种基于HBase的分区数据调整方法,其特征在于,所述基于HBase的分区数据调整方法包括:
搜集HBase分区内的分区数据,计算所述分区数据的倾斜程度;
根据所述倾斜程度、行键所属分区的调整记录、行键相关的历史分区数据倾斜及整体分区倾斜确定行键的目标调整分区,并生成目标调整分区键;
根据所述目标调整分区键对待调整行键进行修改,在所述待调整行键前添加所述目标调整分区键,完成行键分区的动态调整。
2.根据权利要求1所述的基于HBase的分区数据调整方法,其特征在于,所述搜集HBase分区内的分区数据,计算所述分区数据的倾斜程度,之前还包括:
在存储数据的过程中,基于工作分区组中每个分区数据量的大小,将属于工作分区内的行键数据分配至预留分区内,并将预留分区调整为工作分区组,以将工作分区组内行键数据进行动态均匀分布。
3.根据权利要求2所述的基于HBase的分区数据调整方法,其特征在于,在一定时间间隔后,将所有预留分区调整为工作分区,动态行键调整包括:
基于行键在动态调整前和调整后所归属的分区之间的数据量的大小进行行键调整,控制相同行键的数据在已分配分区中分配;
或者,基于工作分区组中每个分区数据量的大小进行行键调整,控制所有RegionServer上的数据分布均衡;
分配后的行键动态调整到行键工作分区内或工作分区组中其他工作分区。
4.根据权利要求1所述的基于HBase的分区数据调整方法,其特征在于,所述搜集HBase分区内的分区数据,计算所述分区数据的倾斜程度,包括:
输入分区数据表,输出每个分区内行键的列数量。
5.根据权利要求4所述的基于HBase的分区数据调整方法,其特征在于,所述根据所述倾斜程度、行键所属分区的调整记录、行键相关的历史分区数据倾斜及整体分区倾斜确定行键的目标调整分区,并生成目标调整分区键,包括:
...
【专利技术属性】
技术研发人员:朱健俊,周建二,黄勇,
申请(专利权)人:鹏城实验室,南方科技大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。