一种HBase表的Region合并方法和装置制造方法及图纸

技术编号:19009178 阅读:61 留言:0更新日期:2018-09-22 09:02
本发明专利技术实施例涉及Region处理领域,尤其涉及一种HBase表的Region合并方法和装置,用以解决现有技术中Region合并效率低以及合并精确性差的问题。本发明专利技术实施例中,包括:获取HBase表的多个Region中的每个Region对应的HDFS文件的属性信息,一个Region对应的HDFS文件的属性信息包括Region对应的文件所占用的存储空间;至少根据多个Region中每个Region对应的文件所占用的存储空间,对多个Region中的每相邻两个Region进行合并处理。通过本发明专利技术实施例中基于Region对应的文件所占用的存储空间进行合并,有助于提高相邻两个Region进行合并的精度。

Region merging method and device for HBase table

The embodiment of the invention relates to the field of region processing, in particular to a region merging method and apparatus for HBase tables to solve the problems of low efficiency and poor accuracy of region merging in the prior art. The embodiments of the invention include: acquiring attribute information of HDFS files corresponding to each region in a plurality of regions of a HBase table, attribute information of HDFS files corresponding to a region including storage space occupied by files corresponding to region, and at least according to storage space occupied by files corresponding to each region in a plurality of regions. Merge two adjacent Region in multiple Region. By combining the storage space occupied by the files corresponding to region in the embodiment of the invention, the accuracy of merging two adjacent regions can be improved.

【技术实现步骤摘要】
一种HBase表的Region合并方法和装置
本专利技术实施例涉及Region处理领域,尤其涉及一种HBase表的Region合并方法和装置。
技术介绍
分布式文件系统(HadoopDistributedFileSystem,简称HBase)是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。HBase是可以提供实时计算的分布式数据库,数据被保存在HDFS分布式文件系统上。HBase将表会切分成小的数据单位叫Region,HBase中包括多个Region,每个Region中都存储一定的数据。Region被HMaster分配给多个RegionServer,每个RegionServer托管多个Region。通常,HBase包括Region的数量越多,该HBase的读写性能和扩展性能就好,对应的应用性能和扩展性也越来越好。但是由于HBase实现的机制和业务数据的不均衡,随着时间的推移,HBase表中Region的数量越来越多,需要的内存越来越大,需要管理的Region也越来越多。这样,对系统的性能和稳定性造成负面的影响。为了解决这些问题,需要对Region进行合并。现有技术是手工的方式合并相邻的两个Region。具体为:登录HBase表的监控页面,管理者在监控界面中挑选相邻的两个Region,之后在HBaseshell中对这个两个Region进行合并。然而,采用现有技术的合并方式,只能通过人工的方式随机将HBase表中相邻的Region进行合并,造成Region合并效率低以及合并精确性差的问题。专利技术内容本专利技术实施例提供一种HBase表的Region合并方法和装置,用以解决现有技术中Region合并效率低以及合并精确性差的问题。本专利技术实施例提供一种HBase表的Region合并方法,包括:获取HBase表的多个Region中的每个Region对应的HDFS文件的属性信息,一个Region对应的HDFS文件的属性信息包括所述Region对应的文件所占用的存储空间;至少根据所述多个Region中每个Region对应的文件所占用的存储空间,对所述多个Region中的每相邻两个Region进行合并处理。由于本专利技术实施例中,通过获取HBase表的多个Region中的每个Region对应的HDFS文件的属性信息:所述Region对应的文件所占用的存储空间,根据所述多个Region中每个Region对应的文件所占用的存储空间,对所述多个Region中的每相邻两个Region进行合并处理。通过本专利技术实施例中基于Region对应的文件所占用的存储空间进行合并,有助于提高相邻两个Region进行合并的精度;进一步,是自动确定出要合并的相邻两个Region,不需要人手工操作,可提高Region合并的效率。本专利技术实施例中,相邻两个Region会出现一个Region存在多个相邻两个Region中的场景;为了确保相邻两个Region中的列表在只包含唯一为Region,增加Region合并的精度,以及提高代码的稳定性。可选地,所述至少根据所述多个Region中每个Region对应的文件所占用的存储空间,对所述多个Region中的相邻两个Region进行合并处理之前,还包括:剔除重复的Region。可选地,所述至少根据所述多个Region中每个Region对应的文件所占用的存储空间,对所述多个Region中的每相邻两个Region进行合并处理,包括:针对第一Region和第二Region,确定所述第一Region和所述第二所述Region的对应的文件所占用的存储空间的和;所述第一Region和所述第二Region是所述多个Region中任两个相邻的Region;根据所述文件所占用的存储空间的和以及存储空间阈值,确定所述第一Region和所述第二Region对应的第一评分;至少根据所述第一评分确定所述第一Region和所述第二Region对应的总评分;若所述总评分满足预设值,则对所述第一Region和所述第二Region进行合并处理。通过第一评分来筛选需要合并的相邻两个Region,进而提高相邻两个Region合并的精确度。若两个Regions_Pair对应的文件所占用的存储空间的和相同时,为了提高筛选需要合并的相邻两个Region的精确度。可选地,所述一个Region对应的HDFS文件的属性信息还包括:所述Region对应的文件数量;确定所述第一Region和所述第二所述Region的对应的文件数量的和;根据所述文件数量的和以及文件数量阈值,确定所述第一Region和所述第二Region对应的第二评分;所述至少根据所述第一评分确定所述第一Region和所述第二Region对应的总评分,包括:至少根据所述第一评分和所述第二评分确定所述第一Region和所述第二Region对应的总评分。如果Region处于压缩过程时,Region中存在Region的.tmp子目录。如果合并这些Region将带来性能和稳定性问题。可选地,所述一个Region对应的HDFS文件的属性信息还包括:是否包含.tmp目录;根据所述第一Region和所述第二所述Region的对应的文件中是否包含.tmp格式文件的指示信息,确定所述第一Region和所述第二Region对应的第三评分;所述至少根据所述第一评分确定所述第一Region和所述第二Region对应的总评分,包括:至少根据所述第一评分、所述第二评分和所述第三评分确定所述第一Region和所述第二Region对应的总评分。通过第一评分、所述第二评分和所述第三评分确定所述第一Region和所述第二Region对应的总评分,进一步提高相邻两个Region合并的精度。本专利技术实施例提供一种分布式文件系统HBase表的Region合并装置,包括:获取单元,用于获取HBase表的多个Region中的每个Region对应的HDFS文件的属性信息,一个Region对应的HDFS文件的属性信息包括所述Region对应的文件所占用的存储空间;处理单元,用于至少根据所述多个Region中每个Region对应的文件所占用的存储空间,对所述多个Region中的每相邻两个Region进行合并处理。可选地,所述处理单元,还用于:剔除重复的Region。可选地,所述装置还包括确定单元,用于:针对第一Region和第二Region,确定所述第一Region和所述第二所述Region的对应的文件所占用的存储空间的和;所述第一Region和所述第二Region是所述多个Region中任两个相邻的Region;根据所述文件所占用的存储空间的和以及存储空间阈值,确定所述第一Region和所述第二Region对应的第一评分;所述处理单元,用于:至少根据所述第一评分确定所述第一Region和所述第二Region对应的总评分;若所述总评分满足预设值,则对所述第一Region和所述第二Region进行合并处理。可选地,所述一个Region对应的HDFS文件的属性信息还包括:所述Region对应的文件数量;所述确定单元,用于:确定所述第一Region和所述第二所述Region的对应的文件数量的和;本文档来自技高网...
一种HBase表的Region合并方法和装置

【技术保护点】
1.一种分布式文件系统HBase表的Region合并方法,其特征在于,包括:获取HBase表的多个Region中的每个Region对应的HDFS文件的属性信息,一个Region对应的HDFS文件的属性信息包括所述Region对应的文件所占用的存储空间;至少根据所述多个Region中每个Region对应的文件所占用的存储空间,对所述多个Region中的每相邻两个Region进行合并处理。

【技术特征摘要】
1.一种分布式文件系统HBase表的Region合并方法,其特征在于,包括:获取HBase表的多个Region中的每个Region对应的HDFS文件的属性信息,一个Region对应的HDFS文件的属性信息包括所述Region对应的文件所占用的存储空间;至少根据所述多个Region中每个Region对应的文件所占用的存储空间,对所述多个Region中的每相邻两个Region进行合并处理。2.如权利要求1所述的方法,其特征在于,所述至少根据所述多个Region中每个Region对应的文件所占用的存储空间,对所述多个Region中的相邻两个Region进行合并处理之前,还包括:剔除重复的Region。3.如权利要求1所述的方法,其特征在于,所述至少根据所述多个Region中每个Region对应的文件所占用的存储空间,对所述多个Region中的每相邻两个Region进行合并处理,包括:针对第一Region和第二Region,确定所述第一Region和所述第二所述Region的对应的文件所占用的存储空间的和;所述第一Region和所述第二Region是所述多个Region中任两个相邻的Region;根据所述文件所占用的存储空间的和以及存储空间阈值,确定所述第一Region和所述第二Region对应的第一评分;至少根据所述第一评分确定所述第一Region和所述第二Region对应的总评分;若所述总评分满足预设值,则对所述第一Region和所述第二Region进行合并处理。4.如权利要求3所述的方法,其特征在于,所述一个Region对应的HDFS文件的属性信息还包括:所述Region对应的文件数量;确定所述第一Region和所述第二所述Region的对应的文件数量的和;根据所述文件数量的和以及文件数量阈值,确定所述第一Region和所述第二Region对应的第二评分;所述至少根据所述第一评分确定所述第一Region和所述第二Region对应的总评分,包括:至少根据所述第一评分和所述第二评分确定所述第一Region和所述第二Region对应的总评分。5.如权利要求4所述的方法,其特征在于,所述一个Region对应的HDFS文件的属性信息还包括:是否包含.tmp目录;根据所述第一Region和所述第二所述Region的对应的文件中是否包含.tmp格式文件的指示信息,确定所述第一Region和所述第二Region对应的第三评分;所述至少根据所述第一评分确定所述第一Region和所述第二Region对应的总评分,包括:至少根据所述第一评分、所述第二评分和所述第三评分确定所述第一Region和所述第二Region对应的总评分。6.一种分布式文...

【专利技术属性】
技术研发人员:王亚雄周继恩王颖卓
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1