当前位置: 首页 > 专利查询>北京神州泰岳软件股份有限公司专利>正文

一种基于HBase数据库的数据批量入库的方法和装置制造方法及图纸

技术编号：13449236 阅读：99 留言：0更新日期：2016-08-01 18:37

本发明专利技术公开一种基于HBase数据库的数据批量入库的方法和装置，该方法包括：对待入库源数据提取行键并排序，将排序后的行键按指定的分区个数进行平均分区确定出每个分区范围端值对应的行键；将每个分区范围端值对应的行键分别增加预定长度作为每个预建分区范围的端值；判断HBase数据库中是否有HBase表；如果否，创建HBase表并在HBase表中根据每个预建分区范围的端值建立分区；对待入库源数据按照HBase表中每个分区并行生成对应的HFile文件；将HFile文件批量导入HBase表。通过本发明专利技术的这种数据批量入库方法提高了HFile文件的生成速度及入库速度，从而使得HBase批量入库效率得到极大的提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于HBase数据库的数据批量入库的方法和装置
本专利技术涉及HBase数据库
，具体涉及一种基于HBase数据库的数据批量入库的方法和装置。
技术介绍
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库，HBase不同于一般的关系型数据库，它是一个适合于非结构化数据存储的数据库，利用HBase可以在廉价的PCServer上搭建起大规模结构化存储集群，能有效的降低大数据化背景下的存储成本。但HBase在数据批量入库方面存在一个问题，通过HBase自身提供的入库工具对大批量的数据进行入库时十分缓慢耗时、效率极低，例如，一个上百G的数据文件入库时通常要耗时23-24个小时，甚至更长时间。其批量入库步骤大致如下：1、先将数据文件通过Importtsv工具按分区并行生成为HBase的底层存储文件HFile文件。在此步中极易出现数据倾斜，即由于每个分区都会有范围，在分区范围设计不合理时导致大量的数据过度集中到某一个分区中，从而导致此分区在计算过程中十分缓慢，降低整体运行速度。2、将生成好的HBase底层存储文件HFile文件通过BulkLoad工具批量导入到HBase表中。该步骤中很容易出现HFile文件跨分区，即一个HFile文件中的数据一部分属于A分区范围另一部分数据属于B分区范围，因为HBase底层是通过分区对这些HFile文件进行管理的，一旦生成好的HFile文件出现跨分区，在导入的过程中将再次对此文件进行复制分割，复制分割过程十分耗时，从而大大降低了整体的入库效率。上述两个步骤中所存在的问题严重限制了HBase批量入库效率的提高，使得...

【技术保护点】
一种基于HBase数据库的数据批量入库的方法，其特征在于，该方法包括：对待入库的源数据，提取行键并排序，将排序后的行键按指定的分区个数进行平均分区，确定出每个分区范围的端值对应的行键；将所述每个分区范围的端值对应的行键，分别增加预定长度后作为每个预建分区范围的端值；判断所述HBase数据库中是否存在HBase表；如果否，在HBase数据库中创建HBase表，并在所述HBase表中根据每个预建分区范围的端值建立分区；对所述待入库的源数据按照所述HBase表中建立的每个分区，并行生成对应的HFile文件；将所述生成的HFile文件批量导入所述HBase表中。

【技术特征摘要】
1.一种基于HBase数据库的数据批量入库的方法，其特征在于，该方法包括：对待入库的源数据，提取行键并排序，将排序后的行键按指定的分区个数进行平均分区，确定出每个分区范围的端值对应的行键；将所述每个分区范围的端值对应的行键，分别增加预定长度后作为每个预建分区范围的端值；判断所述HBase数据库中是否存在HBase表；如果否，在HBase数据库中创建HBase表，并在所述HBase表中根据每个预建分区范围的端值建立分区；对所述待入库的源数据按照所述HBase表中建立的每个分区，并行生成对应的HFile文件；将所述生成的HFile文件批量导入所述HBase表中；如果是，从已有HBase表中提取每个已有分区范围的端值；根据所述每个预建分区范围的端值和所述已有分区范围的端值进行排序处理，得到每个新建分区范围；对所述待入库的源数据按照所述每个新建分区范围，并行生成对应的HFile文件；将所述生成的HFile文件批量导入所述已有的HBase表中；其中，所述根据所述每个预建分区范围的端值和所述已有分区范围的端值进行排序处理，得到每个新建分区范围包括：对所述每个预建分区范围的端值和所述已有分区范围的端值进行排序；由排序后的相邻的每两个端值确定出一个所述新建分区范围。2.如权利要求1所述的方法，其特征在于，所述将所述生成的HFile文件批量导入所述已有的HBase表中包括：根据所述已有Hbase表中每个已有分区范围的端值，将新建分区范围属于该已有分区范围内所生成的HFlie文件对应导入该已有分区里。3.如权利要求1所述的方法，其特征在于，所述对所述待入库的源数据按照所述每个新建分区范围，并行生成对应的HFile文件包括：将所述每个新建分区范围分别生成一个分区文件，通过修改Importtsv工具的源码，将生成的所述分区文件传递给TotalOrderPartitioner类，再通过修改后的Importtsv工具并行生成对应的HFile文件。4.如权利要求1所述的方法，其特征在于，所述...

【专利技术属性】
技术研发人员：唐正才，王庆磊，张国波，
申请(专利权)人：北京神州泰岳软件股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人

相关技术

网友询问留言已有0条评论

还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1

发布您的意见

相关领域技术

hbase数据库技术