【技术实现步骤摘要】
基于Hbase的数据导出方法及装置
本专利技术涉及大数据
,尤其涉及一种基于Hbase的数据导出方法及装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。众所周知,HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用来存储非结构化数据,支持横向扩展,能够通过不断增加廉价的商用服务器,来增加计算和存储能力。HBase以表的形式存储数据,一个表在行的方向上可以分割为多个Region,Region是HBase数据存储和管理的基本单元,每个Region被一个RegionServer提供服务,每个RegionServer可同时服务多个Region。当需要对存储在Hbase中的数据进行数据处理、分析等操作的时候,如果使用Spark直接读取Hbase中的数据进行批处理操作,很容易使得Hbase过载,甚至出现内存溢出导致RegionServer挂掉的情形,一旦RegionServer停止服务,在一段时间内Hbase的读写服务将 ...
【技术保护点】
1.一种基于Hbase的数据导出方法,其特征在于,包括:/n对Hbase表进行快照,生成Hbase表中各个Region的快照文件,其中,每个Region的快照文件中记录有每个Region的Hfile文件引用指针;/n根据各个Region的快照文件中记录的Hfile文件引用指针,扫描读取各个Region的Hfile文件;/n解析各个Region的Hfile文件,得到所述Hbase表的对应的Hfile数据;/n导出所述Hbase表的对应的Hfile数据。/n
【技术特征摘要】
1.一种基于Hbase的数据导出方法,其特征在于,包括:
对Hbase表进行快照,生成Hbase表中各个Region的快照文件,其中,每个Region的快照文件中记录有每个Region的Hfile文件引用指针;
根据各个Region的快照文件中记录的Hfile文件引用指针,扫描读取各个Region的Hfile文件;
解析各个Region的Hfile文件,得到所述Hbase表的对应的Hfile数据;
导出所述Hbase表的对应的Hfile数据。
2.如权利要求1所述的方法,其特征在于,根据各个Region的快照文件中记录的Hfile文件引用指针,扫描读取各个Region的Hfile文件,包括:
获取读取Hfile文件的配置参数,其中,所述配置参数中包含:并行读取Hfile文件时设定的单个并行度的数据大小阈值;
根据单个并行度的数据大小阈值和单个Hfile文件的文件大小,确定读取单个Hfile文件的并行度;
根据各个Region的快照文件中记录的Hfile文件引用指针,按照单个Hfile文件的并行度,扫描读取各个Region的Hfile文件。
3.如权利要求1所述的方法,其特征在于,导出所述Hbase表的对应的Hfile数据,包括:
获取预设的数据过滤条件;
根据所述数据过滤条件,导出所述Hbase表的对应的Hfile数据。
4.如权利要求1所述的方法,其特征在于,导出所述Hbase表的对应的Hfile数据,包括:
将所述Hbase表的对应的Hfile数据转换为Spark的DataFrame数据;
将DataFrame数据插入到Hive表或HDFS文件。
5.一种基于Hbase的数据导出装置,其特征在于,包括:
快照文件生成单元,用于对Hbase表进行快照,生成Hbase表中各个Region的快照文件,其中,每个Region的快照文件中记录有每个Region的Hfil...
【专利技术属性】
技术研发人员:周朝卫,
申请(专利权)人:中盈优创资讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。