一种Hbase与Hdfs之间的数据抽取转换方法及系统技术方案

技术编号:12520591 阅读:120 留言:0更新日期:2015-12-17 11:23
本发明专利技术涉及一种Hbase与Hdfs之间的数据抽取转换方法及系统,包括以下步骤:获取待处理的数据表名及处理参数;根据待处理的数据表名及处理参数对待处理的数据表进行处理;将经过处理的数据表插入到Hdfs系统中。本发明专利技术可以将历史的数据抽取保存到Hdfs分布式文件系统当中,当需要历史数据的时候,又可以把Hdfs中的数据恢复到Hbase中,该工具就恰恰满足了这种功能,根据环境的不同通过配置的修改来实现数据的抽取备份保存,同时还不影响到生成Hbase的正常使用。

【技术实现步骤摘要】

本专利技术涉及Hadoop大数据集群,特别涉及一种Hbase与Hdfs之间的数据抽取转换方法及系统
技术介绍
在大数据时代的背景下,处理的数据都以T级PB级来进行计算,传统的技术对处理这样数量级的数据已经渐渐力不从心,应运而生的就是Hadoop集群和Hbase等新技术。例如:现在广泛使用的云详单存储,详单存储在Hbase数据库中,但是需要对历史详单进行备份存储,就可以使用该工具将Hbase的数据存储Hdfs中,如果有必要也可以使用该工具将Hdfs中的数据还原到Hbase数据库中。相比较而言,传统的关系型数据库具有以下缺点:(I)关系数据库所采用的二维表格数据模型不能有效地处理多维数据,不能有效处理互联网应用中半结构化和非结构化的海量数据,如Web页面、电子邮件、音频、视频等。(2)尚并发读与的性能低;关系数据库达到一定规模时,非常容易发生死锁等并发问题,导致其读写性能下降非常严重。Web2.0网站数据库并发负载非常高,往往要达到每秒上万次读写请求。关系型数据库勉强可以应付上万次SQL查询,但硬盘I/O往往无法承担上万次的SQL写数据请求。(3)支撑容量有限;类似人人网,新浪微博,Facebook,Twitter,Friendfeed(已被Facebook 收购)这样的网站,每天用户产生海量的用户动态信息。(a)以Facebook为例,一个月就要存储1350亿条(未得到确认)用户动态,对于关系数据库来说,在一张1350亿条记录的表里面进行SQL查询,效率是极其低下乃至不可忍受的。(b)再例如大型Web网站或頂的用户登录系统,例如腾讯,MSN,动辄数以亿计的帐号,关系数据库也很难应付。(4)数据库的可扩展性和可用性低;当一个应用系统的用户量和访问量与日倶增的时候,传统的关系型数据库却没有办法像Web Server那样简单地通过添加更多的硬件和服务节点来扩展性能和负载能力。对于很多需要提供不间断服务的系统来说,对数据库系统进行升级和扩展往往需要停机维护和数据迀移。
技术实现思路
本专利技术所要解决的技术问题是提供一种可以快速的将Hbase中的数据备份到Hdfs中,也可以将Hdfs中备份的数据快速还原到Hbase中的Hbase与Hdfs之间的数据抽取转换方法及系统。本专利技术解决上述技术问题的技术方案如下:一种Hbase与Hdfs之间的数据抽取转换方法,包括以下步骤:获取待处理的数据表名及处理参数;根据待处理的数据表名及处理参数对待处理的数据表进行处理;将经过处理的数据表插入到Hdfs系统中。本专利技术的有益效果是:随着云详单存储项目等类似Hbase数据库的使用,由于Hbase数据库存在reg1nServer压力影响的情况下,不能无限的将数据保存在Hbase数据库中,本专利技术可以将历史的数据抽取保存到Hdfs分布式文件系统当中,当需要历史数据的时候,又可以把Hdfs中的数据恢复到Hbase中,该工具就恰恰满足了这种功能,根据环境的不同通过配置的修改来实现数据的抽取备份保存,同时还不影响到生成Hbase的正常使用。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步,所述根据待处理的数据表名及处理参数对待处理的数据表进行处理具体为,根据待处理的数据表名及处理参数对待处理的数据表进行抽取或转换。进一步,所述处理参数为抽取参数或者合并参数。进一步,所述根据待处理的数据表名及处理参数对待处理的数据表进行抽取具体为:根据待处理的数据表名及抽取参数利用map函数进行抽取,并将抽取得到的数据表存入Hdfs系统中。进一步,所述根据待处理的数据表名及处理参数对待处理的数据表进行转换具体为:将抽取的数据表利用map函数进行切分,得到多个数据库块;将所有数据块传递给reduce函数进行合并处理,得到合并数据库块。进一步,一种Hbase与Hdfs之间的数据抽取转换系统,包括获取模块、处理模块和插入t旲块;所述获取模块,用于获取待处理的数据表名及处理参数;所述处理模块,用于根据待处理的数据表名及处理参数对待处理的数据表进行处理;所述插入模块,用于将经过处理的数据表插入到Hdfs系统中。进一步,所述处理模块具体用于:根据待处理的数据表名及处理参数对待处理的数据表进行抽取或转换。进一步,所述处理参数为抽取参数或者合并参数。进一步,根据待处理的数据表名及处理参数对待处理的数据表进行抽取具体为:根据待处理的数据表名及抽取参数利用map函数进行抽取,并将抽取得到的数据表存入Hdfs系统中。进一步,根据待处理的数据表名及处理参数对待处理的数据表进行转换具体为:将抽取的数据表利用map函数进行切分,得到多个数据库块;将所有数据块传递给reduce函数进行合并处理,得到合并数据库块。【附图说明】图1为本专利技术方法步骤流程图;图2为本专利技术系统结构图。附图中,各标号所代表的部件列表如下:1、获取模块,2、处理模块,3、插入模块。【具体实施方式】以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。实施例1如图1所示,一种Hba当前第1页1 2 本文档来自技高网
...

【技术保护点】
一种Hbase与Hdfs之间的数据抽取转换方法,其特征在于,包括以下步骤:获取待处理的数据表名及处理参数;根据待处理的数据表名及处理参数对待处理的数据表进行处理;将经过处理的数据表插入到Hdfs系统中。

【技术特征摘要】

【专利技术属性】
技术研发人员:金晓飞
申请(专利权)人:北京思特奇信息技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1