一种Hbase与Hdfs之间的数据抽取转换方法及系统技术方案

技术编号：12520591 阅读：120 留言：0更新日期：2015-12-17 11:23

本发明专利技术涉及一种Hbase与Hdfs之间的数据抽取转换方法及系统，包括以下步骤：获取待处理的数据表名及处理参数；根据待处理的数据表名及处理参数对待处理的数据表进行处理；将经过处理的数据表插入到Hdfs系统中。本发明专利技术可以将历史的数据抽取保存到Hdfs分布式文件系统当中，当需要历史数据的时候，又可以把Hdfs中的数据恢复到Hbase中，该工具就恰恰满足了这种功能，根据环境的不同通过配置的修改来实现数据的抽取备份保存，同时还不影响到生成Hbase的正常使用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及Hadoop大数据集群，特别涉及一种Hbase与Hdfs之间的数据抽取转换方法及系统。
技术介绍
在大数据时代的背景下，处理的数据都以T级PB级来进行计算，传统的技术对处理这样数量级的数据已经渐渐力不从心，应运而生的就是Hadoop集群和Hbase等新技术。例如:现在广泛使用的云详单存储，详单存储在Hbase数据库中，但是需要对历史详单进行备份存储，就可以使用该工具将Hbase的数据存储Hdfs中，如果有必要也可以使用该工具将Hdfs中的数据还原到Hbase数据库中。相比较而言，传统的关系型数据库具有以下缺点:(I)关系数据库所采用的二维表格数据模型不能有效地处理多维数据，不能有效处理互联网应用中半结构化和非结构化的海量数据，如Web页面、电子邮件、音频、视频等。(2)尚并发读与的性能低；关系数据库达到一定规模时，非常容易发生死锁等并发问题，导致其读写性能下降非常严重。Web2.0网站数据库并发负载非常高，往往要达到每秒上万次读写请求。关系型数据库勉强可以应付上万次SQL查询，但硬盘I/O往往无法承担上万次的SQL写数据请求。(3)支撑容量有限；类似人人网，新浪微博，Facebook，Twitter，Friendfeed(已被Facebook 收购)这样的网站，每天用户产生海量的用户动态信息。(a)以Facebook为例，一个月就要存储1350亿条(未得到确认)用户动态，对于关系数据库来说，在一张1350亿条记录的表里面进行SQL查询，效率是极其低下乃至不可忍受的。(b)再例如大型Web网站或頂的用户登录系统，例如腾讯，MSN，动辄...

【技术保护点】
一种Hbase与Hdfs之间的数据抽取转换方法，其特征在于，包括以下步骤：获取待处理的数据表名及处理参数；根据待处理的数据表名及处理参数对待处理的数据表进行处理；将经过处理的数据表插入到Hdfs系统中。

【技术特征摘要】

【专利技术属性】
技术研发人员：金晓飞，
申请(专利权)人：北京思特奇信息技术股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人