一种基于HBase数据库的海量数据快速导入方法技术

技术编号：11307845 阅读：103 留言：0更新日期：2015-04-16 03:30

提出一种基于HBase的海量数据快速导入方法，基于HBase数据库中表的格式，对数据源中的数据进行拆分；基于数据源中数据量的大小和HBase数据库中行键的设计，在建立所述表的时候进行预分区；设置HBase数据库的预写日志系统，关闭自动提交功能，设置缓存大小；启用多线程，将所述数据导入HBase数据库的表中。所述方法不需要对数据源进行预处理，方便操作，提高了效率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】提出一种基于HBase的海量数据快速导入方法，基于HBase数据库中表的格式，对数据源中的数据进行拆分；基于数据源中数据量的大小和HBase数据库中行键的设计，在建立所述表的时候进行预分区；设置HBase数据库的预写日志系统，关闭自动提交功能，设置缓存大小；启用多线程，将所述数据导入HBase数据库的表中。所述方法不需要对数据源进行预处理，方便操作，提高了效率。【专利说明】
本专利技术涉及大数据处理
，具体涉及一种基于HBase的海量数据快速导入方法。
技术介绍
随着人类社会全面进入信息时代，数据成为与水、石油同等重要的战略资源。通过挖掘海量数据，能够使政府和企业的运行决策建立在更加科学的依据基础上，提高决策效率、危机应对能力和公共服务水平。大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到擷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据分析相比于传统的数据仓库应用，具有数据量大、查询分析复杂等特点。大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。 HBase是一个分布式的、面向列的开源数据库，该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。HBase (Hadoop Database)是一个高可靠性、高性能、面向列、...

【技术保护点】
一种基于HBase的海量数据快速导入方法，包括：S1.基于HBase数据库中表的格式，对数据源中的数据进行拆分；S2.基于数据源中数据量的大小和HBase数据库中行键的设计，在建立所述表的时候进行预分区；S3.设置HBase数据库的预写日志系统，关闭自动提交功能，设置缓存大小；S4.启用多线程，将所述数据导入HBase数据库的表中，流程结束。

【技术特征摘要】

【专利技术属性】
技术研发人员：范荣盛，辛国茂，赵仁明，金洪殿，
申请(专利权)人：浪潮北京电子信息产业有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人