一种实现数据导入非关系型数据库的方法和系统技术方案

技术编号：21432065 阅读：23 留言：0更新日期：2019-06-22 11:53

本发明专利技术公开了一种实现数据导入非关系型数据库的方法和系统，涉及计算机技术领域。该方法的一具体实施方式包括：将待导入数据进行格式转换，以生成非关系型数据库存储格式的文件；根据所述待导入数据的行键将所述非关系型数据库存储格式的文件分配到已创建的区域中；存储所述区域的元数据。该实施方式将数据高效导入非关系型数据库，并且该过程也没有占用CPU和内存资源，从而不影响线上非关系型数据库的使用。

全部详细技术资料下载

【技术实现步骤摘要】
一种实现数据导入非关系型数据库的方法和系统
本专利技术涉及计算机
，尤其涉及一种实现数据导入非关系型数据库的方法和系统。
技术介绍
随着网络技术的飞速发展，每天都会有大量的数据产生，对于该如此庞大数据量的数据，关系型数据库无法满足其存储，一般都会存储在非关系型数据库NOSQL中，例如HBase数据库。HBase是GoogleBigtable的开源实现，其利用HadoopHDFS作为其文件存储系统。在现有技术中，只能通过HBase数据库的API调用MapReduce的TableOutputFormat接口，将待导入HBase数据库的数据生成Put对象，Put对象再被封装成KeyValue对象。然后，通过RPC(RemoteProcedureCallProtocol远程过程调用协议)将KeyValue对象发送至区域服务器regionserver，regionserver根据接收到的KeyValue对象的rowkey将该KeyValue对象分给不同的区域region。region首先把数据写入WAL(WriteAheadLogHBase数据库的预先写日志机制)，WAL写入成功后，把数据写入memstore。当memstore超过特定时间或达到特定大小后，将memstore写入HDFS，生成HFile文件。在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：大量的KeyValue对象进入region，会造成region的不断Split，并且，该导入数据的过程只能线上进行，严重影响HBase数据库的稳定性，使线上HBase的查询响应变得缓慢；写入...

【技术保护点】
1.一种实现数据导入非关系型数据库的方法，其特征在于，包括：将待导入数据进行格式转换，以生成非关系型数据库存储格式的文件；根据所述待导入数据的行键，将所述非关系型数据库存储格式的文件分配到已创建的区域中；存储所述区域的元数据。

【技术特征摘要】
1.一种实现数据导入非关系型数据库的方法，其特征在于，包括：将待导入数据进行格式转换，以生成非关系型数据库存储格式的文件；根据所述待导入数据的行键，将所述非关系型数据库存储格式的文件分配到已创建的区域中；存储所述区域的元数据。2.根据权利要求1所述的方法，其特征在于，在将所述非关系型数据库存储格式的文件分配到已创建的区域中之前，还包括：按照预设的行键散列处理规则对待导入数据的初始行键进行处理，以生成待导入数据的新的行键；则，根据所述待导入数据的新的行键将所述非关系型数据库存储格式的文件分配到已创建的区域中。3.根据权利要求2所述的方法，其特征在于，所述按照预设的行键散列处理规则对待导入数据的初始行键进行处理的步骤包括：对所述待导入数据的初始行键进行MD5运算以生成字符串；将所述字符串的连续几位作为所述初始行键的前缀，以组合生成所述待导入数据的新的行键。4.根据权利要求1所述的方法，其特征在于，在将所述非关系型数据库存储格式的文件分配到已创建的区域中之前，还包括：确定待导入数据的数据量以及一个区域存储的数据量；根据所述待导入数据的数据量和一个区域存储的数据量确定所需的区域的数量；创建所述数量的区域。5.根据权利要求4所述的方法，其特征在于，在创建所述数量的区域之前，还包括：根据业务需求确定列簇的数量，以及确定区域服务器的内存、memstore占用区域服务器内存的比例、memstore占用区域服务器的内存；根据以下公式确定每个区域服务器下的区域数：(区域服务器的内存*memstore占用区域服务器内存的比例)/(memstore占用区域服务器的内存*列簇的数量)根据所需的区域的数量和每个区域服务器下的区域数确定出所需的区域服务器的个数。6.根据权利要求1所述的方法，其特征在于，存储所述区域的元数据的步骤包括：将所述区域的元数据存储到-ROOT-和.META.表中。7.一种实现数据导入非关系型数据库存的系统，其特征在于，包括：格式转换模块，用于将待导入数据进行格式转换，以生成非关系型数据...

【专利技术属性】
技术研发人员：李海龙，王媛，彭红晓，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人