基于云存储的数据传输方法、装置及计算机设备制造方法及图纸

技术编号:24010522 阅读:42 留言:0更新日期:2020-05-02 01:35
本发明专利技术公开了基于云存储的数据传输方法、装置、计算机设备及存储介质。该方法包括接收由Hive数据库上传的全量数据,并进行存储;获取HBase数据库中的预分区个数;根据所述预分区个数及全量数据中各数据的行键,对所述全量数据进行分区,得到对应的分区数据;将每个分区数据依次根据列和行键进行升序排序,得到对应的排序后分区数据;将各排序后分区数据发送至所述Hbase数据库对应的分区服务器中以进行存储。该方法实现了全量数据写入Hbase数据库之前,将排序过程在云端完成,提高了数据写入Hbase数据库的效率。

Data transmission method, device and computer equipment based on cloud storage

【技术实现步骤摘要】
基于云存储的数据传输方法、装置及计算机设备
本专利技术涉及云存储
,尤其涉及一种基于云存储的数据传输方法、装置、计算机设备及存储介质。
技术介绍
目前,将Hive数据库(Hive是一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表)中的数据写入HBase(HBase是一个分布式的、面向列的开源数据库)中时,一般采用离线批量写入或者流式写入的方式,但是上述两种方式在将数据写入HBase时均是采用put的方式(put是HBase中数据插入方式中的一种),通过put指令插入数据时是一边排序一边插入,造成对HBase集群的数据处理效率的影响,而且导致数据写入效率低下。
技术实现思路
本专利技术实施例提供了一种基于云存储的数据传输方法、装置、计算机设备及存储介质,旨在解决现有技术中将数据写入HBase时均是采用put的方式,通过put指令插入数据时是一边排序一边插入,造成对HBase集群的数据处理效率的影响,而且导致数据写入效率低下的问题。第一方面,本专利技术实施例提供了一种基于云存储的数据传输方法,其包括:...

【技术保护点】
1.一种基于云存储的数据传输方法,其特征在于,包括:/n接收由Hive数据库上传的全量数据,并进行存储;其中,所述Hive数据库为数据仓库式数据库;/n获取HBase数据库中的预分区个数;其中,所述HBase数据库为分布式开源数据库,且所述HBase数据库中每一预分区均对应一个分区服务器;/n根据所述预分区个数及全量数据中各数据的行键,对所述全量数据进行分区,得到对应的分区数据;其中,分区数据的总分区数与所述预分区个数相等,且每一分区数据唯一对应一个分区服务器;/n将每个分区数据依次根据列和行键进行升序排序,得到对应的排序后分区数据;以及/n将各排序后分区数据发送至所述Hbase数据库对应的分...

【技术特征摘要】
1.一种基于云存储的数据传输方法,其特征在于,包括:
接收由Hive数据库上传的全量数据,并进行存储;其中,所述Hive数据库为数据仓库式数据库;
获取HBase数据库中的预分区个数;其中,所述HBase数据库为分布式开源数据库,且所述HBase数据库中每一预分区均对应一个分区服务器;
根据所述预分区个数及全量数据中各数据的行键,对所述全量数据进行分区,得到对应的分区数据;其中,分区数据的总分区数与所述预分区个数相等,且每一分区数据唯一对应一个分区服务器;
将每个分区数据依次根据列和行键进行升序排序,得到对应的排序后分区数据;以及
将各排序后分区数据发送至所述Hbase数据库对应的分区服务器中以进行存储。


2.根据权利要求1所述的基于云存储的数据传输方法,其特征在于,所述获取HBase数据库中的预分区个数,包括:
发送RPC请求至所述HBase数据库;其中,所述RPC请求为远程过程调用协议请求;
接收所述HBase数据库根据所述RPC请求发送的元信息,根据元信息获取预分区个数。


3.根据权利要求1所述的基于云存储的数据传输方法,其特征在于,所述根据所述预分区个数及全量数据中各数据的行键,对所述全量数据进行分区,得到对应的分区数据,包括:
获取所述全量数据中各数据对应的行键;
将各数据的行键通过MD5加密算法或SHA-256加密算法生成对应的哈希值;
将各行键对应的哈希值对所述预分区个数求模,得到与各行键对应的余数;
将各行键对应的数据存储至该行键对应的余数所对应的分区中,以得到对应的分区数据。


4.根据权利要求1所述的基于云存储的数据传输方法,其特征在于,所述将每个分区数据依次根据列和行键进行升序排序,得到对应的排序后分区数据,包括:
在每个分区数据中各自获取具有相同行键的数据,将具有相同行键的数据中根据列的升序进行排序,得到与每一分区数据对应的第一排序后分区数据;
将每一第一排序后分区数据根据行键的升序进行排序,得到与每一第一排序后分区数据对应的排序后分区数据。


5.根据权利要求1所述的基于云存储的数据传输方法,其特征在于,所述将各排序后分区数据发送至所述Hbase数据库对应的分区服务器中以进行存储,包括:
将各排序后分区数据输入至本地的HDFS层,以将各序后分区数据...

【专利技术属性】
技术研发人员:邓煜
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1