一种分布式关系型大数据存储平台技术的方法技术

技术编号:34443726 阅读:131 留言:0更新日期:2022-08-06 16:36
本发明专利技术公开了一种分布式关系型大数据存储平台技术的方法,涉及大数据平台技术领域。本发明专利技术至少包括以下步骤:为分布式关系型大数据存储平台建立模型,配合提供有序遍历方法,并采用Raft协议;将数据保存在RocksDB中,采用RocksDB进行数据落地;准备多个存储数据的主机,将分布式关系型大数据存储平台导入主机内,并将保存的数据同步存于多个主机内,在保存过程中利用Raft来做数据复制;并在主机集群内建立Hadoop的框架,并在框架中增加HBase信息存储模块。本发明专利技术通过方法整体设计,在提供可靠高性能的实时读写可伸缩的分布式存储数据库的同时保证单机失效的情况下,数据不丢失,不出错,大大提高了整体分布式关系型大数据存储技术的使用效果。据存储技术的使用效果。据存储技术的使用效果。

【技术实现步骤摘要】
一种分布式关系型大数据存储平台技术的方法


[0001]本专利技术涉及大数据平台
,具体为一种分布式关系型大数据存储平台技术的方法。

技术介绍

[0002]大数据通常指的是那些数量巨大、难于收集、处理、分析的数据集,亦指那些在传统基础设施中长期保存的数据,大数据存储是将这些数据集持久化到计算机中,为了对大数据进行处理,出现了分布式关系型大数据存储平台技术,但是,现有的分布式关系型大数据存储平台技术在使用过程中效果有限。

技术实现思路

[0003]本专利技术的目的在于提供一种分布式关系型大数据存储平台技术的方法,以解决现有的问题:现有的分布式关系型大数据存储平台技术在使用过程中效果有限。
[0004]为实现上述目的,本专利技术提供如下技术方案:一种分布式关系型大数据存储平台技术的方法,一种分布式关系型大数据存储平台技术的方法,至少包括以下步骤:
[0005]为分布式关系型大数据存储平台建立模型,配合提供有序遍历方法,并采用Raft协议;
[0006]将数据保存在RocksDB中,采用RocksDB进行数据落地;
[0007]准备多个存储数据的主机,将分布式关系型大数据存储平台导入主机内,并将保存的数据同步存于多个主机内,在保存过程中利用Raft来做数据复制;
[0008]并在主机集群内建立Hadoop的框架,并在框架中增加HBase信息存储模块,提供可靠高性能的实时读写可伸缩的分布式存储数据库;
[0009]通过实现Raft,大数据存储平台拥有了一个分布式的Key

Value;
[0010]利用分布式关系型大数据存储平台将整个Key

Value空间分成很多段,每一段是一系列连续的Key,形成Region,每一个Regio采用StartKey到EndKey左闭右开区间来描述;
[0011]以Region为单位做数据的分散和复制,形成分布式的具备容纳能力的KeyValue系统。
[0012]优选的,所述HBase信息存储模块至少包括以下功能模块:HMaster、HRegionServer、Client、HRegionServer、zookeeper、Quorum、Region和。Hregion。
[0013]优选的,所述分布式关系型大数据存储平台建立模型的模型为Key

Value模型。
[0014]优选的,所述有序遍历方法为:
[0015]将平台整体作为大型的Map;
[0016]其中Key和Value作为是原始的Byte数组;
[0017]在这个Map中,Key按照Byte数组总的原始二进制比特位比较顺序排列。
[0018]与现有技术相比,本专利技术的有益效果是:
[0019]本专利技术通过方法整体设计,在提供可靠高性能的实时读写可伸缩的分布式存储数
据库的同时保证单机失效的情况下,数据不丢失,不出错,大大提高了整体分布式关系型大数据存储技术的使用效果。
附图说明
[0020]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本专利技术划分数据示意图;
[0022]图2为本专利技术分布式关系型大数据存储平台的示意图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0024]请参阅图1

2:
[0025]一种分布式关系型大数据存储平台技术的方法,至少包括以下步骤:
[0026]为分布式关系型大数据存储平台建立模型,配合提供有序遍历方法,并采用Raft协议;
[0027]分布式关系型大数据存储平台作为保存数据的系统,首先要决定的是数据的存储模型,本实施例中的选择是Key

Value模型,并且提供有序遍历方法,在其他实施例中也可为其他类型的模型。
[0028]有序遍历方法为将平台看作一个巨大的Map,其中Key和Value都是原始的Byte数组,在这个Map中,Key按照Byte数组总的原始二进制比特位比较顺序排列;
[0029]Raft是一个一致性算法,提供三个重要的功能:Leader选举、成员变更和日志复制;
[0030]将数据保存在RocksDB中,采用RocksDB进行数据落地;
[0031]任何持久化的存储引擎,数据终归要保存在磁盘上,本实施例中的分布式关系型大数据存储平台没有选择直接向磁盘上写数据,而是把数据保存在RocksDB中,具体的数据落地由RocksDB负责,这个选择的原因是开发一个单机存储引擎工作量很大,特别是要做一个高性能的单机引擎,需要做各种细致的优化,而RocksDB是一个非常优秀的开源的单机存储引擎,可以满足对单机引擎的各种要求,而且还有Facebook的团队在做持续的优化,这样只投入很少的精力,就能享受到一个十分强大且在不断进步的单机引擎,这里可以简单地认为RocksDB是一个单机的Key

ValueMap;
[0032]准备多个存储数据的主机,将分布式关系型大数据存储平台导入主机内,并将保存的数据同步存于多个主机内,在保存过程中利用Raft来做数据复制;
[0033]保证单机失效的情况下,数据不丢失,不出错;
[0034]利用Raft来做数据复制,每个数据变更都会落地为一条Raft日志,通过Raft的日志复制功能,将数据安全可靠地同步到Group的多数节点中;
[0035]并在主机集群内建立Hadoop的框架,并在框架中增加HBase信息存储模块,提供可
靠高性能的实时读写可伸缩的分布式存储数据库。
[0036]HMaster和HRegionServer进行通信,再由HMaster与Client进行管理操作,Client再与HRegionServer进行数据读写操作。而zookeeper中的Quorum则提供存储及HMaster地址,HMaster则能随时感知各个HRegionServer的情况且及时避免单点问题。Region则由大小分割,每个表地址起始只有一个region,随着数据的扩大而插入不同的表格,region也跟着不断增大。Hregion作为Hbase中分布存储负载的最小单元分布在其HRegionServer服务器中;
[0037]HRegion又由store组成,每个store由storefile以HFile的方式保存在hdfs上,HFile则分为六部分:Datablock,Datablockindex,Metablock,Metablockindex,FileInfo以及Tra本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式关系型大数据存储平台技术的方法,其特征在于:至少包括以下步骤:为分布式关系型大数据存储平台建立模型,配合提供有序遍历方法,并采用Raft协议;将数据保存在RocksDB中,采用RocksDB进行数据落地;准备多个存储数据的主机,将分布式关系型大数据存储平台导入主机内,并将保存的数据同步存于多个主机内,在保存过程中利用Raft来做数据复制;并在主机集群内建立Hadoop的框架,并在框架中增加HBase信息存储模块,提供可靠高性能的实时读写可伸缩的分布式存储数据库;通过实现Raft,大数据存储平台拥有了一个分布式的Key

Value;利用分布式关系型大数据存储平台将整个Key

Value空间分成很多段,每一段是一系列连续的Key,形成Region,每一个Regio采用StartKey到EndKey左闭右开区间来描述;以R...

【专利技术属性】
技术研发人员:魏俊杰蓝岸黄松杰唐政栋廖瑞杰
申请(专利权)人:深圳新闻网传媒股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1