一种基于Hadoop的档案大数据分布式存储系统技术方案

技术编号:30970079 阅读:50 留言:0更新日期:2021-11-25 20:48
本发明专利技术公开了一种基于Hadoop的档案大数据分布式存储系统,系统包括客户端,主从结构的控制节点和多个从属节点;所述控制节点用于控制所述多个从属节点,所述从属节点用于数据存储和数据处理,所述控制节点与所述控制节点通过TCP/IP协议进行信息传输;系统使用HDFS分布式存储系统缓解了企业的存储成本;采用哈希算法,通过改进HDFS块存储的随机放置数据策略,有效解决存储系统在扩容和宕机情况下,数据倾斜的问题,提高了存储系统的稳定性。提高了存储系统的稳定性。提高了存储系统的稳定性。

【技术实现步骤摘要】
一种基于Hadoop的档案大数据分布式存储系统


[0001]本专利技术属于分布式存储系统,尤其涉及一种基于Hadoop的档案大数据分布式存储系统。

技术介绍

[0002]当前,国内许多公司使用mysql,sqlserver,oracle等数据库,数据库采用并行存储方案,但数据库服务器支持数量有限,对于数据库的扩容只能通过纵向方向
‑‑
硬件升级进行扩展扩展,而无法进行横向增加独立数据库数量扩展实现对数据库容量进行扩容。
[0003]与传统数据库相比,多个数据库并行连接进行存储,能够在原有的架构上扩展存储能力和计算分析能力,但是该并行数据库使得计算与存储分离,无法同时对存储的数据进行计算分析,由于带宽限制,多个并行数据库在进行数据访问过程中存在带宽竞争,出现带宽瓶颈。同时,当进行容量扩展时,需要静态停机,然后进行扩展存储,数据也要重新进行分布。若数据再某一时段骤增,信息数据增长速度大于数据库硬件升级速度,导致无法满足通过扩容对骤然增加数据存储的无缝连接,容易出现数据库容量不足,影响服务质量以及客户时效性需求。
[0004]保证在不同场景下存储系统的负载均衡和处理速度,通常采用HDFS分布式系统数据存储策略,Hadoop大数据平台下的分布式文件系统HDFS默认数据存储策略在设计之初有兼顾到数据存储效率、尽量均衡分布以及数据可靠性等方面的考虑,但HDFS随机选择存储节点进行数据存放的方式容易产生以下两点问题:易造成数据分布不均衡以及默认放置策略中没有考虑数据节点硬件差异
[0005]HDFS分布式系统在存储数据时,默认采用随机放置数据块的策略,以求数据在节点中的均衡分布。在对系统的存储节点进行增加与删除操作时,不能自动调整数据分布,无法满足系统负载均衡的需求。
[0006]HDF分布式系统以集群同构为前提进行数据信息的存储,设计时没有对集群中数据节点的硬件差异进行相应优化,导致一些数据节点的磁盘空间无法充分利用,影响整体存储系统效率。

技术实现思路

[0007]针对目前现有的分布式存储系统数据分布不均衡以及分布式存储系统数据节点硬件差异影响整体存储系统效率,本专利技术提供一种基于Hadoop的档案大数据分布式存储系统,使用HDFS分布式存储系统缓解了企业的存储成本。采用哈希算法,通过改进HDFS块存储的随机放置数据策略,有效解决存储系统在扩容和宕机情况下,数据倾斜的问题,提高了存储系统的稳定性,还可以使系统在同构条件下达到负载均衡;采用融合加权轮询算法可以优化数据存储策略,有效地解决了在异构条件下存储系统的负载均衡问题,充分利用系统硬件资源。
[0008]本专利技术为解决以上技术问题所采取的技术方案是:
[0009]基于Hadoop的档案大数据分布式存储系统,系统包括客户端,主从结构的控制节点和多个从属节点;所述控制节点用于控制所述多个从属节点,所述从属节点用于数据存储和数据处理,所述控制节点与所述控制节点通过TCP/IP协议进行信息传输;所述客户端用于接收用户配置的map函数和reduce函数,所述map函数用于key/value对的操作管理,将大型计算任务分解为多个子任务,并且将所述子任务分发给各个所述从属节点,利用所述从属节点的计算资源获得计算结果,所述reduce函数用于相同key值的所有value值进行合并处理,输出的键值为最终结果;
[0010]当待处理数据向所述从属节点存储时,所述控制节点采用哈希模型确定指定的从属节点,所述哈希模型为:
[0011]target=getHashCode(request.IPNum)&nodeNum
[0012]其中getHashCode()表示字符串运算哈希值函数,request.IPNum表示请求IP地址,nodeNum表示从属节点总数,可以根据target的值分配对应编号的从属节点。
[0013]进一步地,在所述从属节点和所述待处理数据之间设置多个虚拟层,第一虚拟层映射到第一从属节点,所述第一虚拟层包括多个虚拟节点,所述待处理数据通过虚拟节点存储到所述从属节点中。
[0014]进一步地,虚拟节点与从属节点的映射模型为:
[0015][0016]其中,P为从属节点的初始哈希位置,P

为映射节点的哈希位置,N为从属节点的数量,k=0,1,2...N。
[0017]进一步地,虚拟节点与从属节点的映射模型还可以为:
[0018][0019]其中,h表示特征字符串的哈希结果,l表示字符串长度,w表示字符在哈希运算中的权重。
[0020]进一步地,所述控制节点可用于负载均衡服务器,处理所述客户端发送的存储数据请求之后,收集各个所述从属节点实时反馈的负载状态,再把请求根据权值分配到各所述从属节点,所述从属节点根据所述控制节点的请求分配数据,并将存储结果发送给所述控制节点,最后所述控制节点将是否完成此次数据分配的结果发送至所述客户端。
[0021]进一步地,所述负载状态为磁盘使用率,磁盘使用率模型为:
[0022][0023]其中,U
total
为磁盘空间,U
free
为磁盘剩余空间。
[0024]进一步地,所述控制节点收到数据存储请求后,开始收集当前所述从属节点的磁盘使用率;所述控制节点计算所述从属节点的平均磁盘使用率,若第二从属节点的磁盘使用率大于等于平均磁盘使用率,则将所述第二从属节点的权重设置为0;若所述第二从属节点的磁盘使用率小于平均磁盘使用率,则根据所述磁盘使用率计算所述第二从属节点的权重,根据所述权重执行轮询分配任务。
[0025]进一步地,所述客户端可以通过所述控制节点执行并行查询命令。
[0026]进一步地,所述并行查询流程为:
[0027]步骤(1)所述客户端通过脚本或命令接口发送SQL命令到所述控制节点;
[0028]步骤(2)SQL界面根据查询关键字解析命令,生成虚拟根节点,输出字段作为叶子节点,构建查询任务树;在所述查询任务树上为每个关系表节点创建属性值,用于标记查询目标,并读取文件映射表,将文件信息添加到所述属性值中;输出任务树到优化器。
[0029]步骤(3)所述优化器根据属性值记录的文件信息检索元数据,获取对应的数据块位置信息,同样添加到所述属性值中;将任务树转换成针对数据块的操作,并依据判断条件、数据量、字段大小等因素调整操作顺序;以所述从属节点为单位,合并操作单元,按顺序压入队列,生成操作列表;
[0030]步骤(4)所有从属节点的操作列表组合成查询计划,输出给分发器;所述分发器根据节点IP地址将所述操作列表分发给对应从属节点上的执行器;
[0031]步骤(5)所述执行器读取所述操作列表,按顺序执行所有操作命令,从本地存储器获取查询结果,执行器将所述查询结果上传给分发器,分发器汇总计算结果,返回汇总的查询结果到所述客户端。
[0032]本专利技术的有益效果如下:
[0033]系统使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Hadoop的档案大数据分布式存储系统,其特征在于:系统包括客户端,主从结构的控制节点和多个从属节点;所述控制节点用于控制所述多个从属节点,所述从属节点用于数据存储和数据处理,所述控制节点与所述控制节点通过TCP/IP协议进行信息传输;所述客户端用于接收用户配置的map函数和reduce函数,所述map函数用于key/value对的操作管理,将大型计算任务分解为多个子任务,并且将所述子任务分发给各个所述从属节点,利用所述从属节点的计算资源获得计算结果,所述reduce函数用于相同key值的所有value值进行合并处理,输出的键值为最终结果;当待处理数据向所述从属节点存储时,所述控制节点采用哈希模型确定指定的从属节点,所述哈希模型为:target=getHashCode(request.IPNum)&nodeNum其中getHashCode()表示字符串运算哈希值函数,request.IPNum表示请求IP地址,nodeNum表示从属节点总数,可以根据target的值分配对应编号的从属节点。2.根据权利要求1所述的基于Hadoop的档案大数据分布式存储系统,其特征在于:在所述从属节点和所述待处理数据之间设置多个虚拟层,第一虚拟层映射到第一从属节点,所述第一虚拟层包括多个虚拟节点,所述待处理数据通过虚拟节点存储到所述从属节点中,将虚拟节点与从属节点的映射模型替换所述哈希模型。3.根据权利要求2所述的基于Hadoop的档案大数据分布式存储系统,其特征在于:虚拟节点与从属节点的映射模型为:其中,P为从属节点的初始哈希位置,P

为映射节点的哈希位置,N为从属节点的数量,k=0,1,2...N。4.根据权利要求2所述的基于Hadoop的档案大数据分布式存储系统,其特征在于:虚拟节点与从属节点的映射模型还可以为:其中,h表示特征字符串的哈希结果,l表示字符串长度,w表示字符在哈希运算中的权重。5.根据权利要求1所述的基于Hadoop的档案大数据分布式存储系统,其特征在于:所述控制节点可用于负载均衡服务器,处理所述客户端发送的存储数据请求之后,收集各个所述从属节点实时反馈的负载状态,再把请求根据权值分配到各所述从属节点,所述...

【专利技术属性】
技术研发人员:王佩李帅
申请(专利权)人:中盾创新档案管理北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1