一种基于Hadoop的档案大数据分布式存储系统技术方案

技术编号：30970079 阅读：50 留言：0更新日期：2021-11-25 20:48

本发明专利技术公开了一种基于Hadoop的档案大数据分布式存储系统，系统包括客户端，主从结构的控制节点和多个从属节点；所述控制节点用于控制所述多个从属节点，所述从属节点用于数据存储和数据处理，所述控制节点与所述控制节点通过TCP/IP协议进行信息传输；系统使用HDFS分布式存储系统缓解了企业的存储成本；采用哈希算法，通过改进HDFS块存储的随机放置数据策略，有效解决存储系统在扩容和宕机情况下，数据倾斜的问题，提高了存储系统的稳定性。提高了存储系统的稳定性。提高了存储系统的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Hadoop的档案大数据分布式存储系统

：
[0001]本专利技术属于分布式存储系统，尤其涉及一种基于Hadoop的档案大数据分布式存储系统。

技术介绍
：
[0002]当前，国内许多公司使用mysql，sqlserver，oracle等数据库，数据库采用并行存储方案，但数据库服务器支持数量有限，对于数据库的扩容只能通过纵向方向
‑‑
硬件升级进行扩展扩展，而无法进行横向增加独立数据库数量扩展实现对数据库容量进行扩容。
[0003]与传统数据库相比，多个数据库并行连接进行存储，能够在原有的架构上扩展存储能力和计算分析能力，但是该并行数据库使得计算与存储分离，无法同时对存储的数据进行计算分析，由于带宽限制，多个并行数据库在进行数据访问过程中存在带宽竞争，出现带宽瓶颈。同时，当进行容量扩展时，需要静态停机，然后进行扩展存储，数据也要重新进行分布。若数据再某一时段骤增，信息数据增长速度大于数据库硬件升级速度，导致无法满足通过扩容对骤然增加数据存储的无缝连接，容易出现数据库容量不足，影响服务质量以及客户时效性需求。
[0004]保证在不同场景下存储系统的负载均衡和处理速度，通常采用HDFS分布式系统数据存储策略，Hadoop大数据平台下的分布式文件系统HDFS默认数据存储策略在设计之初有兼顾到数据存储效率、尽量均衡分布以及数据可靠性等方面的考虑，但HDFS随机选择存储节点进行数据存放的方式容易产生以下两点问题：易造成数据分布不均衡以及默认放置策略中没有考虑数据节点硬件差异
[000...

【技术保护点】

【技术特征摘要】
1.一种基于Hadoop的档案大数据分布式存储系统，其特征在于：系统包括客户端，主从结构的控制节点和多个从属节点；所述控制节点用于控制所述多个从属节点，所述从属节点用于数据存储和数据处理，所述控制节点与所述控制节点通过TCP/IP协议进行信息传输；所述客户端用于接收用户配置的map函数和reduce函数，所述map函数用于key/value对的操作管理，将大型计算任务分解为多个子任务，并且将所述子任务分发给各个所述从属节点，利用所述从属节点的计算资源获得计算结果，所述reduce函数用于相同key值的所有value值进行合并处理，输出的键值为最终结果；当待处理数据向所述从属节点存储时，所述控制节点采用哈希模型确定指定的从属节点，所述哈希模型为：target＝getHashCode(request.IPNum)&nodeNum其中getHashCode()表示字符串运算哈希值函数，request.IPNum表示请求IP地址，nodeNum表示从属节点总数，可以根据target的值分配对应编号的从属节点。2.根据权利要求1所述的基于Hadoop的档案大数据分布式存储系统，其特征在于：在所述从属节点和所述待处理数据之间设置多个虚拟层，第一虚拟层映射到第一从属节点，所述第一虚拟层包括多个虚拟节点，所述待处理数据通过虚拟节点存储到所述从属节点中，将虚拟节点与从属节点的映射模型替换所述哈希模型。3.根据权利要求2所述的基于Hadoop的档案大数据分布式存储系统，其特征在于：虚拟节点与从属节点的映射模型为：其中，P为从属节点的初始哈希位置，P
’
为映射节点的哈希位置，N为从属节点的数量，k＝0,1,2...N。4.根据权利要求2所述的基于Hadoop的档案大数据分布式存储系统，其特征在于：虚拟节点与从属节点的映射模型还可以为：其中，h表示特征字符串的哈希结果，l表示字符串长度，w表示字符在哈希运算中的权重。5.根据权利要求1所述的基于Hadoop的档案大数据分布式存储系统，其特征在于：所述控制节点可用于负载均衡服务器，处理所述客户端发送的存储数据请求之后，收集各个所述从属节点实时反馈的负载状态，再把请求根据权值分配到各所述从属节点，所述...

【专利技术属性】
技术研发人员：王佩，李帅，
申请(专利权)人：中盾创新档案管理北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人