一种基于Hadoop的海事局船检大数据分布式存储系统技术方案

技术编号：33635412 阅读：14 留言：0更新日期：2022-06-02 01:46

本发明专利技术公开了一种基于Hadoop的海事局船检的大数据分布式存储方法。包括首先对海事局船检平台数据特征进行分析，通过在客户端与NameNode中间增加一个部门节点，优化HDFS处理海量小文件时表现出的性能低下的问题；其次，在该节点中实现对小文件的合并时，设立了小文件预处理模块和预取模块；同时对热点数据合并的后的大文件元数据信息进行缓存，达到对小文件的访问流程进行优化，缓解NameNode节点压力；小文件预处理模块和预取模块工作的同时，对热点数据合并的后的大文件元数据信息进行缓存，达到对小文件的访问流程进行优化。本发明专利技术解决了传统的HDFS在存储海量小文件时通常表现出性能低下的问题，针对海事局海量数据文件小的特性，更加方便文件存储。更加方便文件存储。更加方便文件存储。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Hadoop的海事局船检大数据分布式存储系统

[0001]本专利技术涉及分布式存储系统领域，具体地涉及一种基于Hadoop的海事局船检大数据分布式系统存储方法。

技术介绍

[0002]随着互联网技术的快速发展，网络信息的规模呈现出指数性的增长。随着企业信息化建设的不断完善，传统的数据存储方式已经不能满足日常过程中产生的大量数据，因此越来越多的企业开始使用分布式文件系统。HDFS是Hadoop集群中最底层的存在，具有分布式存储海量数据的能力，由于其免费开源、可扩展、高容错的特性被广泛用于大量文件的分布式存储。
[0003]但HDFS随机选择存储节点进行数据存放的方式容易产生以下两点问题：易造成数据分布不均衡以及默认放置策略中没有考虑数据节点硬件差异。由于海事局存储的文件大多都是海量小文件，考虑到HDFS分布式系统以集群同构为前提进行数据信息的存储，设计时没有对集群中数据节点的硬件差异进行相应优化，在客户端发起文件请求时，会先访问NameNode节点获取对应文件的元数据信息，通过元数据找到对应DataNode节点查找所存储的数据。Hadoop设计的目的是为了存储较大的文件，在存储文件大小相同的情况下，存储大文件所消耗的NameNode内存更少，因此当存在大量小文件存储和访问请求时，NameNode就会表现出性能低下的问题。

技术实现思路

[0004]一种基于Hadoop的海事局船检的大数据分布式存储方法，以解决上述
技术介绍
中提出的问题。
[0005]为实现上诉目的，本专利技术提供如...

【技术保护点】

【技术特征摘要】
1.一种基于Hadoop的海事局船检的大数据分布式存储方法，其特征在于，包括：对海事局船检平台数据特征进行分析，并确定分界点的文件大小；通过在客户端与NameNode中间增加一个部门节点，优化HDFS处理海量小文件时表现出的性能低下的问题；部门检测算法合并同属部门id，同时基于MapFile的方法通过键值对的序列化实现小文件到大文件的合并，建立小文件到大文件的映射；优化小文件检索，对数据合并的后的大文件元数据信息进行缓存，达到对小文件的访问流程进行优化，提升存取效率。2.一种基于Hadoop的海事局船检的大数据分布式存储方法，其特征在于，包括如下步骤：S1：海量小文件存储性能分析以及小文件大小的确定；S2：小文件存储优化设计；S3：文件预处理模块设计；S4：小文件检索优化设计；S5：缓存预取模块设计。3.根据权利要求2所述的一种基于Hadoop的海事局船检的大数据分布式存储方法，其特征在于，所述步骤S1具体包括以下步骤：S1.1:采集海事局待分析的文件大小数据集，并进行量化分析；S1.2:采用线性拟合的方法确定了分界点的文件大小。4.根据权利要求2所述的一种基于Hadoop的海事局船检的大数据分布式存储方法，其特征在于：所述步骤S2中优化的目标包括结点内存消耗、节点访问的时间频率，以及具体定义如下：Hadoop分布式文件中有一个NameNode节点处于激活状态，并且NameNode节点不存储具体文件，只负责保存系统存储文件的元数据；假设HDFS本身在不存储文件时内存消耗为a，一个BlockMap在NameNode中内存消耗为b，HDFS默认一个块大小为64MB，当存储大小依次为M1、M2、M3
…
、Mn的文件时，NameNode的内存消耗定义如下：其中表示文件存存入是被切分的块的数量，(368+b)表示文件存入是被切分的块的数量，表示每个块的产生的列表信息占用的NameNode的内存，因此，要想降低NameNode节点内存消耗，我们需要减少文件块的数量；读取N个大小依次为M1、M2、M3
…
Mn的文件，所消耗的时间为：进一步地，所述负载状态为磁盘使用率，磁盘使用率模型为：NameNode接收Client请求时间消耗，记为Tcn，Client接收到NameNode发回的元数据所消耗的时间，记为Tnc；...

【专利技术属性】
技术研发人员：邓酩，谢刚，侯立宪，刘超，柳庆龙，
申请(专利权)人：桂林理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人