一种基于分布式文件系统HDFS的小文件存取优化方法技术方案

技术编号：26890637 阅读：27 留言：0更新日期：2020-12-29 16:07

一种基于分布式文件系统HDFS的小文件存取优化方法，本该方法在传统HDFS架构之上添加新型的文件处理层。该文件处理层主要功能是提供小文件元数据索引、小文件合并、小文件预取和缓存。其中将小文件元素据保存在处理层可以降低HDFS集群内存占用和负载。小文件合并和预取方案的提出可以减少文件处理层带来的通信效率下降问题，增强小文件的读写性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分布式文件系统HDFS的小文件存取优化方法
本专利技术涉及分布式文件存储系统领域，具体涉及一种基于分布式文件系统HDFS的小文件存取优化方法。
技术介绍
随着互联网的快速发展，各行各业逐渐的融入到互联网当中，使得互联网中的数据量呈几何倍的速度快速增长。各种不同性质的企业通过互联网技术方法收集了海量的原始数据，比如提供搜索、网上购物、网络社交等服务的企业都有PB级的存储数据集，这些数据集中存在着海量的小文件。这使得许多行业研究面临着如何存储以及分析处理这些海量数据等的困扰。而Hadoop就能够解决这些问题。Hadoop时一款分布式系统架构，他提供了一个大容量、可扩展、搞可靠的分布式存储系统HDFS和一个高性能分布式计算平台MapReduce。HDFS设计的初衷只是为了处理超大文件，小文件数量的增多使得系统中的存储空间无法被完全利用，存在大量的内存浪费的情况。HDFS系统在处理小文件数据时，存储性能和读写效率都无法维持原有水准。海量的小文件数据使得存储系统变得臃肿、缓慢甚至无法工作。通常业内将文件大小为1KB-1...

【技术保护点】
1.一种基于分布式文件系统HDFS的小文件存取优化方法，其特征在于：所述小文件存取优化方法包括如下步骤：/n步骤1：建立Hadoop完全分布式集群；/n步骤2：封装原有HDFS API，将数据经由文件处理层操作；/n步骤3：文件处理层首先设有文件判断模块，以10M为标准，判断用户请求是读操作还是写操作、访问的是大文件还是小文件，小于10M的为小文件；/n步骤4：将小文件的元数据、缓存数据存储至基于Redis的存储模块中；/n步骤5：将小文件输入至基于AGNES算法的合并器，利用AGNES算法对用户上传小文件进行分类后存入队列，当队列内文件占用达到队列90%容量时，合并器对其进行合并操作；/n步...

【技术特征摘要】
1.一种基于分布式文件系统HDFS的小文件存取优化方法，其特征在于：所述小文件存取优化方法包括如下步骤：
步骤1：建立Hadoop完全分布式集群；
步骤2：封装原有HDFSAPI，将数据经由文件处理层操作；
步骤3：文件处理层首先设有文件判断模块，以10M为标准，判断用户请求是读操作还是写操作、访问的是大文件还是小文件，小于10M的为小文件；
步骤4：将小文件的元数据、缓存数据存储至基于Redis的存储模块中；
步骤5：将小文件输入至基于AGNES算法的合并器，利用AGNES算法对用户上传小文件进行分类后存入队列，当队列内文件占用达到队列90%容量时，合并器对其进行合并操作；
步骤6：在文件处理层设置预取器，该预取器将缓存分为基于GBDT算法的预测缓存区域、基于LRU算法的普通缓存区域、未执行合并操作的小文件存储的临时文件区域，区域比例设置为1：1：5；预取器根据不同策略为每个预取执行不同的缓存替换策略，同时修改对应的小文件元数据，使其指向缓存；
步骤7：将文件处理层封装，用户执行API供用户进行小文件的上传下载操作。

2.根据权利要求1所述的一种基于分布式文件系统HDFS的小文件存取优化方法，其特征在于：步骤3中，当执行文件写操作时，文件判断模块判断用户上传的文件是否为小于10M的小文件，如果不是小文件，直接存入HDFS集群，如果是小文件，则将小文件元数据以<K,V>对形式存储在Redis中，K为小文件元数据，V为小文件存储位置信息，将小文件存储在Redis模块中的缓存临时文件区域。

3.根据权利要求1所述的一种基于分布式文件系统HDFS的小文件存取优化方法，其特征在于：...

【专利技术属性】
技术研发人员：李鹏，张迅，王汝传，徐鹤，朱枫，程海涛，孙佳杰，鲁意，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人