Hadoop分布式文件系统针对日志型小文件的存储和处理方法技术方案

技术编号：11650720 阅读：141 留言：0更新日期：2015-06-25 22:58

本发明专利技术涉及计算机HDFS分布式文件系统领域，公开了一种HDFS针对日志型小文件的存储和处理方法，将文件按物理位置就近合并，同时使用Copy-On-Write机制优化小文件的读写。具体为，将日志型小文件按照物理路径就近合并，客户端读写日志型小文件时先从名字节点NameNode读取合并文件和合并文件索引的元数据Metadata信息，然后根据合并文件索引从合并文件中读写各个日志型小文件数据。本发明专利技术针对日志型小文件，提出了一种新的处理方法，该方法将小文件metadata的内存负担从NameNode转移到了客户端，有效的解决了HDFS处理大量小文件的低效问题。客户端缓存小文件metadata也使得小文件的访问得到加速，多次连续访问物理位置临近的小文件时无需向NameNode请求metadata。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机HDFS分布式文件系统领域，具体涉及一种HDFS针对日志型小文件存储和处理方法。
技术介绍
HDFS是Hadoop Distributed File System的简称，是一个分布式文件存储系统。随着互联网的应用渗透到人们生活的方方面面，越来越多的设备被加入到互联网中。这些设备时时刻刻都在生产着数据，我们需要处理的数据的量和种类越来越多。Hadoop 下的HDFS作为GFS的开源实现，对大文件处理相当出色，但是处理小文件的效率十分低下。具体体现在大量小文件占用NameNode内存资源及DataNode磁盘利用率低。业界已经尝试了一些HDFS针对小文件的优化方法。但是这些方法都偏重于存储，提供的接口对Hadoop计算框架MapReduce并不透明，使得针对小文件的分析处理变得复杂了。既能高效的存储小文件又能保持与MapReduce框架兼容是一项极具意义且富有挑战的工作。所谓日志型小文件，是指由数据源（可以是物理的采集设备也可以是数据源抓取、生成程序）产生的，与时序相关的一系列带有相似结构且一般具有相似含义的小型数据块（小文件）。
技术实现思路
本专利技术的目的是克服现有技术的不足，提供一种HDFS针对日志型小文件的存储和处理方法，将文件按物理位置就近合并，同时使用Copy-On-Write机制优化小文件的读写。该方法能够有效解决HDFS处理日志型小文件的效率低下，同时提供的存储接口与 MapReduce框架兼容。本专利技术所采用的技术方案为：HDFS包括一个Hadoop集群，集群中包含一个名字节...
<a href="http://www.xjishu.com/zhuanli/55/CN104731921.html" title="Hadoop分布式文件系统针对日志型小文件的存储和处理方法原文来自X技术">Hadoop分布式文件系统针对日志型小文件的存储和处理方法</a>

【技术保护点】
Hadoop分布式文件系统针对日志型小文件的存储和处理方法，所述Hadoop分布式文件系统HDFS包括一个Hadoop集群，集群中包含一个名字节点和多个数据节点，多个客户端通过客户端库访问Hadoop集群存储的文件，其特征在于：所述Hadoop集群中的日志型小文件按照物理路径就近合并，客户端读写日志型小文件时先从名字节点读取合并文件和合并文件索引的元数据信息，然后根据合并文件索引从合并文件中读写各个日志型小文件数据。

【技术特征摘要】

【专利技术属性】
技术研发人员：徐锐，刘斌，台宪青，
申请(专利权)人：江苏物联网研究发展中心，北京科电高技术公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人