【技术实现步骤摘要】
一种基于HDFS的批量小文件处理系统
本专利技术涉及大数据技术及分布式存储
,具体涉及一种基于HDFS的批量小文件处理系统。
技术介绍
作为大数据存储行业的领头者,HDFS在处理TB、PB规模级别的数据时性能表现良好、应用场景广泛,然而,在处理大批量的小文件时性能表现不佳,主要表现在HDFS在处理海量数据时NameNode节点的内存消耗很大、处理多并发请求时访问延迟高等问题。针对批量小文件处理时存在的问题,HDFS在0.18.0版本之后提出了一个打包工具HAR,其设计初衷就是为了缓减大量小文件的元数据信息消耗内存过多的问题,用户可以直接通过这个归档工具将某个HDFS目录打包成一个HAR文件。HDFS自带的HAR方案确实可以减少HDFS中文件的数量,降低了NameNode中数据块的分配与管理压力和内存消耗。但是HAR引入的双重索引机制对于NameNode是一个额外的开销,尤其是当用户请求量较大或者文件数量过大的时候,会造成NameNode请求处理的高延迟。
技术实现思路
本专利技术的目的是提出 ...
【技术保护点】
1.一种基于HDFS的批量小文件处理系统,其特征在于,包括Client端、负责大文件元数据处理的NameNode模块以及负责中小文件元数据存储管理的Redis集群,其中:/n(1)Client是整个HDFS系统数据读写的入口,负责管理文件系统的基本信息、向HDFS和Redis发送读写请求、提交MapReduce作业等。/n(2)负责大文件元数据处理的NameNode模块当有大文件写入请求时,Client向NameNode发送写请求;NameNode检查Client权限、文件合法性之后向Client返回Block信息以及对应的DataNode节点,并记录日志信息;Client ...
【技术特征摘要】
1.一种基于HDFS的批量小文件处理系统,其特征在于,包括Client端、负责大文件元数据处理的NameNode模块以及负责中小文件元数据存储管理的Redis集群,其中:
(1)Client是整个HDFS系统数据读写的入口,负责管理文件系统的基本信息、向HDFS和Redis发送读写请求、提交MapReduce作业等。
(2)负责大文件元数据处理的NameNode模块当有大文件写入请求时,Client向NameNode发送写请求;NameNode检查Client权限、文件合法性之后向Client返回Block信息以及对应的DataNode节点,并记录日志信息;Client会直接与某台DataNode建立通道,将第一个数据块写入DataNode;该数据块会以流形式一次传输到返回的每个DataNode节点上;每个DataNode节点接收完数据块之后,会向上一级DataN...
【专利技术属性】
技术研发人员:杨瑞瑞,
申请(专利权)人:北京航天长峰科技工业集团有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。