【技术实现步骤摘要】
基于HDFS的小文件处理方法、装置、设备及存储介质
本专利技术实施例涉及计算机
,尤其涉及一种基于HDFS的小文件处理方法、装置、计算机设备及存储介质。
技术介绍
在HDFS(HadoopDistributedFileSystem,分布式文件系统)中,随着数据的增长,数据处理得到结果需要更长的时间。而这些数据中又包含大量的小文件,这种文件的大小小于上数据块block的大小,这样会给hadoop(分布式系统基础架构)的性能带来严重问题。首先,在HDFS中,任何block、文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有10000000个小文件,每个文件占用一个block,则Namenode(Master节点)大约需要3G空间。如果存储1亿个文件,则Namenode需要30G空间。这样大量小文件占用过多Namenode内存,严重制约了集群的扩展。其次,NameNode中的主内存大小限制了可以存储到HDFS中的文件的数量。此外,访问大量小文件速度远远小于访问几个大文件。HDFS最初是为流式访 ...
【技术保护点】
1.一种基于分布式文件系统HDFS的小文件处理方法,其特征在于,包括:/n按照预设检索周期检索HDFS中的小文件;/n根据各所述小文件的关键词对所述小文件进行分类;/n根据预设文件合并方式对分类得到的小文件进行合并存储;其中,所述预设合并方式包括项目方式或字典方式。/n
【技术特征摘要】
1.一种基于分布式文件系统HDFS的小文件处理方法,其特征在于,包括:
按照预设检索周期检索HDFS中的小文件;
根据各所述小文件的关键词对所述小文件进行分类;
根据预设文件合并方式对分类得到的小文件进行合并存储;其中,所述预设合并方式包括项目方式或字典方式。
2.根据权利要求1所述的方法,其特征在于,在所述根据预设文件合并方式对所述小文件进行合并存储之后,还包括;
删除已合并存储小文件的源文件。
3.根据权利要求1所述的方法,其特征在于,所述按照预设检索周期检索HDFS中的小文件,包括:
按照所述预设检索周期,将文件大小满足小文件检索条件的文件作为所述小文件。
4.根据权利要求1所述的方法,其特征在于,在所述根据各所述小文件的关键词对所述小文件进行分类之前,还包括:
根据HDFS的系统架构确定各所述小文件的关键词。
5.根据权利要求1所述的方法,其特征在于,所述根据项目方式对分类得到的小文件进行合并存储,包括:
根据所述分类得到的小文件对应的文件项目,对所述小文件进行合并存储。
6.根据权利要求1所述的方法,其特征在于,所述根据字典方式对分类得到的小文件进行合并存储,包括:
确定数据字典的表结构;
根据所述数据字典的表结构预先定义所述数据字典各个参数的预设值,得到系统数据字典;
根据所述系统数据字典对分类得到的小文件进行合并存储。
7.根据权利要求1所述的方法,其特征在于,在所述根据预设文件合并方式对所述小文件...
【专利技术属性】
技术研发人员:宋大伟,丁静,
申请(专利权)人:苏州亿歌网络科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。