【技术实现步骤摘要】
用于HDFS的文件处理方法以及系统、设备、存储介质
本申请涉及分布式文件处理领域,具体而言,涉及一种用于HDFS的文件处理方法以及系统、设备、存储介质。
技术介绍
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。本专利技术着重介绍一种合并HDFS小文件的方法,减少了数据的存储空间以及性能影响。专利技术人发现,如果HDFS上存在大量的小文件,就会对系统性能带来严重的问题,现有的方式无法充分利用集群资源,从而导致数据的丢失。针对相关技术中HDFS存在大量小文件时处理效果不佳的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种用于HDFS的文件处理方法以及系统、设备、存储介质,以解决HDFS存在大量小文件时处理效果不佳的问题。为了实现上述目的,根据本申请的一个方面,提供了一种用于HDFS的文件处理方法,用于合并HDFS的小文件。 >根据本申请的用于H本文档来自技高网...
【技术保护点】
1.一种用于HDFS的文件处理方法,其特征在于,用于合并HDFS的小文件,包括:/n配置待合并的HDFS的小文件所在的第一目录和合并后输出的第二目录;/n基于MapReduce程序对所述待合并的HDFS的小文件进行合并;/n判断所述小文件的合并前与合并后的数据行数是否相同;/n如果相同,则先删除所述第一目录下文件,再将所述第二目录下文件移至所述第一目录;/n如果不相同,则合并失败。/n
【技术特征摘要】
1.一种用于HDFS的文件处理方法,其特征在于,用于合并HDFS的小文件,包括:
配置待合并的HDFS的小文件所在的第一目录和合并后输出的第二目录;
基于MapReduce程序对所述待合并的HDFS的小文件进行合并;
判断所述小文件的合并前与合并后的数据行数是否相同;
如果相同,则先删除所述第一目录下文件,再将所述第二目录下文件移至所述第一目录;
如果不相同,则合并失败。
2.根据权利要求1所述的用于HDFS的文件处理方法,其特征在于,基于MapReduce程序对所述待合并的HDFS的小文件进行合并时,还包括:
基于MapReduce程序对所述待合并的HDFS的小文件进行合并时,将数据进行压缩后再输出至所述第二目录。
3.根据权利要求1所述的用于HDFS的文件处理方法,其特征在于,如果相同,则先删除所述第一目录下文件,再将所述第二目录下文件移至所述第一目录包括:
分别创建两张Hive临时表,输入表指向inputpath目录、输出表指向outputpath目录;
根据查询结果对比合并前与合并后数据行数,如果相同则先删除inputpath目录下文件,再将outputpath目录下文件移至inputpath目录。
4.根据权利要求1所述的用于HDFS的文件处理方法,其特征在于,基于MapReduce程序对所述待合并的HDFS的小文件进行合并包括:
采用基于CombineFileInputFormat的MapReduce程序进行所述待合并的HDFS的小文件合并,启用数据处理函数Math.ceil处理其中的小文件。
5.一种用于HDFS的文件处理系统,其特征在于,用于合并HDFS的小文件,包括:
配置模块,用于配置待合并的HDFS的小文件所...
【专利技术属性】
技术研发人员:徐涛,吴峰,郭伟,
申请(专利权)人:上海易点时空网络有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。