用于HDFS的文件处理方法以及系统、设备、存储介质技术方案

技术编号：23764199 阅读：28 留言：0更新日期：2020-04-11 18:58

本申请公开了一种用于HDFS的文件处理方法以及系统、设备、存储介质。该方法包括配置待合并的HDFS的小文件所在的第一目录和合并后输出的第二目录；基于MapReduce程序对所述待合并的HDFS的小文件进行合并；判断所述小文件的合并前与合并后的数据行数是否相同；如果相同，则先删除所述第一目录下文件，再将所述第二目录下文件移至所述第一目录；如果不相同，则合并失败。本申请解决了HDFS存在大量小文件时处理效果不佳的技术问题。通过本申请采用MapReduce程序进行合并速度快，并且结果进行了校验，保证合并的正确性。

File processing methods, systems, devices, and storage media for HDFS

全部详细技术资料下载

【技术实现步骤摘要】
用于HDFS的文件处理方法以及系统、设备、存储介质
本申请涉及分布式文件处理领域，具体而言，涉及一种用于HDFS的文件处理方法以及系统、设备、存储介质。
技术介绍
Hadoop是一个由Apache基金会所开发的分布式系统基础架构，Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem)，简称HDFS。本专利技术着重介绍一种合并HDFS小文件的方法，减少了数据的存储空间以及性能影响。专利技术人发现，如果HDFS上存在大量的小文件，就会对系统性能带来严重的问题，现有的方式无法充分利用集群资源，从而导致数据的丢失。针对相关技术中HDFS存在大量小文件时处理效果不佳的问题，目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种用于HDFS的文件处理方法以及系统、设备、存储介质，以解决HDFS存在大量小文件时处理效果不佳的问题。为了实现上述目的，根据本申请的一个方面，提供了一种用于HDFS的文件处理方法，用于合并HDFS的小文件。>根据本申请的用于H本文档来自技高网...

【技术保护点】
1.一种用于HDFS的文件处理方法，其特征在于，用于合并HDFS的小文件，包括：/n配置待合并的HDFS的小文件所在的第一目录和合并后输出的第二目录；/n基于MapReduce程序对所述待合并的HDFS的小文件进行合并；/n判断所述小文件的合并前与合并后的数据行数是否相同；/n如果相同，则先删除所述第一目录下文件，再将所述第二目录下文件移至所述第一目录；/n如果不相同，则合并失败。/n

【技术特征摘要】
1.一种用于HDFS的文件处理方法，其特征在于，用于合并HDFS的小文件，包括：
配置待合并的HDFS的小文件所在的第一目录和合并后输出的第二目录；
基于MapReduce程序对所述待合并的HDFS的小文件进行合并；
判断所述小文件的合并前与合并后的数据行数是否相同；
如果相同，则先删除所述第一目录下文件，再将所述第二目录下文件移至所述第一目录；
如果不相同，则合并失败。

2.根据权利要求1所述的用于HDFS的文件处理方法，其特征在于，基于MapReduce程序对所述待合并的HDFS的小文件进行合并时，还包括：
基于MapReduce程序对所述待合并的HDFS的小文件进行合并时，将数据进行压缩后再输出至所述第二目录。

3.根据权利要求1所述的用于HDFS的文件处理方法，其特征在于，如果相同，则先删除所述第一目录下文件，再将所述第二目录下文件移至所述第一目录包括：
分别创建两张Hive临时表，输入表指向inputpath目录、输出表指向outputpath目录；
根据查询结果对比合并前与合并后数据行数，如果相同则先删除inputpath目录下文件，再将outputpath目录下文件移至inputpath目录。

4.根据权利要求1所述的用于HDFS的文件处理方法，其特征在于，基于MapReduce程序对所述待合并的HDFS的小文件进行合并包括：
采用基于CombineFileInputFormat的MapReduce程序进行所述待合并的HDFS的小文件合并，启用数据处理函数Math.ceil处理其中的小文件。

5.一种用于HDFS的文件处理系统，其特征在于，用于合并HDFS的小文件，包括：
配置模块，用于配置待合并的HDFS的小文件所...

【专利技术属性】
技术研发人员：徐涛，吴峰，郭伟，
申请(专利权)人：上海易点时空网络有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人