一种基于HDFS系统的文件合并方法及装置制造方法及图纸

技术编号：15638701 阅读：73 留言：0更新日期：2017-06-15 18:54

本发明专利技术提供了一种基于HDFS系统的文件合并方法及装置，涉及数据处理领域，通过更新映射关系的方式，而非将合并后文件回写到原集合中，从而省去了回写步骤，精简了合并流程，提高了合并效率；而且，本申请保留有待合并文件和合并后文件，提升了系统的容错性。该方法包括：根据预设的生成待合并文件的时间区间，以及所述时间区间与包括所述待合并文件的待合并集合的映射关系，确定所述待合并集合；合并确定的待合并集合中的待合并文件，并存储至合并后集合中；将所述映射关系更新为所述时间区间与所述合并后集合的映射关系。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于HDFS系统的文件合并方法及装置
本专利技术涉及数据处理领域，尤其涉及一种基于HDFS系统的文件合并方法及装置。
技术介绍
HDFS(Hadoop分布式文件系统)为用于存储大数据的文件存储系统。SPARK集群由一个NameNode(名字服务节点)和若干个DataNode(数据存储节点)组成。其中，NameNode提供元数据服务，管理Block的分配，维护整个文件系统的目录树结构；DataNode则部署在SPARK集群中的其他服务器上，提供真正的数据存储服务。由于每个小文件都要在DataNode中占独立的数据块，因此，当海量的流式数据以小文件的形式存储到SPARK集群中时，将浪费大量的存储空间，且NameNode中也将存储这些流式数据的相关信息，增大了查询压力。为解决上述问题，现阶段的操作为，从默认数据块中读取前一天存储的文件，合并读取的文件，将合并后的文件存储到临时数据块，再从临时区块读取合并后的文件，将合并后的文件回写到默认数据块中，与此同时覆盖原来存储的文件。综上所述，根据现阶段的操作可知，对存储的所有数据至少要进行五步操作，流程由于对大量的小文件数据...
一种基于HDFS系统的文件合并方法及装置

【技术保护点】
一种基于HDFS系统的文件合并方法，其特征在于，包括：根据预设的生成待合并文件的时间区间，以及所述时间区间与包括所述待合并文件的待合并集合的映射关系，确定所述待合并集合；合并确定的待合并集合中的待合并文件，并将生成的合并后文件存储至合并后集合中；将所述映射关系更新为所述时间区间与所述合并后集合的映射关系。

【技术特征摘要】
1.一种基于HDFS系统的文件合并方法，其特征在于，包括：根据预设的生成待合并文件的时间区间，以及所述时间区间与包括所述待合并文件的待合并集合的映射关系，确定所述待合并集合；合并确定的待合并集合中的待合并文件，并将生成的合并后文件存储至合并后集合中；将所述映射关系更新为所述时间区间与所述合并后集合的映射关系。2.根据权利要求1所述的方法，其特征在于，该方法还包括：若所述待合并文件中小文件的占比不小于预设占比门限值，或者所述待合并文件中小文件的数量不小于预设数量门限值，或者所述映射关系中的文件集合为所述待合并集合，则对所述待合并文件进行合并操作；其中，所述小文件为所占空间小于预设门限值的文件，其中，所述预设门限值为根据所述数据存储节点的大小确定的。3.根据权利要求1所述的方法，其特征在于，合并确定的待合并集合中的待合并文件，包括：根据Spark集群的计算核的数目，确定读取所述待合并文件的分区的个数；根据确定的分区的个数，对所述待合并文件进行读取；分别针对每一分区中的待合并文件执行并发合并操作。4.根据权利要求1所述的方法，其特征在于，所述时间区间为以小时为单位划分得到的。5.根据权利要求1所述的方法，其特征在于，该方法还包括：检测所述映射关系是否为所述时间区间与所述合并后集合的映射关系；若是，则删除所述待合并文件。6.一种基于HDFS系统的文件...

【专利技术属性】
技术研发人员：汪可，袁帅，
申请(专利权)人：北京神州绿盟信息安全科技股份有限公司，北京神州绿盟科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人