一种基于Spark合并hive小文件的方法及系统技术方案

技术编号：34857216 阅读：13 留言：0更新日期：2022-09-08 07:59

本申请公开了一种基于Spark合并hive小文件的方法及系统，所述方法包括：配置需要合并的库、表、分区信息；读取分区路径的总存储空间和文件个数；根据分区路径的文件个数和文件大小来判断是否需要合并文件；结合HDFS的块大小，计算合并之后的文件个数M；使用Spark将分区中的文件全部读取到内存中，转换成DataFrame；使用Spark的coalesce算子，将DataFrame按M个文件写到HDFS的临时目录下；使用SparkSql将临时目录中的数据覆盖至Hive分区中。本申请避免了过多小文件造成的资源浪费，同时确保了集群的稳定性。同时确保了集群的稳定性。同时确保了集群的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Spark合并hive小文件的方法及系统

[0001]本专利技术涉及大数据计算
，尤其涉及一种基于Spark合并hive小文件的方法及系统。

技术介绍

[0002]HDFS（Hadoop Distributed File System，Hadoop分布式文件系统），是为大数据设计的分布式文件系统。HDFS是一个主/从(Master/Slave)体系结构，一个HDFS集群由一个管理节点（NameNode）和多个数据节点（DataNode）组成。NameNode为元数据节点，管理文件系统的元数据，NameNode将文件系统的元数据存放在内存中。DataNode为数据节点，存储实际的文件数据。由于在HDFS中NameNode只有一个，因此NameNode的可靠性是影响HDFS可靠性的重要因素。
[0003]元数据存储一般为小文件存储，虽然每个小文件所占内存空间较小，但是每个小文件均需占用一个内存块，每个内存块的存储空间约为150字节，那么存储一千万个文件，则NameNode对应地存储管理文件系统目录等信息大约需要3G的空间，即存储的文件数目和集群规模会严重受限于NameNode的内存大小。如果集群产生大量小文件而不处理，长期下去，过多的小文件存储会大量消耗namenode节点的存储量，必将给NameNode造成巨大压力，影响NameNode的性能。同时，对于hive、Spark计算时，会生成很多文件，每个文件大小只有几Kb，小文件意味着需要更多的task和资源，造成资源的浪费，影响计算速度，同时影响集...

【技术保护点】

【技术特征摘要】
1.一种基于Spark合并hive小文件的方法，其特征在于，包括：S1，配置需要合并的库、表、分区信息；S2，根据配置的信息，判断分区路径是否有数据；S3，读取分区路径的总存储空间和文件个数；S4，根据分区路径的文件个数和文件大小来判断是否需要合并文件，如果分区路径的文件个数大于预设下限值且分区路径的文件大小远远小于HDFS的块大小，则进行文件合并；S5，结合HDFS的块大小，计算合并之后的文件个数M；S6，使用Spark将分区中的文件全部读取到内存中，转换成 DataFrame；S7，使用Spark的coalesce算子，将DataFrame 按M个文件写到HDFS的临时目录下；S8，使用SparkSql将临时目录中的数据覆盖至Hive分区中。2.根据权利要求1所述的一种基于Spark合并hive小文件的方法，其特征在于，所述步骤S4中，所述预设下限值为1个。3.根据权利要求1所述的一种基于Spark合并hive小文件的方法，其特征在于，所述步骤S4中，所述文件合并是按照预设的任务规则对分区中的多个小文件进行合并，所述任务规则包括：读取分区路径的各个文件大小，对文件大小远远小于HDFS的块大小的文件进行合并，当文件大小大于或等于HDFS的块大小的情况下，不对大于或等于HDFS的块大小的文件进行合并。4.根据权利要求1所述的一种基于Spark合并hive小文件的方法，其特征在于，所述步骤S4中，合并后的文件包括：文件头和文件内容，所述文件头包括合并前所有文件的名称，所述文件内容包括合并前所有文件的数据。5.根据权利要求1所述的一种基于Spark合并hive小文件的方法，其特征在于，所述步骤S5中，所述HDFS的块大小默认为128Mb。6.根据权利要求1所述的一种基于Spark合并hive小文件的方...

【专利技术属性】
技术研发人员：施明，
申请(专利权)人：上海二三四五网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人