【技术实现步骤摘要】
一种小文件合并方法及电子设备
本专利技术涉及大数据
,特别涉及一种小文件合并方法及电子设备。
技术介绍
分布式文件系统(Hadoopdistributedfilesystem,HDFS)是集群的重要组成部分,由一个管理节点和多个数据节点组成。其中,管理节点将文件系统的元数据存放在内存中,虽然每个小文件所占内存空间较小,但是每个小文件均需占用一个内存块,每个内存块的存储空间约为150字节。那么存储一千万的文件则管理节点对应地存储管理文件系统目录等信息大约需要3G的空间,即存储的文件数目和集群规模会严重受限于管理节点的内存大小。且HDFS是基于流式访问,即一次写入多次读取的访问方式,这样,HDFS中小文件的访问需要不断地从一个小文件跳转到另外的小文件,随着HDFS中存储的小文件数量的增加,则会降低读写性能,延长访问时间,即系统文件的访问效率较低。
技术实现思路
本专利技术实施例提供一种小文件合并方法及电子设备,用于提高系统文件的访问效率。第一方面,提供了一种小文件合并方法,该小文件合并方 ...
【技术保护点】
1.一种小文件合并方法,其特征在于,包括:/n对分布式文件系统HDFS中的文件进行检索,获得多个小文件;/n从所述多个小文件中确定待合并的至少两个小文件;/n基于Spark的文件合并工具按照合并策略将所述待合并的至少两个小文件进行合并,其中,所述合并策略用于指示合并后的小文件的大小。/n
【技术特征摘要】
1.一种小文件合并方法,其特征在于,包括:
对分布式文件系统HDFS中的文件进行检索,获得多个小文件;
从所述多个小文件中确定待合并的至少两个小文件;
基于Spark的文件合并工具按照合并策略将所述待合并的至少两个小文件进行合并,其中,所述合并策略用于指示合并后的小文件的大小。
2.如权利要求1所述的方法,其特征在于,对分布式文件系统HDFS中的文件进行检索,获得多个小文件,包括:
根据输入的文件目录及小文件阈值在所述HDFS中进行检索,获得所述多个小文件,其中,所述小文件的大小小于或等于所述小文件阈值;
或者,
根据输入的Hive表名称在所述HDFS中进行检索,获得所述多个小文件,其中,Hive表用于指示文件系统的元数据存储目录,所述Hive表用于指示HDFS中相同类型的文件。
3.如权利要求2所述的方法,其特征在于,对分布式文件系统HDFS中的文件进行检索之后,还包括:
判断检索后获得的全部小文件是否为同一类型的文件;
输出为同一类型的多个小文件。
4.如权利要求1所述的方法,其特征在于,在对分布式文件系统HDFS中的文件进行检索之后,还包括:输出检索后获得的全部小文件或者部分小文件的属性信息,其中,所述属性信息包括小文件的大小、类型、存储格式和内存利用率中的至少一种;
从所述多个小文件中确定待合并的至少两个小文件,包括:
接收用户基于所述属性信息针对所述多个小文件中进行的选择操作;
根据所述选择操作从所述多个小文件中确定待合并的至少两个小文件。
5.如权利要求1-4任一所述的方法,其特征在于,基于Spark的文件合并工具按照合并策略将所述待合并的至少两个小文件进行合并,包括:
根据所述合并策略对至少两个小文件进行分组,获得至少两个组,其中,所...
【专利技术属性】
技术研发人员:秦华婵,廖光贤,范云博,陶捷,沈国栋,王宝晗,
申请(专利权)人:中移苏州软件技术有限公司,中国移动通信集团有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。