一种减少元数据数量的优化方法及终端技术

技术编号:42373044 阅读:25 留言:0更新日期:2024-08-16 14:56
本发明专利技术提供的一种减少元数据数量的优化方法及终端,包括将各个待存储文件写入本地文件目录中;预先获取所述待存储文件将会写入的指定hdfs分区,并计算所述指定hdfs分区的平均文件大小;将占用内存小于所述平均文件大小的所述待存储文件合并为至少一个总占用内存大于或等于所述平均文件大小的大文件;将所述大文件和占用内存大于或等于所述平均文件大小的所述待存储文件依次上传至所述指定hdfs分区。本发明专利技术能够避免文件合并场景下部分数据不可用的问题,同时能有效减少元数据的数量,进而减少分布式文件系统的内存资源占用,提高系统效率。

【技术实现步骤摘要】

本专利技术涉及互联网,特别涉及一种减少元数据数量的优化方法及终端


技术介绍

1、现在的互联网系统中,为了支持数据的大量存储,通常都会采用分布式部署的方式来支持文件的存储。其中hdfs就是大数据场景下,最普遍的一种分布式文件存储格式。但是,通常大数据任务很多,并且在任务执行的过程中都会产生很多的待存储的小文件,这些待存储的小文件会优先通过产生一条至多条的元数据信息来存储在hdfs中,而为了实现文件的快速查询,通常元数据信息都是缓存在分布式文件系统的内存中的。

2、但随着任务数量的增多,待存储的小文件的数量也急剧增大,进而导致元数据的存储信息增多导致分布式文件系统所占用的内存越来越大,最终,分布式文件系统的内存将会需要不停的扩容。

3、为了解决上述问题,现有方式通常是在任务执行完毕且待存储的小文件均写入hdfs之后,可以通过定时任务的方式来进行待存储的小文件的合并,但是此种方式下,会导致在合并的过程中,外部无法访问这些待存储的小文件,因此该方式在高可用的情况下,是不适用的。


技术实现思路

...

【技术保护点】

1.一种减少元数据数量的优化方法,其特征在于,包括步骤:

2.根据权利要求1所述的一种减少元数据数量的优化方法,其特征在于,所述步骤S2具体为:

3.根据权利要求2所述的一种减少元数据数量的优化方法,其特征在于,所述步骤S21中还包括:

4.根据权利要求1所述的一种减少元数据数量的优化方法,其特征在于,所述步骤S3还包括:

5.根据权利要求1所述的一种减少元数据数量的优化方法,其特征在于,所述步骤S4之后还包括:

6.一种减少元数据数量的优化终端,其特征在于,包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序...

【技术特征摘要】

1.一种减少元数据数量的优化方法,其特征在于,包括步骤:

2.根据权利要求1所述的一种减少元数据数量的优化方法,其特征在于,所述步骤s2具体为:

3.根据权利要求2所述的一种减少元数据数量的优化方法,其特征在于,所述步骤s21中还包括:

4.根据权利要求1所述的一种减少元数据数量的优化方法,其特征在于,所述步骤s3还包括:

5.根据权利要求1所述的一种减少元数据数量的优化方法,其特征在于,所述步骤s4之后还包括:

6.一种减少元数据数量的优化终端,其特征在于,包...

【专利技术属性】
技术研发人员:刘德建张少敏郭孟祺郑坦郑锦斌陈宏
申请(专利权)人:福建天泉教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1