基于HDFS Federation架构的小文件合并方法、装置及相关介质制造方法及图纸

技术编号:41345515 阅读:19 留言:0更新日期:2024-05-20 10:01
本发明专利技术公开了基于HDFS Federation架构的小文件合并方法、装置及相关介质,该方法包括利用回调函数检测大数据计算任务的任务类型;当任务类型为数据写入行为时,判断写入到各名称节点的数据是否为一次小文件写入,若是,则根据写入到各名称节点的数据确定对应的文件合并模式;回收写入到各名称节点的数据的上一级的目录权限;基于文件合并模式将写入到各名称节点的数据写入到临时目录中,得到临时合并文件;还原写入到各名称节点的数据上一级的目录权限,并将临时合并文件写入到目标目录中,得到最终合并文件。本发明专利技术通过不同的文件合并模式将小文件进行合并,然后写入到目标目录中,如此,提高了小文件数据处理效率并降低计算资源消耗。

【技术实现步骤摘要】

本专利技术涉及大数据处理,特别涉及基于hdfs federation架构的小文件合并方法、装置及相关介质。


技术介绍

1、在hadoop生态系统的大数据处理中,尤其是使用计算引擎时,经常遇到小文件的问题。这些小文件由于体积小且数量众多,将导致存储和处理效率低下。目前,解决小文件问题的主要方法是在计算引擎层面使用sql进行文件合并。然而,这种方法存在以下缺点:自动发现小文件的能力不足、高计算资源消耗、依赖特定的文件压缩格式、sql合并产生数据倾斜问题。

2、因此,需要一种更有效的方法来处理hadoop生态系统中的小文件问题,以提高数据处理效率和减少资源消耗。


技术实现思路

1、本专利技术实施例提供了基于hdfs federation架构的小文件合并方法、装置及相关介质,旨在解决现有技术中hadoop生态系统中小文件的数据处理效率低下和计算资源消耗较高的问题。

2、第一方面,本专利技术实施例提供一种基于hdfs federation架构的小文件合并方法,包括:

<p>3、当大数据计算本文档来自技高网...

【技术保护点】

1.一种基于HDFS Federation架构的小文件合并方法,其特征在于,包括:

2.根据权利要求1所述的基于HDFS Federation架构的小文件合并方法,其特征在于,所述当大数据计算任务执行完成后,利用回调函数检测大数据计算任务的任务类型,包括:

3.根据权利要求1所述的基于HDFS Federation架构的小文件合并方法,其特征在于,所述当所述任务类型为数据写入行为时,判断写入到各名称节点的数据是否为一次小文件写入,包括:

4.根据权利要求1所述的基于HDFS Federation架构的小文件合并方法,其特征在于,所述根据写入到各名称节点...

【技术特征摘要】

1.一种基于hdfs federation架构的小文件合并方法,其特征在于,包括:

2.根据权利要求1所述的基于hdfs federation架构的小文件合并方法,其特征在于,所述当大数据计算任务执行完成后,利用回调函数检测大数据计算任务的任务类型,包括:

3.根据权利要求1所述的基于hdfs federation架构的小文件合并方法,其特征在于,所述当所述任务类型为数据写入行为时,判断写入到各名称节点的数据是否为一次小文件写入,包括:

4.根据权利要求1所述的基于hdfs federation架构的小文件合并方法,其特征在于,所述根据写入到各名称节点的数据确定对应的文件合并模式,包括:

5.根据权利要求4所述的基于hdfs federation架构的小文件合并方法,其特征在于,所述当所述小文件总数量少于或等于预设的数量阈值时,确定采用所述异步执行模式,包括:

6.根据权利要求5所述的基于hdfs federation...

【专利技术属性】
技术研发人员:谭伟华罗伟东
申请(专利权)人:深圳市和讯华谷信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1