基于HDFS Federation架构的小文件合并方法、装置及相关介质制造方法及图纸

技术编号：41345515 阅读：19 留言：0更新日期：2024-05-20 10:01

本发明专利技术公开了基于HDFS Federation架构的小文件合并方法、装置及相关介质，该方法包括利用回调函数检测大数据计算任务的任务类型；当任务类型为数据写入行为时，判断写入到各名称节点的数据是否为一次小文件写入，若是，则根据写入到各名称节点的数据确定对应的文件合并模式；回收写入到各名称节点的数据的上一级的目录权限；基于文件合并模式将写入到各名称节点的数据写入到临时目录中，得到临时合并文件；还原写入到各名称节点的数据上一级的目录权限，并将临时合并文件写入到目标目录中，得到最终合并文件。本发明专利技术通过不同的文件合并模式将小文件进行合并，然后写入到目标目录中，如此，提高了小文件数据处理效率并降低计算资源消耗。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据处理，特别涉及基于hdfs federation架构的小文件合并方法、装置及相关介质。

技术介绍

1、在hadoop生态系统的大数据处理中，尤其是使用计算引擎时，经常遇到小文件的问题。这些小文件由于体积小且数量众多，将导致存储和处理效率低下。目前，解决小文件问题的主要方法是在计算引擎层面使用sql进行文件合并。然而，这种方法存在以下缺点：自动发现小文件的能力不足、高计算资源消耗、依赖特定的文件压缩格式、sql合并产生数据倾斜问题。

2、因此，需要一种更有效的方法来处理hadoop生态系统中的小文件问题，以提高数据处理效率和减少资源消耗。

技术实现思路

1、本专利技术实施例提供了基于hdfs federation架构的小文件合并方法、装置及相关介质，旨在解决现有技术中hadoop生态系统中小文件的数据处理效率低下和计算资源消耗较高的问题。

2、第一方面，本专利技术实施例提供一种基于hdfs federation架构的小文件合并方法，包括：

<...

【技术保护点】

1.一种基于HDFS Federation架构的小文件合并方法，其特征在于，包括：

2.根据权利要求1所述的基于HDFS Federation架构的小文件合并方法，其特征在于，所述当大数据计算任务执行完成后，利用回调函数检测大数据计算任务的任务类型，包括：

3.根据权利要求1所述的基于HDFS Federation架构的小文件合并方法，其特征在于，所述当所述任务类型为数据写入行为时，判断写入到各名称节点的数据是否为一次小文件写入，包括：

4.根据权利要求1所述的基于HDFS Federation架构的小文件合并方法，其特征在于，所述根据写入到各名称节点...

【技术特征摘要】

1.一种基于hdfs federation架构的小文件合并方法，其特征在于，包括：

2.根据权利要求1所述的基于hdfs federation架构的小文件合并方法，其特征在于，所述当大数据计算任务执行完成后，利用回调函数检测大数据计算任务的任务类型，包括：

3.根据权利要求1所述的基于hdfs federation架构的小文件合并方法，其特征在于，所述当所述任务类型为数据写入行为时，判断写入到各名称节点的数据是否为一次小文件写入，包括：

4.根据权利要求1所述的基于hdfs federation架构的小文件合并方法，其特征在于，所述根据写入到各名称节点的数据确定对应的文件合并模式，包括：

5.根据权利要求4所述的基于hdfs federation架构的小文件合并方法，其特征在于，所述当所述小文件总数量少于或等于预设的数量阈值时，确定采用所述异步执行模式，包括：

6.根据权利要求5所述的基于hdfs federation...

【专利技术属性】
技术研发人员：谭伟华，罗伟东，
申请(专利权)人：深圳市和讯华谷信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人