【技术实现步骤摘要】
本专利技术涉及大数据处理,特别涉及基于hdfs federation架构的小文件合并方法、装置及相关介质。
技术介绍
1、在hadoop生态系统的大数据处理中,尤其是使用计算引擎时,经常遇到小文件的问题。这些小文件由于体积小且数量众多,将导致存储和处理效率低下。目前,解决小文件问题的主要方法是在计算引擎层面使用sql进行文件合并。然而,这种方法存在以下缺点:自动发现小文件的能力不足、高计算资源消耗、依赖特定的文件压缩格式、sql合并产生数据倾斜问题。
2、因此,需要一种更有效的方法来处理hadoop生态系统中的小文件问题,以提高数据处理效率和减少资源消耗。
技术实现思路
1、本专利技术实施例提供了基于hdfs federation架构的小文件合并方法、装置及相关介质,旨在解决现有技术中hadoop生态系统中小文件的数据处理效率低下和计算资源消耗较高的问题。
2、第一方面,本专利技术实施例提供一种基于hdfs federation架构的小文件合并方法,包括:
< ...【技术保护点】
1.一种基于HDFS Federation架构的小文件合并方法,其特征在于,包括:
2.根据权利要求1所述的基于HDFS Federation架构的小文件合并方法,其特征在于,所述当大数据计算任务执行完成后,利用回调函数检测大数据计算任务的任务类型,包括:
3.根据权利要求1所述的基于HDFS Federation架构的小文件合并方法,其特征在于,所述当所述任务类型为数据写入行为时,判断写入到各名称节点的数据是否为一次小文件写入,包括:
4.根据权利要求1所述的基于HDFS Federation架构的小文件合并方法,其特征在于,所述
...【技术特征摘要】
1.一种基于hdfs federation架构的小文件合并方法,其特征在于,包括:
2.根据权利要求1所述的基于hdfs federation架构的小文件合并方法,其特征在于,所述当大数据计算任务执行完成后,利用回调函数检测大数据计算任务的任务类型,包括:
3.根据权利要求1所述的基于hdfs federation架构的小文件合并方法,其特征在于,所述当所述任务类型为数据写入行为时,判断写入到各名称节点的数据是否为一次小文件写入,包括:
4.根据权利要求1所述的基于hdfs federation架构的小文件合并方法,其特征在于,所述根据写入到各名称节点的数据确定对应的文件合并模式,包括:
5.根据权利要求4所述的基于hdfs federation架构的小文件合并方法,其特征在于,所述当所述小文件总数量少于或等于预设的数量阈值时,确定采用所述异步执行模式,包括:
6.根据权利要求5所述的基于hdfs federation...
【专利技术属性】
技术研发人员:谭伟华,罗伟东,
申请(专利权)人:深圳市和讯华谷信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。