基于Spark的文件处理方法、装置、设备及存储介质制造方法及图纸

技术编号:34327769 阅读:41 留言:0更新日期:2022-07-31 01:28
本申请涉及大数据技术领域,揭示了一种基于Spark的文件处理方法、装置、设备及存储介质,其中方法包括:获取与待设置关键字对应的目标分区预期数据量及目标单文件标准数据量;根据目标分区预期数据量和目标单文件标准数据量确定待设置关键字对应的目标分区文件数量;根据获取的当前日期和待设置关键字分别进行分区创建作为待写入分区,在待写入分区中创建初始分区文件,初始分区文件的数量与目标分区文件的数量相同;根据预设的Spark计算引擎和目标分区文件数量向待写入分区中的各个初始分区文件写入数据。通过目标分区文件数量使每个分区的分区文件的实际数据量都是合理大小,避免分区中产生大小不合理的文件。避免分区中产生大小不合理的文件。避免分区中产生大小不合理的文件。

Spark based file processing method, device, equipment and storage medium

【技术实现步骤摘要】
基于Spark的文件处理方法、装置、设备及存储介质


[0001]本申请涉及到大数据
,特别是涉及到一种基于Spark的文件处理方法、装置、设备及存储介质。

技术介绍

[0002]随着Hadoop(分布式系统基础架构)生态圈的成熟发展,以及应用场景的多样化、复杂化,目前采用Spark(专为大规模数据处理而设计的快速通用的计算引擎)计算引擎进行大数据加工,以获得更好的性能。在Spark计算引擎的使用过程中为了达到更好的计算性能,一般都会设置一定的并行度,每个并行度的Task(任务)在Shuffle(聚合)的过程中,在每个分区都会产生文件,导致Hadoop集群中的大小不合理的文件过多,大小不合理的文件过多会占用大量内存,并且会大量增加寻址时间,最终降低整个Hadoop集群的性能。

技术实现思路

[0003]本申请的主要目的为提供一种基于Spark的文件处理方法、装置、设备及存储介质,旨在解决目前Spark计算引擎进行大数据加工,存在大小不合理的文件过多,降低整个Hadoop集群的性能的技术问题。
[0004]为了实现上述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Spark的文件处理方法,其特征在于,所述方法包括:获取分区开始请求,其中,所述分区开始请求携带有分区关键字集;获取与待设置关键字对应的目标分区预期数据量及目标单文件标准数据量,其中,所述待设置关键字是所述分区关键字集中的任一个分区关键字;根据所述目标分区预期数据量和所述目标单文件标准数据量,确定所述待设置关键字对应的目标分区文件数量;根据获取的当前日期和所述待设置关键字分别进行分区创建,作为待写入分区,在所述待写入分区中创建初始分区文件,所述初始分区文件的数量与所述目标分区文件的数量相同;根据预设的Spark计算引擎和所述目标分区文件的数量,向所述待写入分区中的各个所述初始分区文件写入数据。2.根据权利要求1所述的基于Spark的文件处理方法,其特征在于,所述根据所述目标分区预期数据量和所述目标单文件标准数据量,确定所述待设置关键字对应的目标分区文件数量的步骤,所述方法包括:将所述目标分区预期数据量除以所述目标单文件标准数据量,得到文件初始数量;对所述文件初始数量进行向下取整,得到所述待设置关键字对应的所述目标分区文件数量。3.根据权利要求1所述的基于Spark的文件处理方法,其特征在于,所述根据预设的Spark计算引擎和所述目标分区文件的数量,向所述待写入分区中的各个所述初始分区文件写入数据的步骤,所述方法包括:获取所述Spark计算引擎发送的数据写入请求;响应所述数据写入请求,获取0到1之间的随机浮点值;将所述目标分区文件数量与所述随机浮点值进行相乘,得到待处理数量;对所述待处理数量进行向上取整,得到命中文件编号;通过所述Spark计算引擎,向所述待写入分区中的与所述命中文件编号对应的所述初始分区文件写入数据。4.根据权利要求1所述的基于Spark的文件处理方法,其特征在于,所述根据预设的Spark计算引擎和所述目标分区文件的数量,向所述待写入分区中的各个所述初始分区文件写入数据的步骤之后,所述方法包括:获取数据倾斜处理请求;响应所述数据倾斜处理请求,从预设的已结束分区列表中获取数据倾斜处理状态为未处理的分区标识,得到待分析分区标识集;从所述待分析分区标识集对应的各个所述分区中找出存在数据倾斜的每个所述分区,作为待处理分区;根据所述待处理分区对应的分区实际数据量及单文件标准数据量,确定所述待处理分区对应的调整后分区文件数量;根据所述调整后分区文件数量,对所述待处理分区进行分区文件重构处理。5.根据权利要求4所述的基于Spark的文件处理方法,其特...

【专利技术属性】
技术研发人员:沈伟进
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1