【技术实现步骤摘要】
一种文件合并方法及装置
[0001]本申请涉及数据处理
,具体涉及一种文件合并方法及装置
。
技术介绍
[0002]Spark
也称为
Apache Spark
,是一种类
Hadoop MapReduce
的通用并行计算框架,其中,
Spark
支持分布式数据集上的迭代作业,相比
Hadoop MapReduce
,
Spark
的性能大幅度提升,因此,
Spark
已成为一种用于处理大数据的常用计算框架
。
在
Spark
这一计算框架中,在处理数据时,会根据需要读取的文件数量,创建
Spark
任务
(task)
,来读取文件
。
其中,文件数量越多,需要的
Spark
任务越多
。
[0003]通常分配给每个
Spark
任务的计算资源是固定,若小文件过多,则小文件占用较多的
【技术保护点】
【技术特征摘要】
1.
一种文件合并方法,其特征在于,应用于部署了
Spark
计算框架的计算设备,所述计算设备存储有多个文件,当所述计算设备运行
Spark
应用时,所述计算设备创建多个
Spark
任务,其中,所述多个
Spark
任务中的
Spark
任务调用所述多个文件中的文件,以执行所述
Spark
应用的作业;所述方法包括:获取所述
Spark
应用的应用日志,所述应用日志包括所述多个
Spark
任务中每个
Spark
任务调用所述多个文件中的文件而产生的调用信息,其中,所述调用信息包括所述
Spark
任务调用的文件数据的数据量,所述
Spark
任务调用的文件数据是所述
Spark
任务调用到的文件中的全部或部分数据;基于所述多个
Spark
任务的所述调用信息,得到所述多个文件的数据量;基于所述多个文件的数据量,将所述多个文件中的至少两个文件合并为一个文件
。2.
根据权利要求1所述的方法,其特征在于,所述基于所述多个文件的数据量,将所述多个文件中的至少两个文件合并为一个文件包括:向用户展示所述多个文件中每个文件的数据量;接收所述用户针对所述至少两个文件的合并操作;基于所述合并操作,将所述至少两个文件合并为一个文件
。3.
根据权利要求2所述的方法,其特征在于,所述至少两个文件的存储路径相同,所述方法还包括:向所述用户展示所述多个文件的存储路径
。4.
根据权利要求1‑3任一项所述的方法,其特征在于,所述至少两个文件为小文件,所述小文件的数据量小于数据量阈值
。5.
根据权利要求1所述的方法,其特征在于,所述基于所述多个文件的数据量,将所述多个文件中的至少两个文件合并为一个文件包括:基于所述多个文件的数据量,得到所述多个文件中的小文件,所述小文件的数据量小于数据量阈值;向用户展示所述多个文件中的小文件;接收所述用户针对所述多个文件中的至少两个小文件的合并操作;响应所述合并操作,将所述至少两个小文件合并为一个文件
。6.
根据权利要求1‑5任一项所述的方法,其特征在于,所述应用日志位于所述计算设备中的第一路径,所述第一路径是用户配置的,所述获取所述
Spark
应用的应用日志包括:接收所述用户输入的所述第一路径的指示;按照所述第一路径的指示,从所述第一路径获取所述应用日志
。7.
根据权利要求1‑6任一项所述的方法,其特征在于,所述
Spark
应用属于用户,所述获取所述
Spark
应用的应用日志包括:接收所述用户输入的授权指示;凭借所述授权指示,获取所述应用日志
。8.
根据权利要求1‑7任一项所述的方法,其特征在于,所述多个文件中的第一文件被所述多个
Spark
任务中的至少两个
Spark
任务调用,且所述至少两个
Spark
任务分别调用所述第一文件的不同部分;所述基于所述多个
Spark
任务的所述调用信息,得到所述多个文件的数据量包括:
将所述至少两个
Spark
任务的所述调用信息中所述第一文件的文件数据的数据量加和,得到所述第一文件的数据量
。9.
一种文件合并装置,其特征在于,配置于部署了
Spark
计算框架的计算设备,所述计算设备存储有多个文件,当所述计算设备运行
Spark
应用时,所述...
【专利技术属性】
技术研发人员:刘吉哲,
申请(专利权)人:华为云计算技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。