本申请公开了一种大数据集群的文件清理方法及相关设备,用于在确保任务正常运行的前提下,减少对存储资源占用。其中方法包括:基于预设清理策略,从大数据集群的数据仓库分析组件获取大数据集群产生的多个临时文件的文件信息,该文件信息包括每个临时文件的存储路径;从大数据集群的资源调度引擎获取大数据集群正在运行任务的任务信息;基于正在运行任务的任务信息,从多个临时文件中确定待清理的目标临时文件;基于目标临时文件的存储路径,对该目标临时文件进行清理。该目标临时文件进行清理。该目标临时文件进行清理。
【技术实现步骤摘要】
大数据集群的文件清理方法及相关设备
[0001]本申请涉及数据处理
,尤其涉及一种大数据集群的文件清理方法及相关设备。
技术介绍
[0002]大数据集群通常通过多个组件的运行和协作来完成数据处理任务,例如Hadoop通过HDFS、YARN、Spark、MapReduce、Hive等组件的运行和协作,完成各种大数据处理任务。
[0003]这些组件在运行过程中会产生大量的临时文件,如果任务正常结束,这些临时文件会被清理掉,但是,如果任务运行失败,这些临时文件将被永久保留。长期下去,势必造成堆积的临时文件越来越多,影响存储资源的使用效率,占用过多的存储资源。为了减少对存储资源的占用,目前常用的方法是通过编写和运行脚本去清理所有的临时文件。但是,这种“一刀切”的方式容易误删除正在被使用的临时文件而导致任务运行失败。
[0004]因此,当前亟需一种能够在确保任务正常运行的前提下,减少对存储资源占用的方案。
技术实现思路
[0005]本申请实施例的目的是提供一种大数据集群的文件清理方法及相关设备,用于在确保任务正常运行的前提下,减少对存储资源占用。
[0006]为了实现上述目的,本申请实施例采用下述技术方案:
[0007]第一方面,本申请实施例提供一种大数据集群的文件清理方法,包括:
[0008]基于预设清理策略,从大数据集群的数据仓库分析组件获取所述大数据集群产生的多个临时文件的文件信息,所述文件信息包括每个临时文件的存储路径;
[0009]从所述大数据集群的资源调度引擎获取所述大数据集群正在运行任务的任务信息;
[0010]基于所述正在运行任务的任务信息,从所述多个临时文件中确定待清理的目标临时文件;
[0011]基于所述目标临时文件的存储路径,对所述目标临时文件进行清理。
[0012]第二方面,本申请实施例提供一种大数据集群的文件清理装置,包括:
[0013]获取单元,用于基于预设清理策略,从大数据集群的数据仓库分析组件获取所述大数据集群产生的多个临时文件的文件信息,所述文件信息包括每个临时文件的存储路径;
[0014]所述获取单元,还用于从所述大数据集群的资源调度引擎获取所述大数据集群正在运行任务的任务信息;
[0015]确定单元,用于基于所述正在运行任务的任务信息,从所述多个临时文件中确定待清理的目标临时文件;
[0016]清理单元,用于基于所述目标临时文件的存储路径,对所述目标临时文件进行清
理。
[0017]第三方面,本申请实施例提供一种电子设备,包括:
[0018]处理器;
[0019]用于存储所述处理器可执行指令的存储器;
[0020]其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法。
[0021]第四方面,本申请实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的方法。
[0022]本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
[0023]利用大数据集群的数据仓库分析组件在运行过程中会记录产生的各类文件的文件信息,以及大数据集群的资源调度引擎在运行过程中会记录正在运行任务等特点,基于预设清理策略从数据仓库分析组件中获取大数据集群产生的临时文件的文件信息,并从资源调度引擎获取大数据集群正在运行任务的任务信息,结合这两类信息分析出待清理的目标临时文件并对目标临时文件进行清理,不仅可以避免临时文件日益堆积而影响存储资源的使用效率,甚至占用过多的存储资源,还可以避免误删除正在被使用的临时文件而导致正在运行任务运行失败,从而实现在确保任务正常运行的前提下,减少对存储资源占用。
附图说明
[0024]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0025]图1为本申请实施例的应用场景示意图;
[0026]图2为本申请的一个实施例提供的一种大数据集群的文件清理方法的流程示意图;
[0027]图3为本申请的另一个实施例提供的一种大数据集群的文件清理方法的流程示意图;
[0028]图4为本申请的又一个实施例提供的一种大数据集群的文件清理方法的流程示意图;
[0029]图5为本申请的一个实施例提供的一种大数据集群的文件清理装置的结构示意图;
[0030]图6为本申请的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
[0031]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0032]本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解,这样使用的数据在适当情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书和权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种
AggregateFunction,UDAF)和用户自定义表生成函数(User
‑
Defined Table
‑
Generating Function,UDTF),也可以实现对map和reduce函数的定制,为数据操作提供了良好的伸缩性和可扩展性。
[0039]Spark是另一种计算引擎12,其专为大规模数据处理而设计。Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是,Job中间输出结果可以保存在内存中,从而不再需要读写分布式文件系统14(HDFS),因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法,其比MapReduce拥有更快的速度,更多的运算符,更通用。
[0040]资源调度引擎13可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。示例地,Hadoop中的YARN是Hadoop的资源调度引擎,是将之前Hadoop 1.x的JobTracker功能分别拆到不同的组件里面了,每个组件分别负责不同的功能,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。这里的应用程序是指传统的MapReduce作业或作业的DAG(有向无环图)。YAR本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种大数据集群的文件清理方法,其特征在于,包括:基于预设清理策略,从大数据集群的数据仓库分析组件获取所述大数据集群产生的多个临时文件的文件信息,所述文件信息包括每个临时文件的存储路径;从所述大数据集群的资源调度引擎获取所述大数据集群正在运行任务的任务信息;基于所述正在运行任务的任务信息,从所述多个临时文件中确定待清理的目标临时文件;基于所述目标临时文件的存储路径,对所述目标临时文件进行清理。2.根据权利要求1所述的方法,其特征在于,所述目标临时文件的存储路径包括所述大数据集群中存储所述目标临时文件的目标存储组件和所述目标临时文件在所述目标存储组件中的目标存储位置;所述基于所述目标临时文件的存储路径,对所述目标临时文件进行清理,包括:基于所述大数据集群中存储所述目标临时文件的目标存储组件,确定与所述目标临时文件匹配的清理方式;基于与所述目标临时文件匹配的清理方式,将存储于所述目标存储组件中目标存储位置处的所述目标临时文件进行删除处理。3.根据权利要求2所述的方法,其特征在于,若所述大数据集群中存储所述目标临时文件的目标存储组件为所述大数据集群的分布式文件系统,则与所述目标临时文件匹配的清理方式为调用所述分布式文件系统的文件删除接口进行清理。4.根据权利要求2所述的方法,其特征在于,若所述大数据集群中存储所述目标临时文件的目标存储组件为所述大数据集群的本地磁盘,则与所述目标临时文件匹配的清理方式为通过所述大数据集群的集群管理工具进行清理。5.根据权利要求1所述的方法,其特征在于,所述基于所述正在运行任务的任务信息,从所述多个临时文件中确定待清理的目标临时文件,包括:对所述多个临时文件中每个临时任务的存储路径进行解析,得到产生每个临时文件的临时文件任务的任务信息;一个临时文件对应一个临时文件任务,任意一个临时文件是由相对应的临时文件任务产生的;将每个临时文件任务的任务信息与所述正在运行任务的任务信息进行比对处理,确定每个临时文件任务与所述正在运行任务的从属关系;基于所述每个临时文件任务与所述正在运行任务的从属关系,...
【专利技术属性】
技术研发人员:贺永满,吴海英,刘德华,蒋宁,冯仕炳,杨光,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。