【技术实现步骤摘要】
文件处理方法、装置及电子设备
[0001]本专利技术实施例涉及计算机
,尤其涉及一种文件处理方法、装置及电子设备。
技术介绍
[0002]分布式文件系统(Hadoop Distributed File System,Hadoop,简称HDFS)的/tmp临时目录与linux操作系统中的/tmp目录类似,存储MapReduce(是一种编程模型)操作期间的临时存储。MapReduce工作过程中,中间数据将保存在该目录下。如果MapReduce作业中间被终止或者异常退出,该作业的临时文件将不会被删除。然而,对于超大集群,每天数以万计的作业,临时文件的残留文件,将会占据大量的HDFS的存储空间。虽然可以通过实施使用规范来达到一定的目的,但是人工处理残留的临时文件的成本非常高,而且效率非常低下。
技术实现思路
[0003]本申请提供了一种文件处理方法、装置及电子设备,以解决上述
技术介绍
中的部分或全部技术问题。
[0004]第一方面,本申请提供了一种文件处理方法,该方法应用于分布式文件系统,包括:
...
【技术保护点】
【技术特征摘要】
1.一种文件处理方法,其特征在于,所述方法应用于分布式文件系统,包括:从任务列表中获取任务状态为第一状态的目标任务,并提取所述目标任务的第一标识信息,其中,所述第一标识信息与预生成的目标文件之间建立有映射关系;根据所述第一标识信息,从预构建的文件目录中查找与所述第一标识信息建立所述映射关系的目标文件;当所述目标文件存在时,更新所述目标文件的第一扩展属性为预设属性值;将与所述目标文件对应的删除指示信息,以及所述第一扩展属性的属性值更新至预设存储位置;以便后续从所述预设存储位置读取所述删除指示信息,并识别所述目标文件的第一扩展属性为所述预设属性值后,执行删除操作。2.根据权利要求1所述的方法,其特征在于,所述文件目录中包括至少一个待处理文件,每一个待处理文件均包括第二扩展属性,所述第二扩展属性的属性值为所述待处理文件所属任务的第二标识信息;根据所述第一标识信息,从预构建的文件目录中查找与所述第一标识信息建立所述映射关系的目标文件,包括:将所述文件目录中每一个待处理文件所包括的所述第二标识信息分别与所述第一标识信息进行匹配,并确定匹配成功的待处理文件为所述目标文件。3.根据权利要求1所述的方法,其特征在于,所述删除指示信息包括:与所述目标文件对应的索引信息和删除标识信息;其中,所述索引信息用以指示所述目标文件的文件标识以及所述目标文件的存储路径,所述删除标识信息用以指示删除所述目标文件。4.根据权利要求1所述的方法,其特征在于,当本次无法从任务列表中获取每一个任务的任务状态时,所述方法还包括:间隔预设时间后,再次从所述任务列表中获取每一个任务的任务状态,且,相邻两次轮询的时间间隔按照预设时间比例逐渐增大,直至获取每一个任务的任务状态后停止轮询,或者轮询总次数等于预设次数后停止轮询。5.根据权利要求1
‑
4任一项所述的方法,其特征在于,如权利要求1
‑
4任一项所述的方法由Namenode的临时文件清理程序中的预设线程执行。6.一种文件处理方法,其特征在于,所述方法应用于分布式文件系统,所述方法包括:当从预设存储位置读取删除指示信息后,解析所述删除指示信息,获取目标文件的文件标识、存储路径,以及删除标识信息;从所述存储路径获取与所述文件标识对应的所述目标文件;识别所述目标文件中的预设扩展属性;当所述目标文件的预设扩展属性为...
【专利技术属性】
技术研发人员:王祥东,于胜强,
申请(专利权)人:新华三大数据技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。