文件处理方法、装置及电子设备制造方法及图纸

技术编号:37851290 阅读:28 留言:0更新日期:2023-06-14 22:41
本发明专利技术实施例涉及一种文件处理方法、装置及电子设备,该方法包括:从任务列表中获取任务状态为第一状态的目标任务,并提取目标任务的第一标识信息;根据第一标识信息,从预构建的文件目录中查找与第一标识信息建立映射关系目标文件;当目标文件存在时,更新目标文件的第一扩展属性为预设属性值;将与目标文件对应的删除指示信息,以及第一扩展属性的属性值更新至预设存储位置。如此一来,等同于对目标文件“打了标”,系统在查看到“打了标”的文件后,就将对“打了标”的文件自动执行删除操作。省去人为删除操作所占用的成本,提高了数据处理删除效率,并节省了存储空间,进而提升存储空间的使用价值。空间的使用价值。空间的使用价值。

【技术实现步骤摘要】
文件处理方法、装置及电子设备


[0001]本专利技术实施例涉及计算机
,尤其涉及一种文件处理方法、装置及电子设备。

技术介绍

[0002]分布式文件系统(Hadoop Distributed File System,Hadoop,简称HDFS)的/tmp临时目录与linux操作系统中的/tmp目录类似,存储MapReduce(是一种编程模型)操作期间的临时存储。MapReduce工作过程中,中间数据将保存在该目录下。如果MapReduce作业中间被终止或者异常退出,该作业的临时文件将不会被删除。然而,对于超大集群,每天数以万计的作业,临时文件的残留文件,将会占据大量的HDFS的存储空间。虽然可以通过实施使用规范来达到一定的目的,但是人工处理残留的临时文件的成本非常高,而且效率非常低下。

技术实现思路

[0003]本申请提供了一种文件处理方法、装置及电子设备,以解决上述
技术介绍
中的部分或全部技术问题。
[0004]第一方面,本申请提供了一种文件处理方法,该方法应用于分布式文件系统,包括:
[0005]从任务列表中获取任务状态为第一状态的目标任务,并提取目标任务的第一标识信息,其中,第一标识信息与预生成的目标文件之间建立有映射关系;
[0006]根据第一标识信息,从预构建的文件目录中查找与第一标识信息建立有映射关系的目标文件;
[0007]当目标文件存在时,更新目标文件的第一扩展属性为预设属性值;
[0008]将与目标文件对应的删除指示信息,以及第一扩展属性的属性值更新至预设存储位置;以便后续从预设存储位置读取删除指示信息,并识别目标文件的第一扩展属性为预设属性值后,执行删除操作。
[0009]可选的,文件目录中包括至少一个待处理文件,每一个待处理文件均包括第二扩展属性,第二扩展属性的属性值为待处理文件所属任务的第二标识信息;
[0010]根据第一标识信息,从预构建的文件目录中查找与第一标识信息建立映射关系的目标文件,包括:
[0011]将文件目录中每一个待处理文件所包括的第二标识信息分别与第一标识信息进行匹配,并确定匹配成功的待处理文件为目标文件。
[0012]可选的,删除指示信息包括:与目标文件对应的索引信息和删除标识信息;其中,索引信息用以指示目标文件的文件标识以及目标文件的存储路径,删除标识信息用以指示删除目标文件。
[0013]可选的,当本次无法从任务列表中获取每一个任务的任务状态时,该方法还包括:
[0014]间隔预设时间后,再次从任务列表中获取每一个任务的任务状态,且,相邻两次轮
询的时间间隔按照预设时间比例逐渐增大,直至获取每一个任务的任务状态后停止轮询,或者轮询总次数等于预设次数后停止轮询。
[0015]可选的,第一方面任一实施方式中的方法步骤由Namenode的临时文件清理程序中的预设线程执行。
[0016]第二方面,本申请提供了另一种文件处理方法,该方法应用于分布式文件系统,包括:
[0017]当从预设存储位置读取删除指示信息后,解析删除指示信息,获取目标文件的文件标识、存储路径,以及删除标识信息;
[0018]从存储路径获取与文件标识对应的目标文件;
[0019]识别目标文件中的预设扩展属性;
[0020]当目标文件的预设扩展属性为预设属性值时,根据删除标识信息,对目标文件执行删除操作。
[0021]可选的,删除指示信息中包括与目标文件对应的索引信息和删除标识信息;
[0022]解析删除指示信息,获取目标文件的文件标识、存储路径,以及删除标识信息,包括:
[0023]解析删除指示信息,获取索引信息和删除标识信息;
[0024]根据索引信息,获取目标文件的文件标识,以及存储路径。
[0025]第三方面,本申请提供了一种文件处理装置,该装置包括:
[0026]获取模块,用于从任务列表中获取任务状态为第一状态的目标任务;
[0027]提取模块,用于提取目标任务的第一标识信息,其中,第一标识信息与预生成的目标文件之间建立映射关系;
[0028]查找模块,用于根据第一标识信息,从预构建的文件目录中查找与第一标识信息建立映射关系的目标文件;
[0029]处理模块,用于当目标文件存在时,更新目标文件的第一扩展属性为预设属性值;将与目标文件对应的删除指示信息,以及第一扩展属性的属性值更新至预设存储位置;以便后续从预设存储位置读取删除指示信息,并识别目标文件的第一扩展属性为预设属性值后,执行删除操作。
[0030]第四方面,本申请提供了另一种文件处理装置,该装置包括:
[0031]读取模块,用于从预设存储位置读取删除指示信息;
[0032]解析模块,用于解析删除指示信息,获取目标文件的文件标识、存储路径,以及删除标识信息;
[0033]处理模块,用于从存储路径获取与文件标识对应的目标文件;识别目标文件中的预设扩展属性;当目标文件的预设扩展属性为预设属性值时,根据删除标识信息,对目标文件执行删除操作。
[0034]第五方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0035]存储器,用于存放计算机程序;
[0036]处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例的文件处理方法;或者,实现第二方面任一实施例的文件处理方法。
[0037]第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如第一方面任一项实施例的文件处理方法;或者计算机程序被处理器执行时实现如第二方面任一实施例的文件处理方法。
[0038]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
[0039]本申请实施例提供的该方法,从任务列表中获取任务状态为第一状态的目标任务,并提取目标任务的第一标识信息。然后根据第一标识信息,从预构建的文件目录中查找与第一标识信息对应的目标文件。当目标文件存在时,更新目标文件的第一扩展属性为预设属性值。将与目标文件对应的删除指示信息,以及第一扩展属性的属性值更新至预设存储位置。那么,后续系统在看到预设存储位置中的删除指示信息后,可以根据删除指示信息找到目标文件,并在确定目标文件的第一扩展属性为预设属性值后,执行删除操作。如此一来,等同于对目标文件“打了标”,系统在查看到“打了标”的文件后,就将对“打了标”的文件自动执行删除操作。省去人为删除操作所占用的成本,提高了数据处理删除效率,并节省了存储空间,进而提升存储空间的使用价值。
附图说明
[0040]图1为本专利技术实施例提供的一种文件处理方法流程示意图;
[0041]图2为本专利技术实施例提供的另一种文件处理方法流程示意图;
[0042]图3为本专利技术实施例提供的另一种文件处理方法流程示意图;
[0043]图4为本专利技术提供本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件处理方法,其特征在于,所述方法应用于分布式文件系统,包括:从任务列表中获取任务状态为第一状态的目标任务,并提取所述目标任务的第一标识信息,其中,所述第一标识信息与预生成的目标文件之间建立有映射关系;根据所述第一标识信息,从预构建的文件目录中查找与所述第一标识信息建立所述映射关系的目标文件;当所述目标文件存在时,更新所述目标文件的第一扩展属性为预设属性值;将与所述目标文件对应的删除指示信息,以及所述第一扩展属性的属性值更新至预设存储位置;以便后续从所述预设存储位置读取所述删除指示信息,并识别所述目标文件的第一扩展属性为所述预设属性值后,执行删除操作。2.根据权利要求1所述的方法,其特征在于,所述文件目录中包括至少一个待处理文件,每一个待处理文件均包括第二扩展属性,所述第二扩展属性的属性值为所述待处理文件所属任务的第二标识信息;根据所述第一标识信息,从预构建的文件目录中查找与所述第一标识信息建立所述映射关系的目标文件,包括:将所述文件目录中每一个待处理文件所包括的所述第二标识信息分别与所述第一标识信息进行匹配,并确定匹配成功的待处理文件为所述目标文件。3.根据权利要求1所述的方法,其特征在于,所述删除指示信息包括:与所述目标文件对应的索引信息和删除标识信息;其中,所述索引信息用以指示所述目标文件的文件标识以及所述目标文件的存储路径,所述删除标识信息用以指示删除所述目标文件。4.根据权利要求1所述的方法,其特征在于,当本次无法从任务列表中获取每一个任务的任务状态时,所述方法还包括:间隔预设时间后,再次从所述任务列表中获取每一个任务的任务状态,且,相邻两次轮询的时间间隔按照预设时间比例逐渐增大,直至获取每一个任务的任务状态后停止轮询,或者轮询总次数等于预设次数后停止轮询。5.根据权利要求1

4任一项所述的方法,其特征在于,如权利要求1

4任一项所述的方法由Namenode的临时文件清理程序中的预设线程执行。6.一种文件处理方法,其特征在于,所述方法应用于分布式文件系统,所述方法包括:当从预设存储位置读取删除指示信息后,解析所述删除指示信息,获取目标文件的文件标识、存储路径,以及删除标识信息;从所述存储路径获取与所述文件标识对应的所述目标文件;识别所述目标文件中的预设扩展属性;当所述目标文件的预设扩展属性为...

【专利技术属性】
技术研发人员:王祥东于胜强
申请(专利权)人:新华三大数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1