一种分布式文件清理方法、装置和系统制造方法及图纸

技术编号:32132820 阅读:46 留言:0更新日期:2022-01-29 19:35
本发明专利技术实施例提供了一种分布式文件清理方法、装置和系统,可用于人工智能技术领域,所述方法包括:按照配置的数据生命周期表,对主热集群中分布式文件中的对象进行检查,确定出待处理对象;统计出待处理对象的对象数量;若对象数量在对象总数量中的占比比例大于或等于预设的比例阈值,将分布式文件标记为目标清理文件;根据数据生命周期表和预设的对象状态对应的处理方式,按照处理方式对目标清理文件中的对象进行清理,可以对HDFS文件进行部分删除,释放存储资源,从而能够节约集群存储空间,降低存储成本。降低存储成本。降低存储成本。

【技术实现步骤摘要】
一种分布式文件清理方法、装置和系统


[0001]本专利技术涉及计算机
,特别涉及人工智能
,尤其涉及一种分布式文件清理方法、装置和系统。

技术介绍

[0002]对象存储是互联网中经常使用的技术,在对象存储系统中,将多个对象合并成一个大文件存储在海杜普分布式文件系统(Hadoop Distributed File System,简称:HDFS)中,将每个对象在大文件中的位置信息作为索引写入分布式存储系统(HBase)中。在大数据时代,对象存储系统中的数据增长极为迅速,系统中无效或失效对象将会占据相当大的存储空间。HDFS一次写入多次读取的特性,导致无法对HDFS文件进行部分删除,造成集群存储空间极大浪费,对象存储系统的成本过高。

技术实现思路

[0003]本专利技术的一个目的在于提供一种分布式文件清理方法,可以对HDFS文件进行部分删除,释放存储资源,从而能够节约集群存储空间,降低存储成本。本专利技术的另一个目的在于提供一种分布式文件清理装置。本专利技术的再一个目的在于提供一种分布式文件清理系统。本专利技术的还一个目的在于提供一种计算机可读介质。本专利技术的还一个目的在于提供一种计算机设备。
[0004]为了达到以上目的,本专利技术一方面公开了一种分布式文件清理方法,包括:
[0005]按照配置的数据生命周期表,对主热集群中分布式文件中的对象进行检查,确定出待处理对象;
[0006]统计出待处理对象的对象数量;
[0007]若对象数量在对象总数量中的占比比例大于或等于预设的比例阈值,将分布式文件标记为目标清理文件;
[0008]根据数据生命周期表和预设的对象状态对应的处理方式,按照处理方式对目标清理文件中的对象进行清理。
[0009]优选的,数据生命周期表包括用户、业务种类和热集群存储时长;
[0010]按照配置的数据生命周期表,对主热集群中分布式文件中的对象进行检查,确定出待处理对象,包括:
[0011]将分布式文件中的对象的用户和业务种类与数据生命周期表中的用户和业务种类进行匹配,生成对应的热集群存储时长;
[0012]根据分布式文件中的对象的写入时间和当前时间,生成当前存储时长;
[0013]若当前存储时长大于或等于热集群存储时长,将分布式文件中的对象确定为待处理对象。
[0014]优选的,根据数据生命周期表和预设的对象状态对应的处理方式,按照处理方式对目标清理文件中的对象进行清理,包括:
[0015]根据数据生命周期表和预设的对象状态对应的处理方式,对待处理对象进行清理;
[0016]根据预设的对象状态对应的处理方式,对除待处理对象之外的对象进行清理。
[0017]优选的,数据生命周期表还包括是否写入温集群;
[0018]根据数据生命周期表和预设的对象状态对应的处理方式,对待处理对象进行清理,包括:
[0019]若待处理对象对应的是否写入温集群的值为是,确定对象状态为温数据状态;
[0020]将待处理对象写入设置的温集群;
[0021]将待处理对象的索引字段修改为预设的温集群索引值,并将待处理对象的索引路径修改为温集群的地址。
[0022]优选的,方法还包括:
[0023]若待处理对象对应的是否写入温集群的值为否,确定对象状态为过期状态;
[0024]将待处理对象的索引字段修改为预设的过期索引值。
[0025]优选的,根据预设的对象状态对应的处理方式,对除待处理对象之外的对象进行清理,包括:
[0026]将除待处理对象之外的对象的对象状态确定为热数据状态;
[0027]将待处理对象重写至确定出的目标分布式文件;
[0028]将待处理对象的索引字段修改为预设的热集群索引值,并将待处理对象的索引路径修改为目标分布式文件的地址。
[0029]优选的,在根据数据生命周期表和预设的对象状态对应的处理方式,按照处理方式对目标清理文件中的对象进行清理之后,还包括:
[0030]将目标清理文件进行回收。
[0031]优选的,在将目标清理文件进行回收之后,方法还包括:
[0032]将目标清理文件从主热集群对应的备热集群中删除。
[0033]本专利技术还公开了一种分布式文件清理系统,包括:文件检查组件、文件分级组件和主热集群;
[0034]文件检查组件用于按照配置的数据生命周期表,对主热集群中分布式文件中的对象进行检查,确定出待处理对象;统计出待处理对象的对象数量;若对象数量在对象总数量中的占比比例大于或等于预设的比例阈值,将分布式文件标记为目标清理文件;
[0035]文件分级组件用于根据数据生命周期表和预设的对象状态对应的处理方式,按照处理方式对目标清理文件中的对象进行清理。
[0036]优选的,系统还包括温集群;
[0037]文件检查组件具体用于若待处理对象对应的是否写入温集群的值为是,确定对象状态为温数据状态;将待处理对象写入设置的温集群;将待处理对象的索引字段修改为预设的温集群索引值,并将待处理对象的索引路径修改为温集群的地址。
[0038]优选的,系统还包括空间回收组件;
[0039]空间回收组件用于将目标清理文件进行回收。
[0040]优选的,系统还包括与主热集群对应的备热集群;
[0041]空间回收组件还用于将目标清理文件从备热集群中删除。
[0042]本专利技术还公开了一种分布式文件清理装置,包括:
[0043]确定单元,用于按照配置的数据生命周期表,对主热集群中分布式文件中的对象进行检查,确定出待处理对象;
[0044]统计单元,用于统计出待处理对象的对象数量;
[0045]标记单元,用于若对象数量在对象总数量中的占比比例大于或等于预设的比例阈值,将分布式文件标记为目标清理文件;
[0046]清理单元,用于根据数据生命周期表和预设的对象状态对应的处理方式,按照处理方式对目标清理文件中的对象进行清理。
[0047]本专利技术还公开了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法。
[0048]本专利技术还公开了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述处理器执行所述程序时实现如上所述方法。
[0049]本专利技术按照配置的数据生命周期表,对主热集群中分布式文件中的对象进行检查,确定出待处理对象;统计出待处理对象的对象数量;若对象数量在对象总数量中的占比比例大于或等于预设的比例阈值,将分布式文件标记为目标清理文件;根据数据生命周期表和预设的对象状态对应的处理方式,按照处理方式对目标清理文件中的对象进行清理,可以对HDFS文件进行部分删除,释放存储资源,从而能够节约集群存储空间,降低存储成本。
附图说明
[0050]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式文件清理方法,其特征在于,所述方法包括:按照配置的数据生命周期表,对主热集群中分布式文件中的对象进行检查,确定出待处理对象;统计出待处理对象的对象数量;若所述对象数量在对象总数量中的占比比例大于或等于预设的比例阈值,将所述分布式文件标记为目标清理文件;根据所述数据生命周期表和预设的对象状态对应的处理方式,按照所述处理方式对所述目标清理文件中的对象进行清理。2.根据权利要求1所述的分布式文件清理方法,其特征在于,所述数据生命周期表包括用户、业务种类和热集群存储时长;所述按照配置的数据生命周期表,对主热集群中分布式文件中的对象进行检查,确定出待处理对象,包括:将所述分布式文件中的对象的用户和业务种类与所述数据生命周期表中的用户和业务种类进行匹配,生成对应的热集群存储时长;根据所述分布式文件中的对象的写入时间和当前时间,生成当前存储时长;若所述当前存储时长大于或等于所述热集群存储时长,将所述分布式文件中的对象确定为待处理对象。3.根据权利要求1所述的分布式文件清理方法,其特征在于,所述根据所述数据生命周期表和预设的对象状态对应的处理方式,按照所述处理方式对所述目标清理文件中的对象进行清理,包括:根据所述数据生命周期表和预设的对象状态对应的处理方式,对所述待处理对象进行清理;根据预设的对象状态对应的处理方式,对除所述待处理对象之外的对象进行清理。4.根据权利要求3所述的分布式文件清理方法,其特征在于,所述数据生命周期表还包括是否写入温集群;所述根据所述数据生命周期表和预设的对象状态对应的处理方式,对所述待处理对象进行清理,包括:若所述待处理对象对应的是否写入温集群的值为是,确定所述对象状态为温数据状态;将所述待处理对象写入设置的温集群;将所述待处理对象的索引字段修改为预设的温集群索引值,并将所述待处理对象的索引路径修改为所述温集群的地址。5.根据权利要求4所述的分布式文件清理方法,其特征在于,所述方法还包括:若所述待处理对象对应的是否写入温集群的值为否,确定所述对象状态为过期状态;将所述待处理对象的索引字段修改为预设的过期索引值。6.根据权利要求3所述的分布式文件清理方法,其特征在于,所述根据预设的对象状态对应的处理方式,对所述除所述待处理对象之外的对象进行清理,包括:将所述除所述待处理对象之外的对象的对象状态确定为热数据状态;将所述待处理对象重写至确定出的目标分布式文件;
将所述待处理对象的索引字段修改为预设的热集群索引值,并将所述待处理对象的索引路径修改为所述目标分布式文件的地址。7.根据权利要求1所述的分布式文件清理方法,其...

【专利技术属性】
技术研发人员:张艺张志海林丹李俊谦
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1