【技术实现步骤摘要】
一种分布式文件清理方法、装置和系统
[0001]本专利技术涉及计算机
,特别涉及人工智能
,尤其涉及一种分布式文件清理方法、装置和系统。
技术介绍
[0002]对象存储是互联网中经常使用的技术,在对象存储系统中,将多个对象合并成一个大文件存储在海杜普分布式文件系统(Hadoop Distributed File System,简称:HDFS)中,将每个对象在大文件中的位置信息作为索引写入分布式存储系统(HBase)中。在大数据时代,对象存储系统中的数据增长极为迅速,系统中无效或失效对象将会占据相当大的存储空间。HDFS一次写入多次读取的特性,导致无法对HDFS文件进行部分删除,造成集群存储空间极大浪费,对象存储系统的成本过高。
技术实现思路
[0003]本专利技术的一个目的在于提供一种分布式文件清理方法,可以对HDFS文件进行部分删除,释放存储资源,从而能够节约集群存储空间,降低存储成本。本专利技术的另一个目的在于提供一种分布式文件清理装置。本专利技术的再一个目的在于提供一种分布式文件清理系统。本 ...
【技术保护点】
【技术特征摘要】
1.一种分布式文件清理方法,其特征在于,所述方法包括:按照配置的数据生命周期表,对主热集群中分布式文件中的对象进行检查,确定出待处理对象;统计出待处理对象的对象数量;若所述对象数量在对象总数量中的占比比例大于或等于预设的比例阈值,将所述分布式文件标记为目标清理文件;根据所述数据生命周期表和预设的对象状态对应的处理方式,按照所述处理方式对所述目标清理文件中的对象进行清理。2.根据权利要求1所述的分布式文件清理方法,其特征在于,所述数据生命周期表包括用户、业务种类和热集群存储时长;所述按照配置的数据生命周期表,对主热集群中分布式文件中的对象进行检查,确定出待处理对象,包括:将所述分布式文件中的对象的用户和业务种类与所述数据生命周期表中的用户和业务种类进行匹配,生成对应的热集群存储时长;根据所述分布式文件中的对象的写入时间和当前时间,生成当前存储时长;若所述当前存储时长大于或等于所述热集群存储时长,将所述分布式文件中的对象确定为待处理对象。3.根据权利要求1所述的分布式文件清理方法,其特征在于,所述根据所述数据生命周期表和预设的对象状态对应的处理方式,按照所述处理方式对所述目标清理文件中的对象进行清理,包括:根据所述数据生命周期表和预设的对象状态对应的处理方式,对所述待处理对象进行清理;根据预设的对象状态对应的处理方式,对除所述待处理对象之外的对象进行清理。4.根据权利要求3所述的分布式文件清理方法,其特征在于,所述数据生命周期表还包括是否写入温集群;所述根据所述数据生命周期表和预设的对象状态对应的处理方式,对所述待处理对象进行清理,包括:若所述待处理对象对应的是否写入温集群的值为是,确定所述对象状态为温数据状态;将所述待处理对象写入设置的温集群;将所述待处理对象的索引字段修改为预设的温集群索引值,并将所述待处理对象的索引路径修改为所述温集群的地址。5.根据权利要求4所述的分布式文件清理方法,其特征在于,所述方法还包括:若所述待处理对象对应的是否写入温集群的值为否,确定所述对象状态为过期状态;将所述待处理对象的索引字段修改为预设的过期索引值。6.根据权利要求3所述的分布式文件清理方法,其特征在于,所述根据预设的对象状态对应的处理方式,对所述除所述待处理对象之外的对象进行清理,包括:将所述除所述待处理对象之外的对象的对象状态确定为热数据状态;将所述待处理对象重写至确定出的目标分布式文件;
将所述待处理对象的索引字段修改为预设的热集群索引值,并将所述待处理对象的索引路径修改为所述目标分布式文件的地址。7.根据权利要求1所述的分布式文件清理方法,其...
【专利技术属性】
技术研发人员:张艺,张志海,林丹,李俊谦,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。