一种基于底层聚合文件的空间回收方法、系统及相关装置制造方法及图纸

技术编号:19690810 阅读:22 留言:0更新日期:2018-12-08 10:54
本申请公开了一种基于底层聚合文件的空间回收方法,首先选取出符合进行空间回收要求的目标底层聚合文件,根据组成各目标底层聚合文件的小文件的存留状态信息将其中未被删除的小文件提取出来,并将其重组为新底层聚合文件,同时删去原目标底层聚合文件以回收已被删除的小文件所占用的存储空间,得以消除现有技术中容易出现的跳跃式查询数据和对磁盘空间的浪费现象,空间回收机制更合理、不易使垃圾数据碎片化,也对存储系统性能影响更低。本申请还同时公开了一种基于底层聚合文件的空间回收系统、装置及计算机可读存储介质,具有上述有益效果。

【技术实现步骤摘要】
一种基于底层聚合文件的空间回收方法、系统及相关装置
本申请涉及空间回收
,特别涉及一种基于底层聚合文件的空间回收方法、系统、装置及计算机可读存储介质。
技术介绍
在当今互联网时代,数据呈现爆炸式增长,社交网络、移动通信、网络视频、电子商务等各种应用往往能产生亿级甚至十亿、百亿级的海量小文件,而传统存储方式在存储这些小文件时,在元数据管理、访问性能、存储效率等方面都面临着巨大的挑战,因此海量小文件问题成为了业界公认的难题。针对这种应用场景,近年来发展出一种将小文件聚合追加写入到底层文件系统中的机制,可以把小文件特有的对磁盘的随机读写有效转化为顺序读写,提高性能。但该方案在小文件被删除尤其是大量删除之后,无法做到合理的空间回收(是因为在该文件在系统层面被删除后,还未被在存储介质真正删去),往往容易造成垃圾数据碎片化,既浪费了磁盘空间又使得磁盘不得不跳跃式查询数据,当数据量到达一定程度之后,会对存储系统的性能造成极大影响。因此,如何克服现有小文件空间回收机制存在的各项技术缺陷,提供一种空间回收更合理、不易使垃圾数据碎片化、对存储系统性能影响更低的小文件空间回收机制是本领域技术人员亟待解决的问题
技术实现思路
本申请的目的是提供一种基于底层聚合文件的空间回收方法,首先选取出符合进行空间回收要求的目标底层聚合文件,根据组成各目标底层聚合文件的小文件的存留状态信息将其中未被删除的小文件提取出来,并将其重组为新底层聚合文件,同时删去原目标底层聚合文件以回收已被删除的小文件所占用的存储空间,得以消除现有技术中容易出现的跳跃式查询数据和对磁盘空间的浪费现象,空间回收机制更合理、不易使垃圾数据碎片化,也对存储系统性能影响更低。本申请的另一目的在于提供了一种基于底层聚合文件的空间回收系统、装置及计算机可读存储介质。为实现上述目的,本申请提供一种基于底层聚合文件的空间回收方法,该空间回收方法包括:按预设选取规则对每个底层聚合文件执行文件选取操作,得到目标底层聚合文件;其中,每个底层聚合文件由预设数量的小文件聚合形成,且所述小文件为文件大小小于预设大小的文件;获取组成每个所述目标底层聚合文件的各小文件的存留状态信息;根据所述存留状态信息确定每个所述目标底层聚合文件中未被删除的小文件,得到非垃圾数据片段;将所述非垃圾数据片段重新组成新底层聚合文件,并删除所述目标底层聚合文件,以回收垃圾数据片段占用的空间;其中,所述垃圾数据片段为根据所述存留状态确定为已被删除的小文件。可选的,按预设选取规则对每个底层聚合文件执行文件选取操作,得到目标底层聚合文件,包括:判断每个所述底层聚合文件是否处于预设状态;其中,所述预设状态包括处于被占用状态、最新修改时间距当前时间差小于预设时长、垃圾数据片段所占存储空间的比值是否小于预设比值中的至少一项;若否,则选取相应的底层聚合文件以将其作为所述目标底层聚合文件。可选的,在获取组成每个所述目标底层聚合文件的各小文件的数据状态信息之前,还包括:对所述目标底层聚合文件上锁,直至所述目标底层聚合文件被删除。可选的,在将所述非垃圾数据片段重新组成新底层聚合文件之后,还包括:根据所述新底层聚合文件中包含的小文件所处的新位置更新相同小文件的索引数据。可选的,该基于底层聚合文件的空间回收方法还包括:每隔预设时间间隔对当前时间间隔内的每个底层聚合文件执行所述数据选取操作。为实现上述目的,本申请提供了一种基于底层聚合文件的空间回收系统,该空间回收系统包括:目标底层聚合文件选取单元,用于按预设选取规则对每个底层聚合文件执行文件选取操作,得到目标底层聚合文件;其中,每个底层聚合文件由预设数量的小文件聚合形成,且所述小文件为文件大小小于预设大小的文件;存留状态信息获取单元,用于获取组成每个所述目标底层聚合文件的各小文件的存留状态信息;非垃圾数据片段确定单元,用于根据所述存留状态信息确定每个所述目标底层聚合文件中未被删除的小文件,得到非垃圾数据片段;非垃圾数据片段处理单元,用于将所述非垃圾数据片段重新组成新底层聚合文件,并删除所述目标底层聚合文件,以回收垃圾数据片段占用的空间;其中,所述垃圾数据片段为根据所述存留状态确定为已被删除的小文件。可选的,所述目标底层聚合文件选取单元包括:预设状态判断子单元,用于判断每个所述底层聚合文件是否处于预设状态;其中,所述预设状态包括处于被占用状态、最新修改时间距当前时间差小于预设时长、垃圾数据片段所占存储空间的比值是否小于预设比值中的至少一项;目标底层聚合文件确定子单元,用于当所述底层聚合文件未处于所述预设状态时,选取相应的底层聚合文件以将其作为所述目标底层聚合文件。可选的,该基于底层聚合文件的空间回收系统还包括:文件锁施加单元,用于对所述目标底层聚合文件上锁,直至所述目标底层聚合文件被删除。可选的,该基于底层聚合文件的空间回收系统还包括:索引数据更新单元,用于根据所述新底层聚合文件中包含的小文件所处的新位置更新相同小文件的索引数据。可选的,该基于底层聚合文件的空间回收系统还包括:定期执行单元,用于每隔预设时间间隔对当前时间间隔内的每个底层聚合文件执行所述数据选取操作。为实现上述目的,本申请还提供了一种基于底层聚合文件的空间回收装置,该空间回收装置包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述内容所描述的基于底层聚合文件的空间回收方法的步骤。为实现上述目的,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述内容所描述的基于底层聚合文件的空间回收方法的步骤。显然,本申请所提供的一种基于底层聚合文件的空间回收方法,首先选取出符合进行空间回收要求的目标底层聚合文件,根据组成各目标底层聚合文件的小文件的存留状态信息将其中未被删除的小文件提取出来,并将其重组为新底层聚合文件,同时删去原目标底层聚合文件以回收已被删除的小文件所占用的存储空间,得以消除现有技术中容易出现的跳跃式查询数据和对磁盘空间的浪费现象,空间回收机制更合理、不易使垃圾数据碎片化,也对存储系统性能影响更低。本申请同时还提供了一种基于底层聚合文件的空间回收系统、装置及计算机可读存储介质,具有上述有益效果,在此不再赘述。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例提供的一种基于底层聚合文件的空间回收方法的流程图;图2为本申请实施例提供的另一种基于底层聚合文件的空间回收方法的流程图;图3为本申请实施例提供的一种从目标底层聚合文件至新底层聚合文件的重组过程示意图;图4为本申请实施例提供的一种索引数据库中索引数据随底层聚合文件重组一并更新的过程示意图;图5为本申请实施例提供的一种基于底层聚合文件的空间回收系统的结构框图。具体实施方式本申请的核心是提供一种基于底层聚合文件的空间回收方法,首先选取出符合进行空间回收要求的目标底层聚合文件,根据组成各目标底层聚合文件的小文件的存留状态信息将其中未被删除的小文件提取本文档来自技高网...

【技术保护点】
1.一种基于底层聚合文件的空间回收方法,其特征在于,包括:按预设选取规则对每个底层聚合文件执行文件选取操作,得到目标底层聚合文件;其中,每个底层聚合文件由预设数量的小文件聚合形成,且所述小文件为文件大小小于预设大小的文件;获取组成每个所述目标底层聚合文件的各小文件的存留状态信息;根据所述存留状态信息确定每个所述目标底层聚合文件中未被删除的小文件,得到非垃圾数据片段;将所述非垃圾数据片段重新组成新底层聚合文件,并删除所述目标底层聚合文件,以回收垃圾数据片段占用的空间;其中,所述垃圾数据片段为根据所述存留状态确定为已被删除的小文件。

【技术特征摘要】
1.一种基于底层聚合文件的空间回收方法,其特征在于,包括:按预设选取规则对每个底层聚合文件执行文件选取操作,得到目标底层聚合文件;其中,每个底层聚合文件由预设数量的小文件聚合形成,且所述小文件为文件大小小于预设大小的文件;获取组成每个所述目标底层聚合文件的各小文件的存留状态信息;根据所述存留状态信息确定每个所述目标底层聚合文件中未被删除的小文件,得到非垃圾数据片段;将所述非垃圾数据片段重新组成新底层聚合文件,并删除所述目标底层聚合文件,以回收垃圾数据片段占用的空间;其中,所述垃圾数据片段为根据所述存留状态确定为已被删除的小文件。2.根据权利要求1所述方法,其特征在于,按预设选取规则对每个底层聚合文件执行文件选取操作,得到目标底层聚合文件,包括:判断每个所述底层聚合文件是否处于预设状态;其中,所述预设状态包括处于被占用状态、最新修改时间距当前时间差小于预设时长、垃圾数据片段所占存储空间的比值是否小于预设比值中的至少一项;若否,则选取相应的底层聚合文件以将其作为所述目标底层聚合文件。3.根据权利要求1所述方法,其特征在于,在获取组成每个所述目标底层聚合文件的各小文件的数据状态信息之前,还包括:对所述目标底层聚合文件上锁,直至所述目标底层聚合文件被删除。4.根据权利要求1所述方法,其特征在于,在将所述非垃圾数据片段重新组成新底层聚合文件之后,还包括:根据所述新底层聚合文件中包含的小文件所处的新位置更新相同小文件的索引数据。5.根据权利要求1至4任一项所述方法,其特征在于,还包括:每隔预设时间间隔对当前时间间隔内的每个底层聚合文件执行所述数据选取操作。6.一种基于底层聚合文件的空间回收系统,其特征在于,包括:目标底层聚合文件选取单元,用于按...

【专利技术属性】
技术研发人员:魏盟
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1