【技术实现步骤摘要】
一种基于热度的日志结构文件系统数据管理方法
本专利技术属于计算机信息存储领域,更具体地,涉及一种基于热度的日志结构文件系统数据管理方法。
技术介绍
大数据时代背景下,应大量数据的快速存储要求,闪存替代磁盘成为主流的存储设备。日志结构文件系统的异地更新特性对闪存友好,表现为良好的随机写性能和较低的一致性维护成本。日志结构文件系统的布局数据结构分为区(zone)、节(section)、段(segment)、块(block),以匹配底层NAND闪存的组织和管理方式。段是日志结构文件系统中管理的基本单元,用于确定初始文件系统元数据布局。由于采用异地更新策略,随着系统的不断运行,会逐渐产生无效块,因此,需要清理回收分散的无效块,并确保有空闲段用于接下来的写入过程。一般地,在日志结构文件系统中,清理以段为单位进行,称为段清理,在段清理过程中,选中作为清理目标的段称为牺牲段。段清理可以保证日志结构文件系统中有足够的空闲段,但是,日志结构文件系统仍然存在段清理开销过高、文件系统写放大严重等问题,这降低了日志结构文件系统的性能。日志结 ...
【技术保护点】
1.一种基于热度的日志结构文件系统数据管理方法,其特征在于,包括:/n追踪写入数据的热度值直至达到预设条件,并将所追踪的数据的热度值作为热度元数据进行缓存;/n对所追踪的数据的热度值进行抽样后,对抽样结果进行聚类,以将数据的热度值划分为多个热度类别,热度类别总数为k;/n在日志结构文件系统中维护k个日志,分别用于写入属于k个热度类别的数据。/n
【技术特征摘要】
1.一种基于热度的日志结构文件系统数据管理方法,其特征在于,包括:
追踪写入数据的热度值直至达到预设条件,并将所追踪的数据的热度值作为热度元数据进行缓存;
对所追踪的数据的热度值进行抽样后,对抽样结果进行聚类,以将数据的热度值划分为多个热度类别,热度类别总数为k;
在日志结构文件系统中维护k个日志,分别用于写入属于k个热度类别的数据。
2.如权利要求1所述的基于热度的日志结构文件系统数据管理方法,其特征在于,还包括:
持续追踪写入数据的热度值并更新所缓存的热度元数据,以所述热度条件为分隔点,将整个追踪过程划分为多个追踪轮次;
在当前追踪轮次,若所追踪到的热度值,与对应数据在当前追踪轮次之前的热度值之间的差值超过预设的第一阈值,则判定该数据的热度值发生了变化;若在当前追踪轮次追踪的数据中,热度值发生变化的数据所占的比例超过预设的第二阈值,则判定数据的热度分布在当前追踪轮次发生了变化,重新对当前追踪轮次所追踪的数据的热度值进行抽样后,对抽样结果进行聚类,以更新所划分的热度类别。
3.如权利要求1或2所述的基于热度的日志结构文件系统数据管理方法,其特征在于,对数据的热度值进行抽样,其方法为:
按照数据写入时间的先后顺序,对所追踪到的热度值进行排序,并将排序之后的热度值等分为两个部分;
按照预设的第一比例从先写入的一部分数据的热度值中抽取部分样本,并按照预设的第二比例从后写入的一部分数据的热度值中抽取部分样本,由两部分样本共同作为抽样结果;
其中,所述第一比例与所述第二比例之和为1,且所述第一比例小于所述第二比例。
4.如权利要求3所述的基于热度的日志结构文件系统数据管理方法,其特征在于,对抽样结果进行聚类时,质心的选择方法为:
统计所述抽样结果中样本极小值和样本极大值,在所述样本极小值和所述样本极大值之间划分多个区间,并统计各区间内的样本数;选取样本数量最多且不相邻的前k个区间的中心作为聚类的质心。
5.如权利要求1或2所述的基于热度的日志结构文件系统数据管理方法,其特征...
【专利技术属性】
技术研发人员:谭支鹏,杨梨花,王芳,冯丹,涂诗云,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。