有序字符串表文件的压缩方法和装置制造方法及图纸

技术编号:38853204 阅读:47 留言:0更新日期:2023-09-17 10:00
提供了一种SST文件的压缩方法和装置,所述方法包括:响应于确定需要对日志结构合并树LSM

【技术实现步骤摘要】
有序字符串表文件的压缩方法和装置


[0001]本申请涉及数据存储
,更具体地,涉及一种有序字符串表(Sorted String Table,SST)文件的压缩方法和装置。

技术介绍

[0002]基于日志结构合并树(Log

Structured Merge

Tree,LSM

Tree)存储结构(例如,RocksDB或LevelDB)存储的数据可被存储到分区命名空间(Zoned Namespaces,ZNS)固态驱动器(Solid State Drive,SSD)中。可对LSM

Tree的层(level)中的存储在分区中的多个SST文件执行压缩,在压缩操作后,所述多个SST文件变为所述分区中的无效文件,通过压缩操作获得的新SST文件被存储在ZNS SSD的具有空闲空间的分区中。根据ZNS SSD的存储机制,仅当分区中文件全部为无效文件时(即不存在有效数据碎片时),该分区才能被回收。现有的压缩策略根据参与压缩操作的开始层中的SST文件与输出层中的SST文件的键重叠率本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种有序字符串表SST文件的压缩方法,其中,所述SST文件存储在分区命名空间ZNS固态驱动器SSD的分区中,所述方法包括:响应于确定需要对日志结构合并树LSM

Tree的第一层执行压缩操作,基于第一层中第一多个SST文件以及第二层中的第二多个SST文件对应的第一多个分区的属性信息确定第一多个SST文件的压缩优先级,其中,第一多个SST文件中的每个SST文件的键范围与第二层中的SST文件的键范围至少部分重叠,第二多个SST文件中的每个SST文件的键范围与第一多个SST文件的键范围至少部分重叠;以及优先对第一多个SST文件中的具有较高压缩优先级的SST文件执行压缩操作,其中,第二层指示LSM

Tree的与第一层相邻并且第二层比第一层高的层。2.如权利要求1所述的方法,优先对第一多个SST文件中的具有较高压缩优先级的SST文件执行压缩操作的步骤包括:从第一多个SST文件中选择具有较高压缩优先级的SST文件;以及对所述选择的SST文件和第二层中的第三多个SST文件执行压缩操作,其中,第三多个SST文件中的每个SST文件的键范围与所述选择的SST文件的键范围至少部分重叠。3.如权利要求1所述的方法,其中,第一多个分区的属性信息包括以下项中的至少一个:第一多个分区中的每个分区中有效文件的大小、第一多个分区中的每个分区中无效文件的大小、第一多个分区中的每个分区中无效文件的数量、第一多个分区中的每个分区中有效文件的预期失效时间。4.如权利要求3所述的方法,其中,确定第一多个SST文件的压缩优先级的步骤包括:基于第一多个SST文件中的每个SST文件以及所述每个SST文件对应的第二层中的第三多个SST文件对应的第二多个分区的属性信息确定所述多个SST文件的压缩优先级,其中,第三多个SST文件中的每个SST文件的键范围与所述每个SST文件的键范围至少部分重叠,其中,所述每个SST文件以及所述每个SST文件对应的第二多个分区的属性信息包括:第二多个分区中的每个分区中的有效文件的大小与所述每个分区的存储容量的比值、所述每个分区中无效文件的大小与所述每个分区的存储容量的比值、所述每个分区中无效文件的数量与所述每个分区中所有文件的数量的比值以及所述每个分区中有效文件的剩余寿命的平均值。5.如权利要求4所述的方法,其中,基于第一多个SST文件中的每个SST文件以及所述每个SST文件对应的第二层中的第三多个SST文件对应的第二多个分区的属性信息确定所述多个SST文件的压缩优先级的步骤包括:对第二多个分区中的每个分区中有效文件的大小与所述每个分区的存储容量的比值、第二多个分区中的每个分区中无效文件的大小与所述每个分区的存储容量的比值、第二多个分区中的每个分区中无效文件的数量与第二多个分区中的每个分区中所有文件的数量的比值以及第二多个分区中的每个分区中有效文件的剩余寿命的平均值的归一化值进行加权求和;以及确定通过加权求和获得的与第二多个分区对应的多个和中的最大值作为所述每个SST文件的压缩优先级值,基于第一多个SST文件对应的压缩优先级值确定所述压缩优先级,其中,所述多个SST
文件中的具有较大压缩优先级值的SST文件被确定为具有较高压缩优先级。6.如权利要求4所述的方法,其中,第二多个分区中处于参与压缩操作的层的文件被视作无效文件。7.如权利要求1所述的方法,其中,LSM

Tree基于LevelDB或基于RocksDB。8.如权利要求4所述的方法,其中,有效文件的剩余寿命指示所述有效文件的预期失效时间与当前时间的差值,所述有效文件的预期失效时间为所述有效文件的创建时间加上所述有效文件的寿命,其中,所述有效文件的寿命通过以下方式获得:当所述有效文件被创建时,基于所述有效文件所在层、与所述有效文件所在层相邻的较高层以及与所述有效文件所在层相邻的较低层的属性信息,利用第一已训练的机器学习模型预测所述有效文件在将来参与主动压缩操作的概率是否高于在将来参与被动压缩操作的概率,其中,主动压缩操作指示所述有效文件与所述较高层的SST文件的压缩操作,被动压缩操作指示所述有效文件与所述较低层的SST文件的压缩操作,当参加主动压缩操作的概率高于参加被动压缩操作的概率时,基于针对从所述有效文件所在层到所述较高层的压缩操作的历史记录文件、利用第二已训练的机器学习模型预测所述有效文件的寿命,当参加被动压缩操作的概率不高于参加被动压缩操作的概率时,基于针对从所述较低层到所述有效文件所在层的压缩操作的历史记录文件、利用第三已训练的机器学习模型预测所述有效文件的寿命,其中,针对从所述有效文件所在层到所述较高层的压缩操作的历史记录文件以及针对从所述较低层到所述有效文件所在层的压缩操作的历史记录文件中的每个历史记录文件记录了因所述每个历史记录文件对应的压缩操作而被删除的SST文件的第一键范围和寿命,其中,第一键范围基于因压缩操作而被删除的SST文...

【专利技术属性】
技术研发人员:张怡雯杨延龙张宇奇贺杏
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1