【技术实现步骤摘要】
【国外来华专利技术】使用数据相似度来选择分段进行垃圾收集
[0001]交叉参考
[0002]本申请案主张2021年1月25日提出申请的美国非临时申请案第17/156,979号的权益,所述申请案的整个内容特此以引用的方式并入。
[0003]本专利技术所涉及的
大体来说是数据存储系统,更具体来说是数据存储系统中的垃圾收集及数据压缩。
技术介绍
[0004]数据存储系统存在许多类型及架构,其具有各种类型的存储式存储器及针对数据可靠性及数据存储效率的各种方案。许多存储系统在存储式存储器中采用垃圾收集,其中在存储式存储器中对实时数据重新定位,使得可擦除并再使用具有死数据的擦除块,也称作回收存储式存储器。许多存储系统采用各种类型的数据压缩,其中辨识并压缩相同及/或相似数据以实现较大数据存储效率。重复数据删除是针对数据存储效率的另一策略。随着存储系统纵向扩展且因对更多数据的存储的不断增加的需要,持续需要数据存储技术、垃圾收集技术及数据压缩技术的改进。在计算及数据存储技术的此环境中产生了本专利技术实施例。
附图说明
[0005]图1A图解说明根据一些实施方案的用于数据存储的第一实例系统。
[0006]图1B图解说明根据一些实施方案的用于数据存储的第二实例系统。
[0007]图1C图解说明根据一些实施方案的用于数据存储的第三实例系统。
[0008]图1D图解说明根据一些实施方案的用于数据存储的第四实例系统。
[0009]图2A是根据一些实施例的具有多个存储节点及耦合到每一存储节点的内部 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种存储系统,其包括:存储式存储器;及处理装置,其用以执行所述存储式存储器中的垃圾收集,包括:从存储于所述存储式存储器中的多个数据分段获得哈希值;基于哈希结果确定所述多个数据分段的内容相似度;对所述多个数据分段中具有满足相似度阈值的所述内容相似度的两个或更多个数据分段的实时数据执行数据压缩;及将所述两个或更多个数据分段的经压缩实时数据写入到所述存储式存储器中。2.根据权利要求1所述的存储系统,其中所述确定所述多个数据分段的所述内容相似度包括基于所述哈希结果根据跨越所述多个数据分段应用的相似度度量确定所述数据分段的数据的部分的相似度。3.根据权利要求1所述的存储系统,其中所述确定所述多个数据分段的所述内容相似度包括基于所述哈希结果根据跨越所述多个数据分段应用的不相似度度量确定所述数据分段的数据的部分的不相似度。4.根据权利要求1所述的存储系统,其中所述确定所述多个数据分段的所述内容相似度包括基于所述哈希结果确定数据分段之间的杰卡德距离。5.根据权利要求1所述的存储系统,其中所述对所述多个数据分段中的所述两个或更多个数据分段的所述实时数据执行所述数据压缩包括执行辨识所述两个或更多个数据分段中的数据的相同部分的数据压缩。6.根据权利要求1所述的存储系统,其中所述对所述多个数据分段中的所述两个或更多个数据分段的所述实时数据执行所述数据压缩包括执行记录所述两个或更多个数据分段中的数据的相似部分当中的差异的数据压缩。7.根据权利要求1所述的存储系统,其中所述获得所述哈希值包括:使用滑动窗口哈希函数计算多个数据组块中的每一者的哈希,且针对所述多个数据分段中的每一者,确定性地选择所述哈希的子集。8.根据权利要求1所述的存储系统,其中所述获得所述哈希值包括:针对所述多个数据分段中的每一者,存储所述多个数据分段中的每一者的哈希集与对应数据分段。9.根据权利要求1所述的存储系统,其中所述处理装置进一步用以基于年龄、脏百分比或其它数据特性选择所述存储式存储器中的其它数据分段以供进行所述垃圾收集。10.一种存储系统中的数据压缩方法,其包括:从存储于所述存储系统的存储式存储器中的多个数据分段获得哈希值;基于所述哈希值确定跨越所述多个数据分段的内容相似度;在所述存储式存储器中的垃圾收集期间对所述多个数据分段中的两个或更多个数据分段的实时数据执行数据压缩,所述两个或更多个数据分段具有满足相似度阈值的跨越所述两个或更多个数据分段的所述内容相似度;及将所述两个或更多个数据分段的经压缩实时数据写入到所述存储式存储器中。11.根据权利要求10所述的方法,其中所述...
【专利技术属性】
技术研发人员:伊桑,
申请(专利权)人:净睿存储股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。