当前位置: 首页 > 专利查询>HGST荷兰公司专利>正文

用于在存储器管理中去重的参考块至参考集的聚合制造技术

技术编号:15704680 阅读:228 留言:0更新日期:2017-06-26 09:01
一种系统包括处理器和存储指令的存储器,当执行指令时使系统从数据存储中检索参考数据块,基于标准将参考数据块聚合为第一集,基于包括该参考数据块的第一集的一部分来生成参考数据集,并且在该数据存储中存储该参考数据集。

【技术实现步骤摘要】
用于在存储器管理中去重的参考块至参考集的聚合相关申请交叉引用本申请关联于美国专利申请第_号,提交于__,题为“pipelinedreferencesetconstructionanduseinmemorymanagement(管线参考集构造和在存储器管理中的使用)”;美国专利申请第_号,提交于__,题为“integrationofreferencesetswithsegmentflashmanagement(参考集与段闪存管理的集成)”;以及美国专利申请第_号,提交于__,题为“garbagecollectionforreferencesetsinflashstoragesystems(用于闪速存储系统中的参考集的垃圾收集)”,其每一个通过引用整体并入本文。
本公开涉及管理存储设备中数据块集。特别地,本公开描述了用于存储应用和数据去重的基于相似性的内容匹配。更特别地,本公开涉及将参考数据块聚合为参考数据集,用于闪存管理的去重。
技术介绍
基于相似性的内容匹配可应用于文档,用于标识文档集之间的相似性,与精确匹配相反。内容匹配的概念先前使用于搜索引擎实现和建立基于动态随机存取存储器(DRAM)的高速缓存,诸如基于散列查找的去重,其仅标识精确匹配,与标识近似匹配的基于相似性的去重相反。然而,在存储设备中利用基于相似性的去重需要解决与参考数据集管理和构造相关的问题。已有方法通过比较输入数据集的每个对应数据块与存储器中存储的数据块执行数据块聚合。此外,已有方法执行输入数据集的每个数据块的精确内容匹配。精确内容匹配包括比较关联于输入数据集的每个数据块的内容与存储于存储器的数据块的内容。具有精确匹配的数据块被编码,而不具有精确匹配的数据块不被编码并且被独立地存储在存储器中。这些已有方法包括多个缺陷,诸如性能方面、需要过多的处理时间、需要使用大量的不必要的存储器、一个或多个可包括相同内容的最小变型的数据块之间的冗余数据等。因此,本公开通过有效地将参考块聚合为参考数据集来解决关联于存储设备中数据聚合的问题。
技术实现思路
本公开涉及用于硬件有效数据管理的系统和方法。根据本公开的主题的一个创新方面,系统具有一个或多个处理器和存储器,所述存储器存储指令,当执行时使系统:从数据存储中检索参考数据块;基于标准将参考数据块聚合为第一集;基于包括该参考数据块的第一集的一部分来生成参考数据集;并且在该数据存储中存储该参考数据集。总体上,本公开描述的主题的另一创新方面可实现于一种方法,其包括:从数据存储中检索参考数据块;基于标准将该参考数据块聚合为第一集;基于包括该参考数据块的第一集的一部分来生成参考数据集;并且在该数据存储中存储该参考数据集。一个或多个方面的其他实现包括对应系统、装置和计算机程序,配置以执行编码于计算机存储设备的该方法的动作。这些和其他实现的每一个可选地包括如下特征的一个或多个。例如,该操作进一步包括:接收包括新数据块集的数据流;对新数据块集执行分析;基于该分析通过关联新数据块集与该参考数据集来编码新数据块集;更新记录表,其将新数据块集的每个编码数据块关联于该参考数据集的对应参考数据块;确定不同于该参考数据集的新集的数据块;将不同于该参考数据集的新集的数据块聚合为第二集;基于包括不同于该参考数据集的新数据块集的数据块的第二集而生成第二参考数据集;分配使用计数变量至第二参考数据集;以及在该数据存储中存储第二参考数据集。例如,该特征可包括:包括标识新数据块集和该参考数据集之间是否存在相似性的分析;包括关联于包括于该参考数据集的多个参考数据块的预定义阈值的标准;以及包括关联于要存储于该数据存储的多个参考数据集的阈值的标准。这些实现在多方面特别地有利。例如,本文描述的技术可用于将参考数据块聚合为参考数据集,用于存储器管理中的去重。应当理解,本公开使用的语言在原理上被选择用于可读和指导性目的,而非限制本文公开主题的范围。附图说明本公开以示例的形式说明,并且在附图中以限制的形式,其中相同参考数字用于指代相似元素。图1是说明根据本文描述的技术用于管理存储设备中的参考数据集的参考数据块的示例系统的高级框图。图2是说明根据本文描述的技术的示例存储控制器单元的框图。图3A是说明根据本文描述的技术用于管理存储设备中的参考数据块的示例系统的框图。图3B是说明根据本文描述的技术的示例数据精简(datareduction)单元的框图。图4是根据本文描述的技术用于生成参考数据集的示例方法的流程图。图5是根据本文描述的技术用于聚合数据块为参考数据集的示例方法的流程图。图6A-图6C是根据本文描述的技术用于基于变化数据流适应性将参考块聚合为参考数据集的示例方法的流程图。图7是根据本文描述的技术用于在管线体系结构中编码数据块的示例方法的流程图。图8A和图8B是根据本文描述的技术用于在管线体系结构中生成参考数据集的示例方法的流程图。图9是根据本文描述的技术用于在闪速存储管理中跟踪参考数据集的示例方法的流程图。图10是根据本文描述的技术用于更新关联于参考数据集的计数变量的示例方法的流程图。图11是根据本文描述的技术用于分配编码数据段至非暂存数据存储中的新位置的示例方法的流程图。图12是根据本文描述的技术用于编码关联于闪存管理和垃圾收集集成的数据段的示例方法的流程图。图13是根据本文描述的技术用于引退关联于闪存管理的参考数据集的示例方法的流程图。图14A为说明用于压缩参考数据块的现有技术示例的框图。图14B为说明用于去重参考数据块的现有技术示例的框图。图15为说明根据本文描述的技术的增量编码的示例图形表示。图16为说明根据本文描述的技术的近似编码的示例图形表示。图17为说明根据本文描述的技术的参考数据块的增量和自压缩的示例图形表示。图18A和图18B为说明根据本文描述的技术利用闪存管理的垃圾收集的参考块集的跟踪和引退的示例性图形表示。具体实施方式用于提供有效数据管理体系结构的系统和方法在下文描述。特别地,在本公开,用于管理存储设备(特别是闪存存储设备)中的参考数据块集的系统和方法在下文描述。尽管本公开的系统、方法描述于使用闪存存储的特定系统体系结构的环境,应当理解,系统和方法可应用于其他体系结构和硬件组织。概览本公开描述了基于相似性的内容匹配,用于存储应用和数据去重。特别地,通过解决参考数据集管理和构造的问题来提供用于有效数据管理的改进方法,本公开克服了当前方法在数据管理中的缺陷。更特别地,本公开对提供于本公开的解决方案提供了附加的改进,其使实体在其备份存储中维持数据,同时减少成本、存储空间和功率。本公开不同于现有的实现,其至少解决如下问题:在存储应用中计算基于相似性的匹配;以唯一方式对输入数据块应用压缩和去重;解决改变参考数据集的问题,其取决于利用新一代参考数据集存储改变数据流;以及集成参考数据集的管理与存储设备(诸如但不限于闪速存储设备)中的用于空间和运行时效率的垃圾收集。此外,基于相似性的去重算法通过推断关联于参考数据块的内容的抽象表示来操作。因此,参考数据块可用作模板,用于去重其他(即,未来)输入数据块,导致被存储的总数据量的降低。当去重数据块从存储被召回时,精简的(例如,去重)表示从存储被检索并与参考数据块提供的信息合并以重新生成原始数据本文档来自技高网
...
用于在存储器管理中去重的参考块至参考集的聚合

【技术保护点】
一种方法,包括:从数据存储中检索参考数据块;基于标准将参考数据块聚合为第一集;基于包括参考数据块的第一集的一部分生成参考数据集;以及在该数据存储中存储该参考数据集。

【技术特征摘要】
2015.11.04 US 14/932,8421.一种方法,包括:从数据存储中检索参考数据块;基于标准将参考数据块聚合为第一集;基于包括参考数据块的第一集的一部分生成参考数据集;以及在该数据存储中存储该参考数据集。2.根据权利要求1的方法,进一步包括:接收包括新数据块集的数据流;对新数据块集执行分析;基于该分析通过关联新数据块集与该参考数据集来编码新数据块集;以及更新记录表,该记录表将新数据块集的每个编码数据块关联于该参考数据集的对应参考数据块。3.根据权利要求2的方法,其中该分析包括标识新数据块集和该参考数据集之间是否存在相似性。4.根据权利要求2的方法,进一步包括:确定不同于该参考数据集的新集的数据块;将不同于该参考数据集的新集的数据块聚合为第二集;以及基于包括不同于该参考数据集的新数据块集的数据块的第二集而生成第二参考数据集。5.根据权利要求4的方法,进一步包括:分配使用计数变量至第二参考数据集;以及在该数据存储中存储第二参考数据集。6.根据权利要求1的方法,其中该标准包括关联于包含在该参考数据集中的多个参考数据块的预定义阈值。7.根据权利要求1的方法,其中该标准包括关联于要存储于该数据存储的多个参考数据集的阈值。8.一种系统,包括:处理器;以及存储器,其存储指令,当执行时使系统:从数据存储中检索参考数据块;基于标准将参考数据块聚合为第一集;基于包括该参考数据块的第一集的一部分来生成参考数据集;以及在该数据存储中存储该参考数据集。9.根据权利要求8的系统,进一步包括:接收包括新数据块集的数据流;对新数据块集执行分析;基于该分析通过关联新数据块集与该参考数据集来编码新数据块集;以及更新记录表,该记录表将新数据块集的每个编码数据块关联于该参考数据集的对应参考数据块。10.根据权利要求9的系统,其中该分析包括标识新数据块集和该参考数据集之间是否存在相似性。11.根据权利要求9的系统,...

【专利技术属性】
技术研发人员:A·辛盖S·曼钱达A·纳拉辛哈V·卡拉姆切蒂
申请(专利权)人:HGST荷兰公司
类型:发明
国别省市:荷兰,NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1