可移动介质上的公共因子分解的硬件加速制造技术

技术编号:2821176 阅读:220 留言:0更新日期:2012-04-11 18:40
本发明专利技术描述了用于在可移动存储介质上存储数据的公共因子分解的系统和方法。这些系统和方法允许高度压缩的数据以高效的方式存储在便携式存储装置上。该方法包括将数据分为多个唯一组块并基于多个唯一组块计算标识符。通过计算标识符并且将其他组块的标识符与之前计算的唯一组块的标识符进行比较可以识别冗余组块。当识别出冗余组块时,生成对存在的唯一组块的索引,从而可以关于其他组块来重新构造该组块以使原始数据再现。该方法还包括将一个或多个唯一组块、标识符和/或索引存储在可移动存储介质上。取决于实施例,加速硬件和/或软件可以位于多种装置中。

【技术实现步骤摘要】

本专利技术大体上涉及数据存储系统,以及涉及(但不限于)在可 移动介质上存储信息的数据存储系统。
技术介绍
传统的备份涉及一系列完全备份、增量备份、或差异备份,其 保存相同的或緩慢变化的数据的多种拷贝。这种备份方法导致较高 程度的数据冗余。多年以来,随着基于磁带的存储器变得便宜,磁带和基于磁盘 的存储系统的价格之间已有相当大的差距。因此,传统的数据存储 解决方案已是基于^t带的存储系统,其利用约为2:1的平均压缩比 率的传统算法来压缩数据。有利地,基于磁带的存储系统使用可移 动磁带盒带(cartridge ),可以将其拿到装置外的位置用于灾害恢复。 然而,恢复基于》兹带的存储系统中的数据的处理緩慢、复杂并且不 可靠。名为7>共因子分解(commonality factoring )的重复凄史据册J除是 通过消除冗余数据来降低存储需求的处理。重复数据删除是基于磁 盘的数据存储系统,其大大地降低了的对磁盘空间的需求。然而, 包括重复删除方法的基于磁盘的数据存储系统并不能轻易地被导 出到可移动介质。为了将经重复删除的数据导出到可移动介质,必 须首先将经重复删除的数据再次形成为其原始形式然后再被记录 在可移动磁带盒带上,因此,需要比经重复删除的版本更多的存储 空间。重复数据删除是资源密集处理,将其在软件中作为公共因子分 解解决方案的一部分来4丸行。由于该密集计算处理,^吏用高端的线 程多核/多处理器服务器来提供对于执行该重复删除处理来说充分 的性能。通过使用多核/多处理器服务器所获得的性能总量取决于所 使用的算法和其在软件中的实现。然而,这些多核/多处理器服务器 的总费用和功耗较高。
技术实现思路
在多种实施例中,描述了用于在可移动存储介质上存储数据的 乂>共因子分解的系统和方法。这些系统和方法允"i午以高岁文方式将高 度压缩的数据(例如,利用包括重复删除的归档或备份方法所压缩 的数据)存储在便携式存储装置上(诸如,可移动存储盒带)。该 方法包括将数据(例如,用于备份的数据文件)分为多个唯一组 块(chunk);以及基于这些唯一组块来计算标识符(例如,哈希标 识符)。可以通过计算标识符以及将其他J且块的标识符与之前所计 算的唯一组块的标识符进行比较来识别冗余组块。当识别出冗余组块时,生成对于现存的唯一组块的索引,乂人而可以相对于其他组块 来重建该组块,以使原始数据再现。该方法还包括将多个唯一组块、 多个标识符和/或多个索引中的一个或多个存储在可移动存储介质 上。在某些方面,可以使用硬件和/或软件来加速该公共因子分解处 理。耳又决于实施例,可将加速石更件和/或软件置于多个装置中。例如,用于组块(chunking)和/或哈希(hash)功能的硬件和/或软件可以 位于主4几、可移动存储装置、可移动盒带架(例如,插座)、以及 可移动存储盒带中的一个或多个。在一个实施例中,公开了 一种用于利用可移动存储盒带存储数 据的公共因子分解系统。该系统包括处理器、连接到处理器的扩展 总线、以及连接到该扩展总线的插座。将该插座配置为接纳可移动 存储盒带。将扩展模块可拆卸地连接到扩展总线。将该扩展模块配 置为将数据传送到可移动存储盒带。该扩展模块包括组块模块和哈 希模块。该组块模块被配置为将原始数据流分为多个组块。将哈希 模块以流水线方式连接到组块模块,从而对哈希模块的输入的至少 一部分包括来自组块才莫块的输出。该口合希才莫块一皮配置为确定每个组 块是否p舉一以及向可移动存储盒带转发确定为p眷一的组块。在另 一个实施例中,公开了 一种用于利用可移动存储盒带存储 数据的公共因子分解方法。在一个步骤中,在可拆卸地连接到主机 的扩展模块处接收原始数据流。该扩展模块包括组块模块和哈希模 块。以流水线架构来配置哈希模块和组块冲莫块,从而对哈希才莫块的 输入的至少一部分包括来自组块才莫块的输出。在组块才莫块处,将原 始数据流分为多个组块。向所述哈希模块转发这些模块。该哈希模 块计算所转发的每个组块的标识符;存储标识符;并且基于标识符来确定每个组块是否唯一。将标识符和多个唯一组块中的至少一个 转发到可移动存储盒带。该可移动存储盒带包括存储驱动器。在又一实施例中,公开了 一种用于利用可移动存储盒带存储数 据的公共因子分解的扩展卡。该扩展卡包括组块模块和哈希模块。 该组块模块被配置为接收来自主机的原始数据流并将该原始数据 流分为多个组块。该扩展卡^皮配置为可拆卸地连接到主^^几和可移动存储盒带并将数据存储在可移动存储盒带上。哈希模块以流水线方 式连接到组块模块,从而对该哈希模块的输入的至少 一部分包括来自组块模块的输出。该哈希模块被配置为接收来自组块模块的多 个组块;计算所接收的每个组块的标识符;基于标识符来确定每个 组块是否唯一;并将唯一组块存储在可移动存储盒带上。在下文中,根据所提供的详细描述,本公开的更多应用领域将 变得显而易见。应当了解,虽然简述了各个实施例,但具体描述和 特定实例都^又旨在i兌明而不用来限至本专利技术的范围。附图说明图1示出了数据存储系统的实施例的框图。图2示出了用于执行公共因子分解的系统的实施例的框图。图3示出了用于执行7>共因子分解的系统的可替换实施例的框图。图4示出了用于执行公共因子分解的系统的可替换实施例的框图。图5A、图5B、和图5C示出了用于执行公共因子分解的数据 存储系统的可替换实施例的示意图。图6示出了用于在可移动数据盒带上存储数据的处理的实例的 流程图。在附图中,类似的部件和/或特征可具有相同的参考标号。此外, 可以通过在参考标号之后加上破折号和用于区分类似部件的第二 标号来区分相同类型的各个部件。如果在本说明书中仅使用了第一参考标号,则不管第二参考标号如何,该描述适用于具有相同的第 一参考标号的任何一个类似部件。具体实施例方式以下的描述仅仅提供了优选的示例性实施例,并且不用于限定 本专利技术的范围、可应用性、和配置。确切地,优选示例性实施例的 以下描述将能够实现优选实施例的描述提供给本领域技术人员。应 当了解,在不背离所附权利要求阐明的精神和范围的情况下,可以 对组成部分的功能和配置进4于各种改变。本公开大体涉及用于数据备份、存储和存档应用的数据存储系统。其具体地涉及容纳作为存储介质的硬盘驱动器(HDD)的新一 代可移动存储盒带。贯穿i兌明书,可以用HDD来描述存4诸介质, 但应当理解,可以可替换地使用闪存或固态盘(SSD)驱动器。本专利技术的实施例集中于 一种系统,用于将比4吏用传统的 Lempel-Ziv ( LZ )压缩方法所允许的凄t据更多的lt据存储在单一的 存储盒带上。这通过实现公共因子分解(或,重复删除)来实现。 具体地,才艮据本专利技术的系统4吏处理加速,乂人而以可与线性》兹带开方文 (LTO )磁带驱动器相竟争的速度来执行数据缩减而不需要高端服 务器来^U于此处理。根据本专利技术的一个实施例,提供了 一种用于利用存储盒带存储 数据的加速公共因子分解系统。该系统包括用于将原始数据流分为 多个组块的组块模块。在组块模块中,将流水线操作和查询表用于 优化。该系统还包括p合希才莫块,用于确定每个组块是否唯一或是否 是之前所存储的多个组块中的任意组块的副本。在由组块模块处理 了组块的最后一个字本文档来自技高网
...

【技术保护点】
一种用于利用可移动存储盒带存储数据的公共因子分解系统,包括: 处理器; 扩展总线,连接到所述处理器; 插座,连接到所述扩展总线并且被配置为接纳所述可移动存储盒带;以及 扩展模块,可拆卸地连接到所述扩展总线,其中,所述扩展模块被配置为将数据传送到所述可移动存储盒带,所述扩展模块包括: 组块模块,被配置为将原始数据流分为多个组块;以及 哈希模块,被配置为以流水线方式连接到所述组块模块,从而对所述哈希模块的输入的至少一部分包括来自所述组块模块的输出,所述哈希模块被配置为: 确定每个所述组块是否唯一,以及 向所述可移动存储盒带转发确定为唯一的组块。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:马修D邦杜兰特史蒂文W斯克罗格斯
申请(专利权)人:普罗斯特系统公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1