用于重复数据删除云分层的垃圾收集制造技术

技术编号:31373053 阅读:14 留言:0更新日期:2021-12-15 10:52
提供了用于执行数据保护操作的系统和方法,所述数据保护操作包括垃圾收集操作和拷贝转发操作。对于存储在基于云的存储器或云分层(存储包含死片段和活片段或者死区和活区(诸如压缩区)的容器)中的被进行重复数据删除的数据,通过将活压缩区拷贝到新容器中且然后删除旧容器来删除死压缩区。该拷贝转发基于来自数据保护系统的方案并且使用无服务器方法来执行。执行。执行。

【技术实现步骤摘要】
【国外来华专利技术】用于重复数据删除云分层的垃圾收集


[0001]本专利技术的实施方式涉及用于保护数据的系统、方法和设备。更特别地,本专利技术的实施方式涉及数据保护操作,包括备份操作、恢复操作、重复数据删除操作以及垃圾收集操作。更具体地,实施方式涉及用于收集重复数据删除云分层中的垃圾的系统和方法。

技术介绍

[0002]在很多计算系统中,数据通常本地或现场存储在内部部署网络中。出于很多原因,一些实体期望将其数据中的至少一些移动到目标站点,诸如基于云的存储系统(云)。为了降低与云相关联的存储成本,有用的是在数据被写入云之前对数据进行重复数据删除。以重复数据删除方式将其数据存储在云中的实体可能期望其云存储成本将随着数据被删除而降低。事实并不总是这样。
[0003]事实证明,删除对象可能会产生成本。这是因为重复数据删除。在新对象被写入云时,先前对象中的数据的一部分可能被新文件引用。当旧对象被删除时,并非对象中的所有内容都变成未被引用。为了删除未被引用的部分,需要通过读取对象的被引用部分并将其写入新对象来对这些对象进行碎片整理。尽管写入云是便宜且经常免费的,但从云读取数据可能很昂贵。更具体地,在常规垃圾收集操作的上下文中,需要传送大量的数据。读取和传送数据很昂贵。
[0004]例如,从云服务提供商传送数据的成本可能对于传送的前10TB而言是每GB 0.09美元。每周读取1TB的成本是每年约4,800美元。删除很多TB的数据的实体在垃圾收集操作期间可能会产生高网络成本,这至少是因为需要将数据传送回到本地系统以便适当地删除以重复数据删除的形式存储的数据。
附图说明
[0005]为了描述可获得本专利技术的至少一些优点和特征的方式,将参考在附图中示出的本专利技术的特定实施方式来呈现本专利技术的实施方式的更具体描述。应理解,这些附图仅描绘了本专利技术的典型实施方式并且因此不应被视为是其范围的限制,通过使用附图将用附加特征和细节来描述并解释本专利技术的实施方式,在附图中:
[0006]图1A示出了存储在云存储系统中的容器中的数据的示例;
[0007]图1B示出了在内部部署活动分层和云分层中提供数据保护操作的数据保护系统的示例,所述数据保护操作包括重复数据删除和垃圾收集;
[0008]图2示出了拷贝转发云分层中的容器的示例;
[0009]图3示出了被配置为在存储在基于云的存储器中的数据的云分层上执行垃圾收集操作的基于云的无服务器架构的示例;
[0010]图4示出了被配置为在数据的云分层上执行包括拷贝转发的垃圾收集操作的无服务器架构的另一个示例;
[0011]图5示出了可在云存储器中如何表示对象或文件以及在容器中如何存储对象的示
例;
[0012]图6示出了用于在云分层中执行垃圾收集的方法的示例;以及
[0013]图7示出了成本分析。
具体实施方式
[0014]本专利技术的实施方式总体上涉及数据保护,并且涉及用于执行数据保护操作的系统、方法和设备。数据保护操作的示例包括但不限于备份操作、恢复操作、复制操作、灾难复原操作、灾难复原测试操作、故障转移或部分故障转移操作、数据同步操作、复制操作、垃圾收集操作、拷贝转发操作等或它们的组合。更特别地,本专利技术的实施方式涉及用于在云中执行包括垃圾收集操作的数据保护操作的系统、硬件、软件、计算机可读介质和方法。
[0015]本专利技术的实施方式涉及数据保护系统(例如,DELL EMC DATA DOMAIN),该数据保护系统包括或提供例如用于数据存储的本地或活动分层以及用于数据存储的云分层。更特别地,本专利技术的实施方式涉及在活动分层和/或云分层上执行的垃圾收集操作。在重复数据删除存储系统中,数据(对象、文件等)通常分成组块或片段。执行垃圾收集操作以移除不再对应于仍应存储在存储系统中的数据的片段。未被引用的片段是死片段的示例并且可通过垃圾收集操作被移除,而活片段不应通过垃圾收集操作被移除。移除死片段可降低存储需求。
[0016]数据保护系统可为提供存储器的活动分层的现场设备,并且客户可将云分层用于某些数据。类似于内部部署数据,云中的数据被进行重复数据删除并且可被存储在包括片段的压缩区的容器中。
[0017]图1A示出了存储在云存储器中的数据的示例。图1A示出了云存储器150。用户的数据可存储在云中的容器中。在该示例中,云存储器150包括容器,所述容器被表示为容器152、158、160、162和164。容器的数量不受限制,并且容器可为不同的类型。一些容器(诸如容器152、158、160和162)可将片段存储在压缩区中。诸如容器164(CMETA容器)的容器可为元数据容器并且可被配置为存储元数据。元数据也可作为片段存储,并且因此,CMETA容器在元数据变成死的时也可被清理。
[0018]例如,容器152将片段存储在压缩区中。容器152的压缩区被表示为压缩区154和156。每个压缩区包括数据的片段。因此,压缩区154和156可各自存储一些数量的片段。压缩区154和156还可被压缩和/或加密。
[0019]如下面更详细地描述,压缩区154(类似于其他压缩区)可包含活片段和死片段两者。为了清理容器152,例如,可将至少部分是活的(或包括任何活片段)的压缩区拷贝转发到新容器中。死的或不包含任何活片段的压缩区不被拷贝转发。一旦活压缩区被拷贝转发到新的容器中,就可删除源容器或旧容器。这通过从容器移除死压缩区来收回存储空间。例如,如果压缩区154被认为是活的而压缩区156被认为是死的,则垃圾收集操作可将压缩区154拷贝到新容器中且然后删除容器152以移除压缩区156、和压缩区154的旧版本。这些改变被反映在CMETA容器164中(其可以类似方式被清理)。这确保数据保护系统知道片段的位置并且能够执行重复数据删除。
[0020]通过识别特定的压缩区,可在无需对压缩区或存储在其中的片段进行解压缩和/或解密的情况下清理容器152。
[0021]因此,为了在数据删除之后空出存储空间,将活压缩区(包括部分是活的压缩区)从旧容器拷贝到新容器,然后删除旧容器。更具体地,或将活压缩区拷贝到新容器(拷贝转发的示例),并且通过删除旧容器来删除死片段或死压缩区。以此方式,存储需求可降低,因为不再需要先前用于存储死压缩区的存储空间。因此,有效地移除了死片段。
[0022]另外,当将垃圾收集操作应用于压缩区或应用于容器中的数据范围时,可在不必对压缩区进行压缩和/或解密的情况下执行拷贝转发操作。在这种情况下,数据保护系统知道压缩区的起始地址或偏移,并且所述起始地址或偏移被包括在本地存储的元数据中或可从本地存储的元数据得出。因此,可通过识别源容器、源容器中的活压缩区的起始地址、压缩区的大小、以及活压缩区被拷贝转发的目的地容器来拷贝转发活压缩区。
[0023]可通过内部部署设备或内部部署数据保护系统来管理重复数据删除,并且本专利技术的实施方式通过使用指令或方案使得可在云本身内进行较大的数据传送或拷贝转发以减少对内部部署数据保护系统的读取和数据传送来降低成本(云本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种在提供数据的活动分层和数据的云分层的计算系统中,用于在所述云分层中执行垃圾收集操作的方法,所述方法包括:由垃圾收集引擎处理关于所述云分层的元数据,以识别云存储器中的待清理的容器,其中识别的所述容器包含死区和活区;生成标识识别的所述容器中的所述活区的位置的方案,所述活区包括活片段;将所述方案写入云中的指定位置;以及检测所述方案已经被写入所述指定位置的事件;调用与检测到的所述事件相关联的函数;以及通过所述函数执行所述方案,其中所述函数将所述活区从识别的所述容器拷贝到新容器且然后删除识别的所述容器。2.如权利要求1所述的方法,其中,所述区包括压缩区,其中每个方案至少标识容器、所述容器中的活压缩区的位置、所述活压缩区的大小、以及用于存储所述活压缩区的目的地容器。3.如权利要求1所述的方法,其中,通过多个所述函数执行所述方案,使得并行地清理数据的云分层。4.如权利要求1所述的方法,所述方法还包括更新所述元数据,以反映在执行所述方案之后所述压缩区在存储在所述云分层中的所述新容器中的位置。5.如权利要求1所述的方法,所述方法还包括从所述元数据识别存储在所述云中的L0容器和Lp容器的元数据,所述L0容器和所述Lp容器的所述元数据包括所述L0容器和所述Lp容器中的片段的指纹。6.如权利要求5所述的方法,所述方法还包括执行查找以识别所述Lp容器的活区和死区。7.如权利要求6所述的方法,所述方法还包括生成允许将来自所述Lp容器的所述活区拷贝到新LP容器中的所述方案。8.如权利要求7所述的方法,所述方法还包括在本地以及向所述云写入所述新Lp容器。9.如权利要求8所述的方法,所述方法还包括将所述新Lp容器的元数据拷贝到新CMETA容器,其中在本地以及向所述云写入所述新CMETA容器。10.如权利要求1所述的方法,所述方法还包括:对本地CMETA容器的元数据区段进行重复以识别L0容器的所述活区;基于所述本地CMETA容器形成所述方案;将对应于所述方案的所述元数据本地拷贝到新CMETA容器中并且将所述新CMETA容器复制到所述云;以及删除从其拷贝转发活区的所述Lp容器、所述L0容器和所述CMETA容器,以收回所述云中的空间。11.如权利要求1所述的方法,其中,在不考虑格式、压缩状态、或加密状态的情况下拷贝转发所述活区。12.如权利要求1所述的方法,其中,所述指定位置包括所述云存储器的URL。13.如权利要求1所述的方法,所述方法还包括针对通过所述函数写入的轮询文件来轮询所述云存储器,其中所述轮...

【专利技术属性】
技术研发人员:R
申请(专利权)人:EMCIP控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1