连续数据保护系统和在其中存储数据的方法技术方案

技术编号:38219469 阅读:8 留言:0更新日期:2023-07-25 11:31
提供了一种连续数据保护系统,包括:对象存储装置和文件系统,所述文件系统用于保存用于连续数据保护系统外部的保护卷的备份数据文件;控制单元,所述控制单元用于将输入数据集写入对象存储装置,以及从对象存储装置检索数据集并将数据集写入备份数据文件。备份数据文件被划分为两个或更多个初始可变大小分块,初始可变大小分块中的每个初始可变大小分块被划分为多个块。数据文件还被划分为两个或更多个固定大小分块,每个固定大小分块包括填充。所述系统使得能够改进数据缩减率和系统性能。此外,即使在将数据文件分块为可变长度分块的情况下,所述系统也能够准确地随机访问数据的分块。据的分块。据的分块。

【技术实现步骤摘要】
【国外来华专利技术】连续数据保护系统和在其中存储数据的方法


[0001]本专利技术大体上涉及数据保护和备份领域;更具体地,涉及连续数据保护系统和在连续数据保护系统中存储数据的方法。

技术介绍

[0002]通常,数据备份用于在主存储系统(如主机服务器)中发生数据丢失时保护和恢复数据。出于安全考虑,单独的备份系统或存储系统被广泛用于存储主存储系统中存在的数据的备份。通常,在传统存储系统中,随着时间的推移,由于数据的变化或者任何新数据占用了大量的存储空间,存储系统的存储空间变得被占用。这不符合期望,因为这导致存储系统的性能降低。此外,数据存储的成本,以及包括存储硬件成本在内的所有关联成本,仍然是一个负担。通常,重复数据删除是存储系统广泛使用的一种过程,用于在不损害原始数据的保真度的情况下消除存储系统上存储的重复或冗余的数据。在存储系统中,数据通常存储在块存储设备中,其中给定的块存储设备是支持在固定大小的块、扇区或簇中读取和写入数据的计算机数据存储设备。
[0003]目前,传统的块存储系统(或设备)通常采用固定大小重复数据删除来节省存储空间。所述固定大小重复数据删除将存储在存储系统中的数据划分为固定大小的块,例如8KB的对齐块。对于每个固定大小块,都会创建签名。如果要写入的对齐块与存储系统中已存储的块具有相同的签名,则所述对齐块被视为相同。因此,所述对齐块不会再次存储在存储系统中,并且在存储系统中仅保留与所述对齐块相同的块的指针。然而,固定大小重复数据删除表现出较低的重复数据删除率,这不符合期望。此外,只有在块相同的情况下,固定大小重复数据删除才能执行重复数据删除。因此,如果每个块中的数据相似但不相同,则固定大小重复数据删除将无法对块进行重复数据删除。例如,如果第一块和第二块相同,但第二块移位了某些字节,例如512字节,或者向第二块添加了插入开关,则固定大小重复数据删除无法将第二块识别为与第一块相同,因此,不能提供块的可靠的重复数据删除。此外,差分压缩通常也用于数据减少。差分压缩允许比固定大小重复数据删除更好的重复数据删除。然而,差分压缩需要大量的计算处理能力(例如,重度使用中央处理单元)来进行重复数据删除过程,因此增加了完成操作的时间且造成不必要的计算资源使用。
[0004]还有另一个技术问题是如何随机访问数据的分块。随机访问是指随机访问数据的能力,如果要随机访问信息,则随机访问比顺序访问更好地执行。通常,基于键值的存储将每个数据值与唯一的键关联。换句话说,基于键值的存储允许使用键访问特定数据。应用可以将任意数据存储为一组值,其中给定值(数据)可以由给定的键检索或存储。在一个示例中,当使用固定大小分块时,随机访问很容易,因为数据的键可能只是“file_ID”加上指定的偏移量。但是,当将文件分块为可变长度的片段时,由于可压缩数据填充,8KB固定大小的分块可能包括小于8KB的数据,并且由于如上所述的其它问题,例如字节移位和插入开关,复杂性增加,并且随机访问的准确性降低。此外,如果针对使用连续数据保护的重复数据删除实施可变大小重复数据删除技术,则连续数据保护会生成随机输入输出工作流,从而表
现出小的重复数据删除率。
[0005]因此,根据上述讨论,需要克服与用于连续数据保护中重复数据删除的传统系统、设备和方法相关的上述缺点。

技术实现思路

[0006]本专利技术寻求提供一种连续数据保护系统和一种用于在连续数据保护系统中存储数据的方法。本专利技术寻求提供一种较低的数据减少率的现有问题的解决方案,即如何进一步减少存储中的数据,以及如何在连续数据保护系统中将文件分块为可变长度分块的情况下随机访问数据分块。本专利技术的目的是提供一种至少部分克服现有技术中遇到的问题的解决方案,并且提供与传统系统相比,在连续数据保护系统中表现出改进的数据减少率和系统性能(即低计算资源使用)的改进的系统和方法。此外,本专利技术还提供了一种技术方案,即使在连续数据保护系统中将数据文件分块为可变长度分块的情况下,所述方案也能够有效且准确地随机访问数据分块。
[0007]本专利技术的目的是通过所附独立权利要求中提供的方案实现的。本专利技术的有利实现方式在从属权利要求中进一步定义。
[0008]在一方面,本专利技术提供了一种连续数据保护系统,所述连续数据保护系统包括:对象存储装置和文件系统,所述文件系统用于保存用于连续数据保护系统外部的保护卷的备份数据文件;控制单元,所述控制单元用于将输入数据集写入对象存储装置,以及从所述对象存储装置检索数据集并将数据集写入所述备份数据文件,所述备份数据文件被划分为两个或更多个初始可变大小分块,初始可变大小分块中的每个初始可变大小分块被划分为多个块,并且所述备份数据文件包括用于数据文件的元数据集,所述元数据集包括指示每个可变大小分块的大小的信息,所述数据文件还被划分为两个或更多个固定大小分块,独立于划分为可变大小分块,每个固定大小分块具有固定大小x,并且每个固定大小分块包括填充,所述填充定位在固定大小分块内和/或固定大小分块之后,以使得能够增加固定大小分块中的数据量。
[0009]本专利技术的连续数据保护系统能够实现改进的重复数据删除率,例如,对于数据文件中的数据的改进的重复数据删除率。所述连续数据保护系统利用可变长度重复数据删除机制,而不是固定大小重复数据删除机制,与传统的连续数据保护系统相比,这确保实现改进的重复数据删除率。本专利技术的连续数据保护系统将数据存储在备份数据文件中,所述备份数据文件被划分为两个或更多个初始可变大小分块。然后,初始可变大小分块中的每个初始可变大小分块被划分为多个块。数据文件的生成的元数据允许准确地对数据文件中的任何数据执行随机访问。此外,数据文件还被划分为两个或更多个固定大小的分块,每个分块被设计为在每次写入操作时保留数据的数据移动的空间。这防止了数据文件的不同分块之间的数据溢出,并允许分块中具有粒度(即,当新数据到达数据文件时,一个分块可以被重新分块,而不影响数据文件的任何其它部分或分块),从而消除了为后续写入操作重写整个数据文件的需要,同时改进了随机访问。
[0010]在一种实现方式中,控制单元还用于从对象存储装置读取数据集,并且使用如已经在连续数据保护系统中的备份数据文件的初始可变大小分块和固定大小分块将所述数据集写入备份数据文件,以及针对每个固定大小分块,定期读取固定大小分块,并且将所述
固定大小分块划分为独立于初始可变大小分块的新的可变大小分块。
[0011]所述控制单元读取固定大小分块,并定期重新分块可变大小分块。这改进了重复数据删除率,并且重复数据删除作为可变大小重复数据删除来实现。
[0012]在一种实现方式中,所述控制单元还用于定期从对象存储装置读取两个或更多个数据集并且通过以下步骤基于所述两个或更多个数据集将数据写入备份数据文件:基于写入主存储装置的两个或更多个数据集识别要改变的固定大小分块,并且通过使用独立于初始可变大小分块的可变大小分块重写固定大小分块来将所有改变应用于固定大小分块。
[0013]凭借基于两个或更多个数据集识别要改变的固定大小分块,允许实现对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种连续数据保护系统(100),所述连续数据保护系统(100)包括:对象存储装置(102)和文件系统(104),所述文件系统(104)用于保存用于所述连续数据保护系统(100)外部的保护卷的备份数据文件(108,402);控制单元(106),所述控制单元(106)用于将输入数据集写入所述对象存储装置(102),以及从所述对象存储装置(102)检索数据集并将所述数据集写入所述备份数据文件(108,402),其中,所述备份数据文件(108,402)被划分为两个或更多个初始可变大小分块,所述初始可变大小分块中的每个初始可变大小分块被划分为多个块,并且所述备份数据文件(108,402)包括用于数据文件的元数据集,所述元数据集包括指示每个可变大小分块的大小的信息,所述数据文件还被划分为两个或更多个固定大小分块,独立于划分为可变大小分块,每个固定大小分块具有固定大小x,并且每个固定大小分块包括填充,所述填充定位在所述固定大小分块内和/或所述固定大小分块之后,以使得能够增加所述固定大小分块中的数据量。2.根据权利要求1所述的连续数据保护系统(100),其特征在于,所述控制单元(106)还用于从所述对象存储装置(102)读取数据集,并且使用如已经在所述连续数据保护系统(100)中的备份数据文件(108,402)的所述初始可变大小分块和所述固定大小分块将所述数据集写入所述备份数据文件(108,402),以及针对每个固定大小分块,定期读取所述固定大小分块,并且将所述固定大小分块划分为独立于所述初始可变大小分块的新的可变大小分块。3.根据权利要求1所述的连续数据保护系统(100),其特征在于,所述控制单元(106)还用于定期从所述对象存储装置(102)读取两个或更多个数据集并且通过以下步骤基于所述两个或更多个数据集将数据写入所述备份数据文件(108,402):

基于写入主存储装置(204)的两个或更多个数据集识别要改变的固定大小分块,并且通过使用独立于所述初始可变大小分块的可变大小分块重写所述固定大小分块来将所有改变应用于所述固定大小分块。4.一种用于连续数据保护系统(100)的控制单元(106),所述连续数据保护系统(100)包括对象存储装置(102)和文件系统(104),所述文件系统(104)用于保存用于所述连续数据保护系统(100)外部的保护卷的备份数据文件(108,402),其中,所述备份数据文件(108,402)被划分为两个或更多个初始可变大小分块,所述初始可变大小分块中的每个初始可变大小分块被划分为多个块,并且所述备份数据文件(108,402)包括用于数据文件的元数据集,所述元数据集包括指示每个可变大小分块的大小的信息,所述数据文件还被划分为两个或更多个固定大小分块,独立于划分为可变大小分块,每个固定大小分块具有固定大小x,并且每个固定大小分块包括填充,所述填充定位在所述固定大小分块内和/或所述固定大小分块之后,以使得能够增加所述固定大小分块中的数据量,

所述控制单元(106)用于将输入数据集写入所述对象存储装置(102),以及从所述对象存储装置(102)检索数据集并将所述数据集写入所述备份数据文件(108,402)。5.根据权利要求4所述的控制单元(106),所述控制单元(106)还用于从所述对象存储装置(102)读取数据集,并且使用如已经在所述连续数据保护系统(100)中的备份数据文件(108,402)的所述初始可变大小分块和所述固定大小分块将所述数据集写入所述备份数据文件(108,402),以及针对每个固定大小分块,定期读取所述固定大小分块,并且将所述固
定大小分块划分为独立于所述初...

【专利技术属性】
技术研发人员:阿萨夫
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1