用于在不可信存储装置中进行差异去重的方法和系统制造方法及图纸

技术编号:38144520 阅读:11 留言:0更新日期:2023-07-08 10:01
本公开内容提供了一种用于对不可信存储装置中的数据块进行差异去重的方法和系统,所述方法和系统提高了在不可信存储装置处的去重率和压缩率。所公开的方法和系统利用可信服务器和包括计算机可读指令的计算机可读介质,计算机可读指令用于实现对不可信存储装置中的数据块进行差异去重的应用编程接口。所公开的方法和系统确定类似数据块中的用作参考数据块的第一数据块并且确定已识别的类似数据块中的使用参考数据块进行压缩的第二数据块,以实现数据块的差异去重。以实现数据块的差异去重。以实现数据块的差异去重。

【技术实现步骤摘要】
【国外来华专利技术】用于在不可信存储装置中进行差异去重的方法和系统


[0001]本公开内容大体涉及数据保护和备份领域,更具体地,涉及用于对不可信存储装置中的一个或更多个数据块进行差异去重的方法和系统。

技术介绍

[0002]通常,数据备份用于在主存储系统(例如服务器)中发生数据丢失事件时保护和恢复数据。数据丢失事件的示例可以包括但不限于数据损坏、主存储系统中的硬件或软件故障、数据意外删除、黑客攻击或恶意攻击。因此,出于安全原因,单独的备份系统或存储装置被广泛用于存储主存储系统中存在的数据备份。通常,随着时间的推移,由于数据变更或任何新数据会占用传统存储装置中的大量存储空间,存储装置的存储空间被占用。这是不可取的,因为它会导致存储系统性能下降。此外,数据存储成本以及包括存储硬件成本在内的所有相关成本仍然是负担。
[0003]通常,在许多情况下,例如在云环境中,存储装置可能不受信任(即,不可信存储装置)。在这种情况下,写入不可信存储装置的数据被加密。换言之,使用不可信存储装置时,如果在未经加密的情况下存储数据,则可能存在数据泄露的潜在风险。例如,任何第三方或不可信实体也能够读取不可信存储装置(例如,云环境)中的存储数据,因此,对存储在这种不可信存储装置中的数据进行加密,以减少数据安全方面的危害。然而,如果存储的数据为加密形式,这意味着数据无法进一步压缩,并且使用加密密钥会有限制,这又会限制此类常规存储系统(例如,不可信存储装置或备份系统)中的数据缩减量。此外,在此类传统系统中,存在数据去重的问题,因为只有在使用相同加密密钥的情况下才能对加密数据进行去重。
[0004]目前,存在可以用于数据缩减的许多技术,例如固定大小的数据去重。在固定大小的数据去重中,给定的存储装置被划分成固定大小对齐的块,例如大小为8KB或16KB。此外,为每个块计算强哈希签名。如果要写入存储装置的块与已写入块具有相同的哈希签名,则认为该块相同,因此仅使用指向该块的指针(或引用)。如果该块不相同,则在写入存储装置之前压缩该块的数据。通过这种方式,数据去重技术解决在存储装置中复制相同数据的问题。此外,目前,差异压缩用于数据缩减。差异压缩是指识别新数据块和先前存储的数据块之间的相似性,并且以压缩形式进一步存储仅不同的数据块。在示例中,为每个新数据块生成并存储相似性哈希值。此后,将新数据块的相似性哈希值与先前存储的数据块的相似性哈希值进行比较。因此,类似块被用作以压缩形式存储新块的参考。然而,除非存储装置与写入存储装置的服务器之间存在信任关系,否则传统技术不允许对已进行去重的数据进行任何压缩。因此,在传统技术中,加密数据的去重率和压缩率要低得多。因此,如何在不可信存储装置中缩减数据仍然是一个技术问题。
[0005]因此,根据上述讨论,需要克服上述与传统数据存储装置相关的缺点,即不允许在服务器和存储装置之间不存在相互信任关系的情况下对去重数据进行压缩。

技术实现思路

[0006]本公开内容旨在提供一种用于对不可信存储装置中的一个或更多个数据块进行差异去重的方法和系统。本公开内容旨在为现有问题提供一种解决方案,即如何在没有对去重数据进行压缩的情况下缩减不可信存储装置中的数据。本公开内容的目的是提供如下解决方案,该解决方案至少能够部分解决现有技术中遇到的问题并提供改进方法和系统,与传统系统相比,此类改进方法和系统通过执行差异去重在不可信存储装置处提供有效的数据存储,且具有相对较高的去重率和压缩率。
[0007]本公开内容的目标是通过所附独立权利要求中提供的解决方案来实现的。从属权利要求中进一步定义了本公开内容的有利实施方式。
[0008]在一方面,本公开内容提供了一种用于对不可信存储装置中的一个或更多个数据块进行差异去重的方法,该方法包括通过实现以下步骤来执行计算机可读指令:提供数据块的哈希值、一个或更多个相似性哈希值和加密密钥的KeyID;可信服务器对数据块执行第一次压缩和第一次加密;通过执行第一应用编程接口API(application programming interface,API)的写函数,将已压缩和加密的数据块从可信服务器发送至不可信存储装置;不可信存储装置识别存储的压缩和加密的数据块中具有相同相似性哈希值的类似数据块;通过执行第二应用编程接口API(application programming interface,API),可信服务器执行对来自不可信存储装置的类似数据块的请求;通过执行第二API的读函数,使类似数据块的向量从不可信存储装置返回可信服务器;可信服务器解密和解压接收的已压缩和加密的类似数据块;识别已解压的类似数据块之间的相似性;确定已识别的类似数据块中的要用作参考数据块的第一数据块并且确定已识别的类似数据块中的要使用参考数据块进行压缩的第二数据块;可信服务器执行第二次压缩,以通过使用参考数据块重新压缩第二数据块,并执行第二次加密以重新加密已重新压缩的数据块;通过执行第二API对不可信存储装置执行写函数,并将已重新加密的利用参考数据块压缩的第二数据块、第二数据块的哈希值、参考数据块的哈希值、第二数据块的加密密钥的KeyID、参考数据块的加密密钥的KeyID从可信服务器发送至所述不可信存储装置;在不可信存储装置中将第一次压缩和第一次加密的数据块替换为第二次压缩和第二次加密的数据块,并获得差异去重数据块。
[0009]本公开内容的方法使得改进在不可信存储装置中进行的数据去重。该方法识别可信服务器向不可信存储装置提供用于存储的数据块中的类似数据块(已存储在不可信存储装置中)。该方法通过使用类似数据块作为参考来压缩数据块,从而能够存储压缩形式的数据块。与无法在不可信存储装置中对已去重数据进行压缩的传统技术相比,即使在存储装置不受信任的情况下,也能够对已存储数据进行差异压缩和去重。因此,与传统方法相比,本公开内容的方法提高了去重率和压缩率。
[0010]在实施方式中,该方法还包括定义一组或更多组可信服务器,其中,一组或更多组可信服务器包括一个或更多个可信服务器。
[0011]对一组或更多组可信服务器中的每组可信服务器执行差异数据压缩和去重。因此,相对于已存储在不可信存储装置中的类似存储块,对给定一组可信服务器中的给定可信服务器存储的数据块进行压缩。
[0012]在另一实施方式中,该方法还包括通过以下方式对差异去重数据块进行解压:执行对差异去重数据块的解密,执行对已压缩的参考数据块的解密,执行对已解密的参考数
据块的解压,通过使用已解压的参考数据块执行对差异去重数据块的解压。
[0013]在需要时,对差异去重数据块进行解压以接收原始形式的数据,该数据已通过将类似数据块作为参考数据块以压缩形式存储。
[0014]在另一实施方式中,发送包括发送数据块的大小以及数据块的哈希值、相似性哈希值和加密密钥的KeyID。
[0015]数据块的大小、哈希值、相似性哈希值和加密密钥的KeyID使得不可信存储装置能够高效存储数据,从而在需要时能够高效检索数据。此外,相似性哈希值用于识别类似数据块,以执本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于对不可信存储装置(102,302,400)中的一个或更多个数据块(108)进行差异去重的方法(100A),所述方法(100A)包括通过实现以下步骤来执行计算机可读指令:提供数据块的哈希值、一个或更多个相似性哈希值和加密密钥的KeyID;可信服务器(104A)对所述数据块执行第一次压缩和第一次加密;通过执行第一应用编程接口API(106A)的写函数,将已压缩和加密的数据块从所述可信服务器(104A)发送至所述不可信存储装置(102,302,400);所述不可信存储装置(102,302,400)识别存储的已压缩和加密的数据块中具有相同相似性哈希值的类似数据块;通过执行第二应用编程接口API(106B),所述可信服务器(104A)执行对来自所述不可信存储装置(102,302,400)的类似数据块的请求;通过执行所述第二API的读函数,使所述类似数据块的向量从所述不可信存储装置(102,302,400)返回至所述可信服务器(104A);所述可信服务器(104A)解密和解压接收的已压缩和加密的类似数据块;识别已解压的类似数据块之间的相似性;确定已识别的类似数据块中的要用作参考数据块的第一数据块,并且确定所述已识别的类似数据块中的要使用所述参考数据块进行压缩的第二数据块;所述可信服务器(104A)执行第二次压缩,以通过使用所述参考数据块重新压缩所述第二数据块,并且执行第二次加密以重新加密已重新压缩的数据块;通过执行所述第二API对所述不可信存储装置(102,302,400)执行写函数,并且将已重新加密的利用所述参考数据块压缩的第二数据块、所述第二数据块的哈希值、所述参考数据块的哈希值、所述第二数据块的加密密钥的KeyID、所述参考数据块的加密密钥的KeyID从所述可信服务器(104A)发送至所述不可信存储装置(102,302,400);在所述不可信存储装置(102,302,400)中将所述第一次压缩和第一次加密的数据块替换为第二次压缩和第二次加密的数据块,并且获得差异去重数据块。2.根据权利要求1所述的方法(100A),其中,所述方法(100A)还包括定义一组或更多组可信服务器(104),其中,所述一组或更多组可信服务器(104)包括一个或更多个可信服务器(104A

104N)。3.根据权利要求1或2所述的方法(100A),其中,所述方法(100A)还包括通过以下操作对所述差异去重数据块进行解压:执行对所述差异去重数据块的解密,执行对已压缩的参考数据块的解密,执行对已解密的参考数据块的解压,通过使用已解压的参考数据块执行对所述差异去重数据块的解压。4.根据前述权利要求中任一项所述的方法(100A),其中,发送包括发送所述数据块的大小以及所述数据块的哈希值、相似性哈希值和加密密钥的KeyID。5.根据前述权利要求中任一项所述的方法(100A),其中,返回所述向量包括返回所述已压缩和加密的数据块的大小以及所述已压缩和加密的数据块的加密密钥的KeyID、哈希值、一个或更多个相似性哈希值。6.根据前述权利要求中任一项所述的方法(100A),其中,所述返回包括返回具有最大公共相似性哈希值的所述类似数据块。7.一种用于对不可信存储装置(102,302,400)中的一个或更多个数据块(108)进行差
异去重的可信服务器(104A),其中,所述可信服务器(104A)包括被配置成存储指令的存储器(208)和被配置成执行所述指令以进行下列操作的服务器处理器(210):实现第一应用编程接口(106A),用于在所述可信服务器(104A)与所述不可信存储装置(102,302,400)之间执行写函数和读函数;实现第二应用编程接口(106B),用于在所述可信服务器(104A)与所述不可信存储装置(102,30...

【专利技术属性】
技术研发人员:阿萨夫
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1