用于数据备份的方法和系统技术方案

技术编号:9667769 阅读:89 留言:0更新日期:2014-02-14 06:03
本发明专利技术涉及一种用于数据备份的方法和系统,所述方法包括:利用与原备份数据采用的分块方法相同的分块方法对现数据进行第一分块以得到当前块;计算当前块的哈希值;在原备份数据的哈希值表中获取其哈希值与计算出的当前块的哈希值相同的匹配块的标识符并将连续匹配块的数目加一。由于最大化利用了原备份数据与现数据的相关性,能够有效提高重复数据删除方法执行的性能。

【技术实现步骤摘要】
用于数据备份的方法和系统
本专利技术涉及计算机领域,更具体地,本专利技术涉及一种用于数据备份的方法和系统。
技术介绍
数据备份是将数据以某种方式加以保留,以便在系统遭受破坏或其他特定情况下,重新加以利用的一个过程。数据备份是存储领域的一个重要组成部分,其在存储系统中的地位和作用都是不容忽视的。并且对一个IT系统而言,备份工作也是其中必不可少的组成部分。因为它不仅可以防范意外事件的破坏,而且还能使历史数据以最佳方式保存归档,即它为历史数据进行历史数据查询、统计和分析,以及重要信息归档保存提供了可能。重复数据删除(De-duplication)技术通过删除数据集中重复的数据,只保留其中一份,从而消除冗余数据,是一种目前主流且非常热门的存储技术。通常情况下,由于原始数据中存在大量的重复数据,通过使用重复数据删除技术,可以得到用于存储的优化的数据,显然,用于存储的优化的数据需要的存储空间大大减少。重复数据删除技术目前大量应用于数据备份与归档系统,可以帮助应用程序降低数据存储量,节省网络带宽,提高存储效率,从而节省成本。重复数据删除技术的优劣衡量标准主要有两个,即重复数据删除率(de-duplicationratio)和删除方法执行的性能。重复数据删除率由数据自身的特征和应用模式所决定,而删除方法执行的性能取决于具体实现技术。现有的厂商已经提供可很多种重复数据删除的方法,例如定长分块方法,不定长分块方法等等,为了提高重复数据删除率或删除方法执行的性能,各个厂家都在不断研究新的重复数据删除方法和系统。
技术实现思路
本专利技术说明性实施例提供了一种能够提高删除方法执行的性能的数据备份的方法和系统。根据本专利技术的一个实施例,提供了一种用于数据备份的方法,其中存在原备份数据和需要备份的现数据,所述方法包括:利用与原备份数据采用的分块方法相同的分块方法对现数据进行第一分块以得到当前块;计算当前块的哈希值;以及在原备份数据的哈希值表中获取其哈希值与计算出的当前块的哈希值相同的匹配块的标识符并将连续匹配块的数目加一。根据本专利技术的另一个实施例,提供了一种用于数据备份的系统,其中存在原备份数据和需要备份的现数据,所述系统包括:分块单元,配置为利用与原备份数据采用的分块方法相同的分块方法对现数据进行第一分块以得到当前块;计算单元,配置为计算当前块的哈希值;以及获取单元,配置为在原备份数据的哈希值表中获取其哈希值与计算出的当前块的哈希值相同的匹配块的标识符并将连续匹配块的数目加一。根据本专利技术的一个实施例,还提供了用于数据备份的计算机程序产品。利用本专利技术的一个或多个上述实施例,由于最大化利用了原备份数据与现数据的相关性,能够有效提高重复数据删除方法执行的性能,进而提高数据备份的性能。附图说明通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。图1显示了适于用来实现本专利技术实施方式的示例性计算系统100的框图;图2a-2c显示了根据本专利技术一个或多个实施例的用于数据备份的方法200的流程图;图3显示了根据本专利技术一个或多个实施例的用于数据备份的系统300的框图。具体实施方式下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整的传达给本领域的技术人员。图1显示了适于用来实现本专利技术实施方式的示例性计算系统100的框图。如图1所示,计算机系统100可以包括:CPU(中央处理单元)101、RAM(随机存取存储器)102、ROM(只读存储器)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。在这些设备中,与系统总线104耦合的有CPU101、RAM102、ROM103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合,键盘111与键盘控制器106耦合,串行外部设备112与串行接口控制器107耦合,并行外部设备113与并行接口控制器108耦合,以及显示器114与显示控制器109耦合。应当理解,图1所述的结构框图仅仅是为了示例的目的,而不是对本专利技术范围的限制。在某些情况下,可以根据具体情况增加或减少某些设备。所属
的技术人员知道,本公开可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本公开还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本专利技术操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。下面将参照本专利技术实施例的方法、装置本文档来自技高网
...
用于数据备份的方法和系统

【技术保护点】
一种用于数据备份的方法,其中存在原备份数据和需要备份的现数据,所述方法包括:利用与原备份数据采用的分块方法相同的分块方法对现数据进行第一分块以得到当前块;计算当前块的哈希值;以及在原备份数据的哈希值表中获取其哈希值与计算出的当前块的哈希值相同的匹配块的标识符并将连续匹配块的数目加一。

【技术特征摘要】
1.一种用于数据备份的方法,其中存在原备份数据和需要备份的现数据,所述方法包括:利用与原备份数据采用的分块方法相同的分块方法对现数据进行第一分块以得到当前块;计算当前块的哈希值;在原备份数据的哈希值表中获取其哈希值与计算出的当前块的哈希值相同的匹配块的标识符并将连续匹配块的数目加一;判断连续匹配块的数目是否超过阈值并且,响应于超过阈值:获取匹配块的下一块的标识符对应的数据块的长度。2.根据权利要求1的方法,进一步包括:利用获取的匹配块的下一块的标识符对应的数据块的长度继续对现数据进行第三分块以得到新当前块;计算新当前块的哈希值;在原备份数据的哈希值表中获取匹配块的下一块的哈希值;比较新当前块的哈希值与匹配块的下一块的哈希值,并且:响应于新当前块的哈希值与匹配块的下一块的哈希值相同:将匹配块的下一块作为新匹配块;返回在原备份数据的哈希值表中获取匹配块的下一块的标识符;响应于新当前块的哈希值与匹配块的下一块的哈希值不同:将连续匹配块的数目清零;返回在原备份数据的哈希值表中获取其哈希值与计算出的当前块的哈希值相同的匹配块的标识符。3.根据权利要求1的方法,进一步包括:响应于判断未超过阈值:利用与原备份数据采用的分块方法相同的分块方法继续对现数据进行第二分块以得到新当前块;计算新当前块的哈希值。4.根据权利要求3的方法,进一步包括:在原备份数据的哈希值表中获取匹配块的下一块的哈希值;比较新当前块的哈希值与匹配块的下一块的哈希值,并且:响应于新当前块的哈希值与匹配块的下一块的哈希值相同:将连续匹配块的数目加一;将匹配块的下一块作为新匹配块;返回判断连续匹配块的数目是否超过阈值;响应于新当前块的哈希值与匹配块的下一块的哈希值不同:将连续匹配块的数目清零;返回在原备份数据的哈希值表中获取其哈希值与计算出的当前块的哈希值相同的匹配块的标识符。5.一种用于数据备份的系统,其中存在原备份数据和需要备份的现数据,所述系统包括:分块单元,配置为利用与原备份数据采用的分块方法相同的分块方法对现数据进行第一分块以得...

【专利技术属性】
技术研发人员:李玉猛李雅洁麦克西斯熊殷翔
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1