基于压缩比历史的数据复制制造技术

技术编号:15639028 阅读:119 留言:0更新日期:2017-06-15 20:56
提供了用于执行数据复制操作以将数据从第一数据处理系统复制到第二数据处理系统的机制。这些机制存储与将被复制的数据相关联的压缩比历史。压缩比历史存储用于一个或多个之前执行的数据复制操作的一个或多个压缩比。这些机制基于压缩比历史中的(多个)压缩比来确定数据压缩操作是否应当被应用到用于当前数据复制操作的数据。响应于确定数据压缩应当被应用到数据,数据压缩操作被执行并且压缩的数据被复制到第二数据处理系统。响应于确定数据压缩不应当被应用,数据没有压缩地被复制。

【技术实现步骤摘要】
基于压缩比历史的数据复制
本申请一般性地涉及改进的数据处理装置和方法,并且更具体地涉及用于基于压缩比历史执行高效数据复制的机制。
技术介绍
数据复制是在许多存储产品中实施以避免因程序错误、人为失误、或灾难事件引起的数据丢失的常用机制。通常,这样的数据复制定期地进行,诸如一天一次。在这种情况下,为了风险分散的目的,在生产场所处的源系统和在数据复制场所处的目标系统通常在物理上互相远离。源系统中的数据通过一个或多个计算机或数据通信网络被传送至目标系统,数据通信网络诸如广域网(WAN)(例如,互联网)和局域网(LAN)。在这种通过计算机或数据通信网络的复制中,通常还使用数据压缩来减小通过网络传送的数据的大小。这是因为,在许多情况下,网络代表整个复制过程的瓶颈,并且因此尽可能使通过网络的数据传送的量最小化并由此提高复制过程被执行的速度是有益的。具有压缩的数据复制机制的一个示例是“rsync”数据复制工具,其提供压缩选项来压缩通过网络传送的数据。rsync数据复制工具使用“zlib”,一种用于数据压缩的Linux库。从纽约阿蒙克的国际商用机器(IBM)公司可获得的IBMSONAS和IBMStorwizeV7000Unified使用rsync数据复制工具作为数据传送引擎以用于其数据复制功能。
技术实现思路
在一个说明性实施例中,提供了一种在第一数据处理系统中用于执行数据复制操作以将数据从第一数据处理系统复制到第二数据处理系统的方法。该方法包括:由第一数据处理系统存储与将被复制到第二数据处理系统的数据相关联的压缩比历史。压缩比历史存储用于至少一个之前执行的数据复制操作的至少一个压缩比。该方法进一步包括:由第一数据处理系统基于压缩比历史中的至少一个压缩比来确定数据压缩操作是否应当被应用到用于当前数据复制操作的数据。该方法还包括:响应于确定数据压缩应当被应用到数据,由数据处理系统对数据执行数据压缩操作并且执行当前数据复制操作以将压缩的数据复制到第二数据处理系统。另外,该方法包括:响应于确定数据压缩不应当被应用到数据,由数据处理系统执行当前数据复制操作以没有压缩地将数据复制到第二数据处理系统。在其他说明性实施例中,提供了一种包括计算机可用或可读介质的计算机程序产品,计算机可用或可读介质具有计算机可读程序。该计算机可读程序当在计算设备上被执行时使得计算设备执行上文关于方法的说明性实施例所概述的操作中的各种操作和组合。在又另一说明性实施例中,提供了一种系统/装置。该系统/装置可以包括一个或多个处理器以及与该一个或多个处理器耦合的存储器。该存储器可以包括指令,这些指令在由该一个或多个处理器执行时使得该一个或多个处理器执行上文关于方法的说明性实施例所概述的操作中的各种操作和组合。本专利技术的这些和其他特征和优点将在本专利技术的示例实施例的以下详细描述中被描述,或者将鉴于该描述对本领域的普通技术人员变得明显。附图说明本专利技术及其优选的使用模式以及进一步的目的和优点将在结合附图阅读时通过参考说明性实施例的以下详细描述最佳地被理解,在附图中:图1是说明性实施例的方面可以被实施在其中的分布式数据处理系统的示例图;图2是说明性实施例的方面可以被实施在其中的计算设备的示例框图;图3是图示了根据一个说明性实施例的用于执行数据复制操作的主要操作元件的示例功能框图;图4是概述了根据一个说明性实施例的用于执行数据复制的示例操作的流程图;以及图5是概述了根据另一说明性实施例的用于执行针对单个文件的数据复制操作的示例操作的流程图。具体实施方式说明性实施例提供了用于基于压缩比历史执行高效数据复制的机制。如上文所提到的,使用数据压缩的数据复制机制存在并且通常被使用。然而,在这种使用具有数据压缩的数据复制的系统中,即使数据压缩通过使需要被传送的数据的量以及执行数据复制过程的时间最小化来协助数据复制过程,但是有时候数据压缩不能良好地压缩数据。例如,已经被压缩的数据(例如,xxx.gz或xxx.zip类型文件)或已经被编码的图像/视频文件在许多情况下未被压缩非常多,即文件大小未减小或者仅略微减小。作为结果,执行数据压缩过程在时间和资源方面的成本可能超过从实现的压缩量获得的价值。因此,作为结果,如果文件大小没有明显地被数据压缩所影响,则有时候具有数据压缩的数据复制可能比没有数据压缩的数据复制花费更久来完成。因此,将有益的是,能够确定在数据复制期间数据压缩何时将有益于数据复制过程并且不会导致比没有数据压缩的数据复制花费更久的数据复制过程。然而,在没有首先压缩数据的情况下难以知道多少数据能够被压缩,因为压缩比取决于实际的数据模式(datapattern),即数据压缩的益处不能先验地被确定,而是仅能够通过执行数据压缩并查看通过执行数据压缩所获得的数据大小减小的量而被测定。说明性实施例提供了一种数据复制机制,其能够先验地确定数据压缩是否将改进数据复制过程,并且仅针对能够良好被压缩的文件应用数据压缩,并且凭借减少将通过数据通信网络传送的数据的量而导致数据复制过程中的改进,并且因此改进数据复制过程被执行的速度。一种选择将是具有如下文件类型的列表,针对这些文件类型,数据压缩不应当被执行作为数据复制过程的一部分。例如,使用具有压缩选项的rsync数据复制工具,文件扩展名(诸如.zip、.gz、.iso、.mp4等)的列表可以被提供,并且正被复制的文件可以将它的扩展名与该列表相比较以确定是否存在匹配。如果存在匹配,则数据复制可以被执行而无需执行数据压缩。如果不存在匹配,则数据压缩可以被应用作为数据复制过程的一部分。尽管这工作良好,但是这种技术受限于与扩展名在列表中的文件有关的有效操作。也就是说,有效性被文件扩展名列表的全面性所限制。换句话说,可能存在不同类型的文件,它们未在文件扩展名列表中被列出并且在数据压缩被应用时没有导致明显的数据大小减小。此外,可能存在如下的文件,它们不具有恰当的扩展名但实际上是.zip、.gz等类型的数据文件。在这种情况下,具有数据压缩的数据复制过程将把数据压缩应用到文件,因为它不包括恰当的扩展名,即使该文件已经被压缩并且将不会导致由于应用数据压缩作为数据复制过程的一部分所致的明显数据大小差异,即这将会花费另外的时间和资源而没有显著的有益结果。说明性实施例利用了一种机制,该机制基于与数据的一部分(为了解释的简便,在本文中被认为是“文件”)相关联的压缩比历史的存储。作为数据复制过程的一部分,如果文件被选择为利用数据压缩被传送,则文件的对应压缩比历史被更新以包括用于当前数据复制过程的压缩比,其中压缩比是压缩文件的大小与未压缩文件的大小的比率。与文件相关联的压缩比历史仅当文件实际上经受到数据压缩作为复制过程的一部分时被更新。因此,如果确定文件将没有压缩地被复制,则文件的关联压缩比历史不被更新。文件的压缩比历史可以存储在执行数据复制过程时作为所执行的数据压缩过程的一部分而针对该文件确定的一个或多个压缩比。因此,在一个说明性实施例中,压缩比历史可以仅存储最新的压缩比。在其他说明性实施例中,压缩比历史可以按先入先出(FIFO)方式存储n个压缩比M(n),其中M(0)存储上次使用数据压缩执行文件的数据复制的最为近期的压缩比,并且M(n-1)具有针对该文件的最旧的所存储的压缩本文档来自技高网...
基于压缩比历史的数据复制

【技术保护点】
一种在第一数据处理系统中用于执行数据复制操作以将数据从所述第一数据处理系统复制到第二数据处理系统的方法,所述方法包括:由所述第一数据处理系统存储与将被复制到所述第二数据处理系统的数据相关联的压缩比历史,其中所述压缩比历史存储用于至少一个之前执行的数据复制操作的至少一个压缩比;由所述第一数据处理系统基于所述压缩比历史中的所述至少一个压缩比来确定数据压缩操作是否应当被应用到用于当前数据复制操作的数据;响应于确定数据压缩应当被应用到所述数据,由所述数据处理系统对所述数据执行所述数据压缩操作并且执行所述当前数据复制操作以将压缩的数据复制到所述第二数据处理系统;以及响应于确定数据压缩不应当被应用到所述数据,由所述数据处理系统执行所述当前数据复制操作以没有压缩地将所述数据复制到所述第二数据处理系统。

【技术特征摘要】
2015.12.07 US 14/960,5571.一种在第一数据处理系统中用于执行数据复制操作以将数据从所述第一数据处理系统复制到第二数据处理系统的方法,所述方法包括:由所述第一数据处理系统存储与将被复制到所述第二数据处理系统的数据相关联的压缩比历史,其中所述压缩比历史存储用于至少一个之前执行的数据复制操作的至少一个压缩比;由所述第一数据处理系统基于所述压缩比历史中的所述至少一个压缩比来确定数据压缩操作是否应当被应用到用于当前数据复制操作的数据;响应于确定数据压缩应当被应用到所述数据,由所述数据处理系统对所述数据执行所述数据压缩操作并且执行所述当前数据复制操作以将压缩的数据复制到所述第二数据处理系统;以及响应于确定数据压缩不应当被应用到所述数据,由所述数据处理系统执行所述当前数据复制操作以没有压缩地将所述数据复制到所述第二数据处理系统。2.根据权利要求1所述的方法,进一步包括响应于确定数据压缩应当被应用到所述数据:计算用于所述数据压缩操作的当前压缩比;以及基于所述当前压缩比来更新压缩比历史数据结构。3.根据权利要求1所述的方法,其中所述压缩比历史仅存储针对最为近期地在之前执行的数据复制操作的用于所述数据的最为近期的压缩比。4.根据权利要求1所述的方法,其中所述压缩比历史存储基于对所述数据的多个之前执行的数据压缩操作所生成的用于所述数据的多个压缩比,所述多个之前执行的数据压缩操作是多个之前执行的数据复制操作的一部分。5.根据权利要求1所述的方法,其中所述数据为文件并且其中所述压缩比历史被存储为所述文件的扩展属性。6.根据权利要求5所述的方法,其中所述文件的所述扩展属性包括多个整数值,每个整数值与之前执行的数据复制操作相关联并且表示用于所述之前执行的数据复制操作的压缩比。7.根据权利要求1所述的方法,其中确定所述数据压缩操作是否应当被应用到用于所述当前数据复制操作的所述数据包括:将所述至少一个压缩比与门限值相比较,并且其中响应于所述至少一个压缩比与所述门限值具有预定关系而确定所述数据压缩操作应当被应用。8.根据权利要求1所述的方法,其中确定所述数据压缩操作是否应当被应用到用于所述当前数据复制操作的所述数据包括:基于所述至少一个压缩比来计算值;将所述值与门限值相比较;以及响应于所述值与所述门限值具有预定关系而确定所述数据压缩操作应当被应用到用于所述当前数据复制操作的所述数据。9.根据权利要求1所述的方法,进一步包括:与所述数据相关联地存储压缩比检查参数,所述压缩比检查参数指定用于所述数据的压缩比将被检查的日期和/或时间;以及响应于所述压缩比检查参数指示在当前日期和/或当前时间之前的日期和/或时间,确定所述数据压缩操作应当被应用到用于所述当前数据复制操作的所述数据。10.根据权利要求9所述的方法,其中所述压缩比检查参数基于函数被计算,所述函数响应于所述至少一个压缩比中的压缩比之间的差异相对恒定而生成与目前日期或时间相比的较大时间差异,并且其中所述函数响应于所述至少一个压缩比中的压缩比之间的差异相对不同而生成与所述目前日期或时间相比的较小时间差异。11.一种包括计算机可读存储介质的计算机程序产品,所述计算机可读存储介质具有存储在其中的计算机可读程序,其中所述计算机可读程序当在计算设备上被执行时使得所述计算设备:存储与将被复制到数据处理系统的数据相关联的压缩比历史,其中所述压缩比历史存储用于至少一个之前执行的数据复制操作的至少一个压缩比;基...

【专利技术属性】
技术研发人员:荒木博志S·M·R·伊斯拉姆三好浩之
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1