用于有效地备份大数据集的系统和方法技术方案

技术编号:33121987 阅读:16 留言:0更新日期:2022-04-17 00:25
本发明专利技术公开了一种用于有效地备份大数据集的计算机实现的方法,该方法可包括:(i)识别应用程序服务器上的待由去重服务器去重并且然后存储在备份服务器上的数据,(ii)将这些数据划分为子集,以及(iii)针对初始数据子集之后的每个数据子集,(a)响应于检测到先前数据子集已完成传送到该去重服务器而将该数据子集传送到该去重服务器,(b)响应于检测到该先前数据子集已完成去重而对该数据子集进行去重,以及(c)响应于检测到该数据子集已完成去重并且该先前数据子集已完成传送到该备份服务器而将该数据子集的去重版本传送到该备份服务器。本发明专利技术还公开了各种其他方法、系统和计算机可读介质。计算机可读介质。计算机可读介质。

【技术实现步骤摘要】
【国外来华专利技术】用于有效地备份大数据集的系统和方法

技术介绍

[0001]在一个不断互联互通的时代,无法有效地创建并保持重要数据的备份可能责任重大。计算设备易于出现各种临时和致命错误,并且甚至数据或服务的临时丢失可对企业极具破坏力。从备份中快速恢复系统的能力对于希望保持一致服务的企业至关重要。同样重要的是快速创建备份的能力。需要大量时间来创建的备份不太可能被频繁地更新,从而在备份之间发生故障的情形下导致潜在数据丢失。另外,可创建备份的效率越高,组织需要致力于创建备份的资源就越少。
[0002]最小化由备份所占有的存储空间也是重要的。用于创建备份的许多传统系统涉及去重,即,(通常出于复原目的而被创建的)重复数据在存储之前从数据集消除,从而减少存储数据集所需的存储空间的过程。然而,传统系统在去重过程中的各个点处可为低效的,从而增加了创建备份所需的时间和/或资源。因此,本公开确定并解决了对用于有效地备份大数据集的另外和改进的系统和方法的需要。

技术实现思路

[0003]如将在下文更详细地描述,本公开整体涉及用于通过将数据分段并使用管道来处置传送、处理并存储数据,同时最小化系统资源空闲的时间来有效地备份大数据集的系统和方法。
[0004]在一个示例中,一种用于有效地备份大数据集的计算机实现的方法可包括:(i)识别应用程序服务器上的待由去重服务器去重并且存储在备份服务器上的数据集合,(ii)将应用程序服务器上的数据集合划分为一组数据子集,以及(iii)针对初始数据子集之后的每个数据子集,(a)响应于检测到先前数据子集已完成传送到去重服务器而将数据子集传送到去重服务器,(b)响应于检测到先前数据子集已由去重服务器完成去重而由去重服务器对数据子集进行去重,以及(b、)响应于检测到数据子集已完成去重并且先前数据子集已完成传送到备份服务器而将数据子集的去重版本传送到备份服务器。
[0005]在一些示例中,将应用程序服务器上的数据集合划分为数据子集可包括:划分数据集合,使得每个子集是独立于每个其他子集经受去重的独特数据集。附加地或另选地,将应用程序服务器上的数据集合划分为数据子集可包括:划分数据集合,使得每个子集所占据的存储区中的空间小于去重服务器上可用的存储区中的空间的量。
[0006]在一个实施方案中,数据集合可包括应用程序服务器上的数据库的列集合。在一些实施方案中,应用程序服务器可包括应用程序服务器的集群。在一个实施方案中,去重服务器可包括去重服务器的集群。
[0007]在一些示例中,与去重服务器相比应用程序服务器可具有更大存储量。在一个实施方案中,去重服务器所具有的存储区可不足以存储来自应用程序服务器的数据集合。
[0008]在一个实施方案中,一种用于实现上述方法的系统可包括:(i)识别模块,该识别模块存储在存储器中,该识别模块识别应用程序服务器上的待由去重服务器去重并且存储在备份服务器上的数据集合;(ii)划分模块,该划分模块存储在存储器中,该划分模块将应
用程序服务器上的数据集合划分为一组数据子集;(iii)传送模块,该传送模块存储在存储器中,该传送模块针对初始数据子集之后的每个数据子集,响应于检测到先前数据子集已完成传送到去重服务器而将数据子集传送到去重服务器;(iv)去重模块,该去重模块存储在存储器中,该去重模块针对初始数据子集之后的每个数据子集,响应于检测到先前数据子集已由去重服务器完成去重而由去重服务器对数据子集进行去重;(v)存储模块,该存储模块存储在存储器中,该存储模块针对初始数据子集之后的每个数据子集,响应于检测到数据子集已完成去重并且先前数据子集已完成传送到备份服务器而将数据子集的去重版本传送到备份服务器;以及(vii)至少一个物理处理器,该至少一个物理处理器执行识别模块、划分模块、传送模块、去重模块以及存储模块。
[0009]在一些示例中,上述方法可被编码为非暂态计算机可读介质上的计算机可读指令。例如,一种计算机可读介质可包括一个或多个计算机可执行指令,该一个或多个计算机可执行指令当由计算设备的至少一个处理器执行时可使计算设备:(i)识别应用程序服务器上的待由去重服务器去重并且存储在备份服务器上的数据集合;(ii)将应用程序服务器上的数据集合划分为一组数据子集;(iii)针对初始数据子集之后的每个数据子集,(iv)响应于检测到先前数据子集已完成传送到去重服务器而将数据子集传送到去重服务器;(v)响应于检测到先前数据子集已由去重服务器完成去重而由去重服务器对数据子集进行去重;以及(vi)响应于检测到数据子集已完成去重并且先前数据子集已完成传送到备份服务器而将数据子集的去重版本传送到备份服务器。
[0010]来自本文所述的实施方案中的任一者的特征可根据本文所述的一般原理彼此结合使用。在结合附图和权利要求阅读以下详细描述后,将更全面地理解这些以及其他实施方案、特征和优点。
附图说明
[0011]附图示出多个示例性实施方案,并且是说明书的一部分。这些附图与以下描述一起展示并说明本公开的各种原理。
[0012]图1是用于有效地备份大数据集的示例性系统的框图。
[0013]图2是用于有效地备份大数据集的另外的示例性系统的框图。
[0014]图3是用于有效地备份大数据集的示例性方法的流程图。
[0015]图4是用于利用多个服务器有效地备份大数据集的示例性系统的框图。
[0016]图5是用于有效地备份大数据集的示例性系统的图。
[0017]在整个附图中,相同的参考字符和描述指示类似但未必相同的元件。虽然本文所述的示例性实施方案易存在各种修改形式和另选形式,但是附图中以举例的方式示出了具体实施方案,这些实施方案将在本文中详细描述。然而,本文所述的示例性实施方案并非旨在限于所公开的特定形式。相反,本公开涵盖落在所附权利要求范围内的所有修改形式、等同形式和替代形式。
具体实施方式
[0018]本公开整体涉及用于有效地备份大数据集的系统和方法。如将在下文更详细地解释,本文描述的系统和方法可通过减少各种系统资源上的空闲时间和/或提高将数据从生
产数据处理为备份的速度来改进去重和备份系统的功能。在一些示例中,通过将数据分段并且然后用管道输送数据,本文描述的系统可增加占用系统资源的时间百分比,从而减少将多个数据分段传送到去重服务器,对数据进行去重并且然后将去重数据传送到备份服务器所需的总体时间。此外,本文描述的系统和方法可改进被配置为通过提高资源利用率来创建备份的服务器的功能和/或性能。这些系统和方法还可通过提供更快的备份操作来改进备份系统的字段。
[0019]以下将参考图1、图2和图4提供用于有效地备份大数据集的示例性系统的详细描述。还将结合图3和图5提供对应的计算机实现的方法的详细描述。
[0020]图1是用于有效地备份大数据集的示例性系统100的框图。如该图所示,示例性系统100可包括存储在存储器140中用于执行一个或多个任务的一个或多个模块102。例如,并且如将在下文更详细地解释,示例性系统100可包括识别模块1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于有效地备份大数据集的计算机实现的方法,所述方法的至少一部分由包括至少一个处理器的计算设备执行,所述方法包括:识别应用程序服务器上的待由去重服务器去重并且存储在备份服务器上的数据集合;将所述应用程序服务器上的所述数据集合划分为多个数据子集;以及针对初始数据子集之后的每个数据子集:响应于检测到先前数据子集已完成传送到所述去重服务器而将所述数据子集传送到所述去重服务器;响应于检测到所述先前数据子集已由所述去重服务器完成去重而由所述去重服务器对所述数据子集进行去重;以及响应于检测到所述数据子集已完成去重并且所述先前数据子集已完成传送到所述备份服务器而将所述数据子集的去重版本传送到所述备份服务器。2.根据权利要求1所述的计算机实现的方法,其中将所述应用程序服务器上的所述数据集合划分为所述多个数据子集包括:划分所述数据集合,使得每个子集是独立于每个其他子集经受去重的独特数据集。3.根据权利要求1所述的计算机实现的方法,其中将所述应用程序服务器上的所述数据集合划分为所述多个数据子集包括:划分所述数据集合,使得每个子集所占据的存储区中的空间小于所述去重服务器上可用的存储区中的空间的量。4.根据权利要求1所述的计算机实现的方法,其中所述数据集合包括所述应用程序服务器上的数据库的列集合。5.根据权利要求1所述的计算机实现的方法,其中所述应用程序服务器包括应用程序服务器的集群。6.根据权利要求1所述的计算机实现的方法,其中所述去重服务器包括去重服务器的集群。7.根据权利要求1所述的计算机实现的方法,其中与所述去重服务器相比所述应用程序服务器包括更大存储量。8.根据权利要求1所述的计算机实现的方法,其中所述去重服务器所包括的存储区不足以存储来自所述应用程序服务器的所述数据集合。9.一种用于有效地备份大数据集的系统,所述系统包括:识别模块,所述识别模块存储在存储器中,所述识别模块识别应用程序服务器上的待由去重服务器去重并且存储在备份服务器上的数据集合;划分模块,所述划分模块存储在存储器中,所述划分模块将所述应用程序服务器上的所述数据集合划分为多个数据子集;传送模块,所述传送模块存储在存储器中,所述传送模块针对初始数据子集之后的每个数据子集,响应于检测到先前数据子集已完成传送到所述去重服务器而将所述数据子集传送到所述去重服务器;去重模块,所述去重模块存储在存储器中,所述去重模块针对所述初始数据子集之后的每个数据子集,响应于检测到所述先前数据子集已由所述去重服务器完成去重而由所述去重服务器对所述数据子集进行去重;存储模块,所述存储模块存储在存储器中,所述存储模块针对所述初始数据子集之后
的每个数据子集,响应于检测到所述数据子集已完成去重并且所述先前数据子集已完成传送到所述...

【专利技术属性】
技术研发人员:V
申请(专利权)人:华睿泰科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1