产生高可用性伪克隆备用服务器的方法和系统技术方案

技术编号:2850478 阅读:216 留言:0更新日期:2012-04-11 18:40
通过确定计算系统间最大公分母构件集,产生伪克隆配置定义,以及实现部分配置为目标计算系统的备份的一个或多个伪克隆计算系统来提供一个目标计算系统集的准克隆。当发生计划的故障转移、实际的故障、或对目标计算系统的隔离活动时,确定差异配置以完成伪克隆系统的供应以作为故障或被隔离系统的替换系统。故障预测可被用来恰好在任何目标系统的预期第一次故障之前实现伪克隆。按照需要,该系统还可以接口到一个随需应变供应管理系统,以使自动化工作流程自动地实现伪克隆和替换系统。

【技术实现步骤摘要】

本专利技术涉及在网络计算环境中为快速故障转移供应(rapidfailover provisioning)而产生备用服务器和准克隆(near clone)。
技术介绍
随着商业需求的增加,应对多处理的技术改进及其智能的深度变得非常需要和关键。在任何企业经营活动中,难以在最大化资源利用的同时有效地管理不断波动的可用资源。事实上,当保持足够的资源以满足峰值要求时,信息技术(″IT″)花费可以变得非常昂贵。更进一步地,通常要求用户输入以利于这样的处理,其引起在时间和人力资源双方面的额外费用。为解决这些需要,企业计算系统的许多大供应商,诸如国际商用机器公司(″IBM″)、微软公司、及Sun微系统公司(″Sun″)已开始开发和部署自我管理和自愈的基础设施技术。HP的自我管理计算结构被称为″公用计算″或″公用数据中心″,而Sun已将其创新起名为″N1″。IBM已将诸如″自主计算″、″网格计算″、及″随需应变计算″的术语应用于这一领域中其各种体系结构和研究项目。虽然每个供应商已宣布其方案和体系结构中的区别,然而均共有提供某种程度上自我管理和自愈的大规模计算系统的目标。例如,IBM的自主计算是一个以人体的自主神经系统为模式的自我管理计算模型,其在没有用户输入的情况下控制计算环境的应用程序和平台,类似于在没有有意识的判断的情况下人类的自主神经系统调节某些身体机能的方式。此外,IBM已将其随需应变计算技术定义为一个企业,其集成有整个公司端到端并且与关键合伙人、供应商和客户集成起来的业务过程可以快速地响应任何客户要求、市场机会或外部威胁。″供应″是用于描述管理计算环境的各个方面的术语,并且其常常暗指对于不同方面的不同事情。在整个公开内容中,我们将使用术语″供应″来表示实现一个计算环境以满足特定的需要和要求而需要以特定顺序发生的活动序列。该活动依赖于以前的活动,并且一般地包含(a)针对要求恰当地选择有能力的硬件,包含处理器速度、存储器、盘存储器等等;(b)安装操作系统;(c)远程引导网络;(d)配置诸如虚拟专用网(″VPN″)的网络以及类似存储区域网(″SAN″)或网络连接存储(″NAS″)的存储环境;以及(e)取消供应不再需要的资源回到可用池。大规模数据中心中的操作环境已变得愈加复杂。这些数据中心通常要求很长时间来修改其环境,因此针对最坏情况,大多数供应所配置的硬件常常比在经历峰值需要的情况下所需要的硬件更多。因而,大部分硬件和软件资源使用不足,显著地增大了系统的花费。更进一步地,超出已被供应的量的浪涌问题仍无法解决(举例来说,超过预期峰值负荷的峰值要求)。事实上,供应通常是由数以百计独特且复杂的步骤所组成的耗费时间和劳动力的过程,并且要求非常熟练的系统和网络管理员。例如,服务器供应是使服务器从″裸金属″到运行实际业务事务的状态的过程。在这一供应过程期间,许多问题可能出现,诸如资源费用的增加以及性能水平的下降,其可以导致顾客不满及服务不可用。因为这些是可预测的问题,可以采用自动化来管理这些问题。由主要供应商提供的各种自我管理计算系统的一个目标是使这些供应活动尽可能最大程度地自动化,并且尤其允许在很少或没有人类管理员介入下对系统需求及要求变化的准实时反应。例如,IBM的Tivoli[TM]供应管理器(″TPM″)快速供应是IBM Tivoli IntelligentOrchestrator产品的工作流程和脚本的模块化和灵活集合。设法加速其供应进程的客户已对工作流程进行概括和封装以便进行定制。在使其服务器供应过程和其他IT过程自动化中,它们能被用作为组织的起点。目前由主要供应商所提供的其他产品包括利用Radia(其为用于各种操作系统的基于策略的供应和工作自动化管理工具)的HP的OpenView操作系统管理器,并且Sun的N1网格服务供应系统在某种程度上使应用的供应自动化。″灾难恢复″是一个用于信息技术的广义的术语,意指在现有系统发生故障后使计算资源恢复联机所需的活动,不论其为诸如许多服务器当中单个重负荷服务器故障的小故障,还是诸如涉及整个电子计算中心掉电或通信中断的大故障均是如此。这类灾难可由组成部分的故障率(举例来说,硬件和软件故障)引起,也可由诸如自然灾害(举例来说,龙卷风、飓风、地震、洪水等等)的非计算因素及其他技术灾难(举例来说,断电、病毒攻击等等)引起。为从灾难中恢复,计算中心必须再供应新服务器和系统以替代由以前的系统正执行的处理。常常地,在不同的地理区域中执行恢复,但是有时在相同的物理或地理位置执行恢复,其取决于灾难或故障的性质。许多采用或依赖企业计算的企业都建立灾难恢复计划以便当情况出现时做较好的准备。然而,当前技术仅允许实现专用服务器。每一服务器通常都被指定用于一个目的或应用(举例来说,一种″解决方案″),不论其将满足新顾客需求(举例来说,″生产系统″),还是将被单独地用作在不久的将来可能崩溃的现存服务器的备份服务器。当这些专用服务器未使用时,总的IT维护费用会增加,而过剩资源保持闲置和未使用。重要的是要注意到为了在恢复期间节省关键时间,当服务器被配置为生产服务器的备份时,该备份服务器的配置通常与生产服务器的配置匹配,以使将备份服务器联机和运行不需要供应时间。即使有组织的供应允许实现不依赖于诸如IBM的z/OS主机操作系统、集群和地址的高可用性操作环境的新方法,灾难恢复的实现仍具有挑战性。当灾难发生时,该服务器将或者被重新安装,或者一旦其达到使用寿命的结束,其将被具有更多特性和更高可靠性的更新版本代替。在恢复和联机备份服务器的过程期间,当一个降级的或部分运行的生产服务器和一个新启动的备份服务器同时运行的期间内,常常出现网络问题,诸如网络协议(″IP″)地址冲突。进一步地,从一个故障的或降级的生产服务器中转移静态配置数据或动态状态数据到备份服务器也仍然是一个复杂和困难的过程。因而,一旦在生产环境中已部署了生产服务器,其通常被一直使用直到灾难发生,其再次重复供应过程,而其旧的实现中的问题仍未解决。转到图3,其中示出有关一个可用供应管理器如何管理应用集群(30)的逻辑视图。管理服务器(36)收集有关资源的信息,然后管理服务(37,37’,37′”)监视当前所运行或执行的任何过程。网络池(31)包括网络环境的诸如路由器、交换机、交换网和负载平衡器的构件。该应用池(32)典型地包括在该服务器上运行的第一层应用,例如数据库(举例来说,IBM DB2,Oracle等等),其在服务器平台套件(举例来说,IBM WebSphere或等效软件)的顶层上运行。应用资源池(33)是一组可以被供应(38)到活动应用池中的可用的、未被分配的、未被供应的服务器。后端资源池(34)包含应用池(32)所必需的任何备份服务器,例如另一个数据库服务器或网络服务器集合。后端池(35)用作已从后端资源池(34)供应(38′)的可用服务器的集合或组。因而,在灾难恢复期间,为了重建企业,也许不得不执行上述乏味和繁重的供应活动以实现从若干池中所选择出来的众多服务器和众多配置。业界中的另一个增长业务趋势是“子容量定价(sub-capacitypricing)”。子容量许可容许客户给在小于由计算平台的处理器数目所确定的总容量的水平使用的产品发出许本文档来自技高网...

【技术保护点】
一种用于提供多个目标计算系统配置的准克隆的方法,包括步骤:评价一组目标计算系统的每个的构件成分以确定所述组的目标计算系统中的最大公分母构件集;产生具有所述最大公分母构件集的伪克隆配置定义;以及将所述伪克隆配置定义输出 给供应管理系统,以用于随后伪克隆备份计算系统的实现。

【技术特征摘要】
US 2005-2-17 11/060,6061.一种用于提供多个目标计算系统配置的准克隆的方法,包括步骤评价一组目标计算系统的每个的构件成分以确定所述组的目标计算系统中的最大公分母构件集;产生具有所述最大公分母构件集的伪克隆配置定义;以及将所述伪克隆配置定义输出给供应管理系统,以用于随后伪克隆备份计算系统的实现。2.根据权利要求1的方法,进一步地包括通过根据所述伪克隆配置定义配置计算系统来实现伪克隆备份计算系统的步骤。3.根据权利要求2的方法,进一步地包括步骤确定所述伪克隆配置定义和所述计算系统组中目标计算系统的实际构件成分配置之间的差异配置;通过根据所述差异配置进一步地配置所述伪克隆备份计算系统来实现替换计算系统;以及将计算任务从所述目标计算系统转移到所述替换计算系统,从而减轻所述目标计算系统的计算任务。4.根据权利要求3的方法,其中响应从包含以下事件的组中选择的事件来执行所述确定差异配置、实现替换计算系统以及转移计算任务的步骤所述目标计算系统的故障,所述目标计算系统的按计划的停用,以及对所述目标计算系统的隔离活动。5.根据权利要求2的方法,进一步地包括步骤在执行所述实现伪克隆备份计算系统的步骤之前,对所述目标计算系统的所述构件成分执行故障预测分析,以确定第一次故障的预期时间;以及将所述实现所述伪克隆备份计算系统的步骤延迟至被投入服务的目标计算系统的最早时间开始的一个时间,该时间接近所述第一次故障的时间。6.根据权利要求5的方法,进一步地包括步骤监视所述目标计算系统的所述构件成分的实际故障率;维护所述故障的历史记录;以及修改所述故障分析以将所述第一次故障预期时间校正为接近所述实际故障率,使得所述延迟步骤更接近地代表所述构件成分的历史故障特性。7.根据权利要求5的方法,其中所述执行故障预测分析的步骤包括根据所述目标服务器的高可用性、低停机时间特性将所述目标服务器分组为子组,并且包括对每组具有类似特性的目标服务器执行故障预测分析。8.根据权利要求2的方法,进一步地包括步骤在执行所述产生伪克隆配置定义的步骤之前,对所述伪克隆配置的所述构件成分执行故障分析,以确定一潜在伪克隆系统的第一次故障的预期时间;以及如果所述第一次故障的预期时间小于作为备用服务器的伪克隆的目标操作持续时间,则修正所述伪克隆配置。9.根据权利要求1的方法,进一步地包括步骤确定一个或多个子集的目标计算系统,其比所述组的所有目标计算系统的所述最大公分母构件集具有更高程度的构件成分共同性;针对所述子集产生具有最大公分母构件集的一个或多个更高优先级伪克隆配置定义;以及将所述更高优先级伪克隆配置定义输出给...

【专利技术属性】
技术研发人员:劳林E乌尔曼维杰伊K阿加沃尔普图考德G拉马昌德拉克里斯多夫A皮特斯克莱格M劳顿约翰P怀特菲尔德
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1