协调分布式系统中的故障恢复技术方案

技术编号:12668030 阅读:87 留言:0更新日期:2016-01-07 12:25
在各实施例中,提供了用于在主机和租户之间协调分布式系统中的租户基础结构的故障恢复的方法和系统。为分布式系统中的租户基础结构确定故障发生。故障发生可以是支持租户的服务应用的租户基础结构的软件故障或硬件故障。故障恢复计划被传达给租户以通知租户故障发生以及所采取的还原租户基础结构的动作。确定是否从租户收到故障恢复计划响应;故障恢复计划响应是来自租户的对故障恢复计划的确收。在接收故障恢复计划响应之际或者在预定时限期满时执行故障恢复计划以还原租户基础结构。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】协调分布式系统中的故障恢复背景—般而言,分布式系统服务应用被主存在云计算系统中(跨各种节点),且主要旨在共享资源以在共享服务的融合的基础结构中实现高效率。分布式系统基础结构与租户相关联。租户指消费者/公司(例如,服务应用的所有者)和/或与消费者/公司相关联的服务应用组件(例如,租户基础结构或承租者)。服务应用常常被分成包括一组包括一个或多个数据中心的诸节点(例如,物理机器和虚拟机器)的服务应用组件的诸部分。不可避免地,服务应用的一个或多个实例的服务应用组件故障且需要故障恢复动作来还原服务应用组件。通常,主机一服务应用分布式系统的提供者一采取影响租户的故障恢复动作。对租户的影响可以包括对服务应用的不期望的中断等,因为没有在主机和租户之间智能地传达或协调故障及后续的主机故障恢复动作。
技术实现思路
提供本
技术实现思路
以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。该
技术实现思路
不旨在标识所要求保护的主题的关键特征或本质特征,也不旨在独立地用于帮助确定所要求保护的主题的范围。本专利技术的各实施例提供了一种用于协调分布式系统中的租户基础结构的故障恢复的方法。为分布式系统中的租户基础结构确定故障发生。故障发生可以是支持租户的服务应用的租户基础结构的软件故障或硬件故障。故障恢复计划被传达给租户以通知租户故障发生以及所采取的还原租户基础结构的动作。确定是否从租户收到故障恢复计划响应。故障恢复计划响应是来自租户的对故障恢复计划的确收。在接收故障恢复计划响应之际或者在预定时限期满时执行故障恢复计划以还原租户基础结构。附图简述下面参考附图详细描述本专利技术,其中:图1是适用于在实现本专利技术的各实施例中使用的示例性计算环境的框图;图2是其中可以采用本专利技术各实施例的示例性网络环境的框图;图3是根据本专利技术的各实施例的示出用于协调分布式系统中的租户基础结构的故障恢复的方法的示意图;图4是根据本专利技术的各实施例的示出用于协调分布式系统中的租户基础结构的故障恢复的方法的流程图;以及图5是根据本专利技术的各实施例的示出用于协调分布式系统中的租户基础结构的故障恢复的方法的流程图。详细描述本文中用细节来描述本专利技术各实施例的主题以满足法定要求。然而,该描述本身并非旨在限制本专利的范围。相反,专利技术人已设想所要求保护的主题还可结合其它当前或未来技术以其它方式来实施,以包括不同的步骤或类似于本文中所述步骤的步骤组合。此夕卜,尽管术语“步骤“和/或“框”可在此处用于指示所采用的方法的不同元素,但除非而且仅当明确描述了各个步骤的顺序时,该术语不应被解释为意味着此处公开的各个步骤之中或之间的任何特定顺序。出于本公开的目的,单词“包括”(including)具有与单词“包含” (comprising) —样广义的含义。另外,诸如“一(a)”和“一(an)”包括复数以及单数,除非另外相反地指明。由此,例如,“一特征”满足存在一个或多个特征的情况。同样,术语“或”(or)包括合取、析取及这两者(a或b由此包括a或b任一,以及a和b)。为了以下详细讨论的目的,参考具有在服务应用组件上运行的服务应用的云计算分布式系统来描述本专利技术的各实施例。此外,尽管本专利技术的各实施例一般涉及本文中所述的各组件,但是应当理解所述技术的实现可以扩展到执行本文中所述各步骤的其他组件。通常,分布式系统(例如,云计算分布式系统)用于以分布式的方式来存储数据或运行服务应用。例如,云计算分布式系统的服务应用组件(例如租户基础结构或承租者)可包括被分配用以运行租户服务应用的一个或多个部分的节点(例如,计算设备、处理单元或服务器机架中的刀片)。在支持每个服务应用特有的资源和/或操作系统的个别化的计算环境中,当多于一个的分开的服务应用被节点支持时,节点可被划分成各自并发运行所述分开的服务应用的虚拟机或物理机。此外,每个服务应用可被划分成功能部分,以使得每个功能部分能够在分开的虚拟机上运行。一般地,“角色”提供服务应用的功能部分的模板描述。角色通过指示以下内容来描述:执行该角色的计算机代码、主控环境内该角色所需的条件、被应用到该角色的配置设置,以及角色的用于与其它角色进行通信的端点组、元素等。在一个实例中,角色的配置设置可包括由该角色的所有实例共享的集体设置或为该角色的每一实例所特有的个别设置。在各实施例中,服务模型被用于确定哪些属性或哪组属性要被从服务应用的角色的实例中传达。如此处所使用的,短语“服务模型”不旨在限制,其一般指包括与建立和管理数据中心内的服务应用的实例有关的信息的任何通信。一般而言,服务模型是提供用于管理服务应用的组件程序的指令的接口蓝图。在部署到遍及分布式系统的各分布位置之际,服务模型用于在协调所部署的服务应用和服务应用组件之间的活动中引导结构控制器。结构控制器一般负责围绕以下的各种职责:监视、维护和管理计算机资源、网络设备、串行设备和支持结构的底层功能性的功率单元的健康。服务模型包括对要建立服务应用的哪些角色以及如何在数据中心内安装和启动每个角色的实例的描述。即,服务模型用作对可为服务应用运行哪些角色的阐述,以及可通过云计算分布式系统在何处安装角色实例的条件。虽然已经描述了各种不同的类型的云配置,但是本领域的普通技术人员应当理解和了解的是,可使用云计算分布式系统的其它合适的结构,并且本专利技术的各实施例不受限于本文中所述的跨虚拟机的那些分布式服务应用。云计算分布式系统提供以供在可接入因特网的数据中心内的机器上运行服务应用和存储数据。遍历主机(例如,云计算系统)的云计算分布式系统(例如,WINDOWS AZURE云计算分布式系统)可以提供用于在云中运行和存储数据的平台。针对租户(例如,消费者或公司)的服务应用的实现可以是模型环境或配置为服务模型的定制环境。无论是实现为模型环境还是实现为定制环境,云计算分布式系统都包括一个或多个角色,从而一般运行每个角色的多个实例,使用跨各角色实例的负载平衡。服务应用的服务应用组件(例如,租户基础结构)可以被不时地升级,这可以基于与更新策略的服务水平协议或者主机和租户之间达成的更新策略来执行。例如,更新可以跨数个角色被逐片段地执行以维持服务应用的高可用性。与计划的活动(诸如更新)相反,云计算分布式系统中的故障是意外且不可预测的,因此需要故障恢复动作来还原服务应用。例如,故障可以是必须要修复服务应用节点的硬件故障或者必须要重新引导虚拟机的软件故障。一般而言,本专利技术的各实施例将分布式系统中的技术引入分布式系统中的自动协调故障恢复。分布式系统不旨在受限于服务应用组件的任何特定配置,而是泛指设备的任何汇编(例如,网络设备、计算设备以及可以集成在结构中的电源设备)。例如,分布式系统可以被置位于由主机管理的数据中心内,在此实现故障恢复过程允许使用分布式系统来还原租户的服务应用。在另一个实例中,跨公共云网络和私有云网络配置分布式系统,并且统跨公共云网络和私有云网络协调故障恢复动作。在又一个实现中,分布式系统可以被置位于由支持企业网络的内部消费者的分布式系统的管理者管理的专用企业网络内,在此实现故障恢复过程允许在管理者和内部消费者之间协调故障恢复动作。故障恢复过程的故障恢复动作的协调计及故障恢复中的租户考虑。例如,由于故障恢复动作和该动作的影响可以被本文档来自技高网...
协调分布式系统中的故障恢复

【技术保护点】
存储计算机可使用指令的一个或多个计算机可读介质,所述指令在由一个或多个计算设备执行时致使所述一个或多个计算设备执行一种用于协调分布式系统中的租户基础结构的故障恢复的方法,所述方法包括:确定所述分布式系统中的租户基础结构的故障发生;传达故障恢复计划以通知租户;确定所述故障恢复计划响应是否被收到,其中所述故障恢复计划响应是来自所述租户的对所述故障恢复计划的确收;以及执行所述故障恢复计划以还原所述租户基础结构。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:P·T·内格沙拉奥M·里兹维S·P·里瓦斯卡C·P·阿尔米达A·M·H·哈萨恩A·玛尼W·拉菲克
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1