用于硬件故障修复的基础设施管理系统技术方案

技术编号:18737565 阅读:21 留言:0更新日期:2018-08-22 05:52
在实施例中,提供了用于实现支持硬件故障修复的基础设施管理系统的方法和系统。确定硬件组件的故障已经发生。硬件组件是硬件组合件的一部分。访问硬件组合件的修复属性。修复属性指示硬件组合件的最小操作限制。最小操作限制基于健康度量或硬件组合件的可选组件和必需组件。该限制支持确定硬件组合件是否应当以降级状态操作。确定硬件组合件在没有已经故障的硬件组件的情况下进行操作满足硬件组合件的最小操作限制。硬件组合件以降级状态的操作被发起。在实施例中,硬件管理器与降级状态配置相关联以促进以降级状态操作硬件组合件。

【技术实现步骤摘要】
【国外来华专利技术】用于硬件故障修复的基础设施管理系统
技术介绍
大规模网络化系统是在用于运行应用和维护商业和操作功能的数据的各种设置中采用的普通平台。例如,数据中心(例如,物理云计算平台)可以同时为多个客户提供各种服务(例如,网络应用、电子邮件服务、搜索引擎服务等)。这些大规模网络化系统通常包括分布在整个数据中心的大量资源,其中每个资源都类似于在物理节点或主机上运行的物理机器或虚拟机(VM)。数据中心在可能偶尔发生故障硬件组件上运行。在某些情况下,可以轻松地更换故障硬件组件。然而,在其他情况下,硬件组件不能立即更换。因此,用于配置和实现使数据中心硬件组件以及故障数据中心硬件组件运行(至少暂时)的全面系统可以改善整个数据中心硬件操作和分布式硬件管理以满足确定的目标。
技术实现思路
本文中描述的实施例提供了用于实现支持硬件故障修复的基础设施管理系统的方法和系统。基础设施管理系统可以基于基础设施管理系统平台来实现,该基础设施管理系统平台包括可操作地集成的组件,以减少分布式计算系统的硬件基础设施中的故障硬件的影响。基础设施管理系统支持如下的配置模式,该配置模式可以帮助定义针对硬件的配置文件。配置模式可以是用于表示或定义计算基础设施中的硬件的配置属性的数据结构。配置模式具体包括硬件的健康模型。健康模型是硬件的计算条件的技术表示。硬件的配置模式和健康模型可以被定义在配置文件中。健康模型进一步基于健康度量或与硬件相关的可选组件和必需组件来定义硬件的最小操作限制。最小操作限制被用作一个阈值,该阈值用于允许硬件以降级状态操作而不是使硬件完全失效。在这方面,基础设施管理系统提高了硬件的利用率,这体现在于:在修复或更换硬件之前,以其他方式将被指定为故障的硬件将被允许在降级状态下操作。在操作中,确定硬件组件的故障已经发生。硬件组件是硬件组合件的一部分。硬件组合件的修复属性被访问。修复属性指示硬件组合件的最小操作限制。最小操作限制可以基于健康度量或硬件组合件的可选组件和必需组件。最小操作限制支持确定硬件组合件是否应当以降级状态进行操作。确定硬件组合件在没有已经故障的硬件组件的情况下进行操作仍然满足硬件组合件的最小操作限制。硬件组合件以降级状态的操作被发起。降级状态包括硬件组合件在没有硬件组件的情况下进行操作。在实施例中,硬件管理器(例如,操作系统和退货授权)与降级状态配置相关联以促进发起操作,以降级状态操作和修复硬件组合件。在预期到降级状态的情况下,可以定义降级状态配置以支持以降级状态运行的硬件组合件的硬件组合件操作和基础设施管理操作。提供
技术实现思路
部分是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本
技术实现思路
无意确定所要求保护的主题的关键特征或基本特征,也无意孤立地用作确定所要求保护的主题的范围的辅助手段。附图说明以下参考附图详细描述本专利技术,在附图中:图1是采用本文中描述的实施例可以被实现在其中的示例性分布式计算基础设施环境的框图;图2A和图2B是根据本文中描述的实施例的用于硬件故障修复的基础设施管理系统的示例性实现的框图;图3是根据本文中描述的实施例的用于硬件故障修复的基础设施管理系统的示例性实现的框图;图4是示出根据本文中描述的实施例的用于实现用于硬件故障修复的基础设施管理系统的示例性方法的流程图;图5是示出根据本文中描述的实施例的用于实现用于硬件故障修复的基础设施管理系统的示例性方法的流程图;图6是适用于实现本文中描述的实施例的示例性计算环境的框图;以及图7是适用于实现本文中描述的实施例的示例性分布式计算系统的框图。具体实施方式边缘计算通常是指将计算应用、数据和服务的边界从集中式节点推出到网络的逻辑末端。这样,云计算网络服务提供商的分布式计算系统可以包括支持分布式计算系统的地理上分散的顾客的边缘基础设施。边缘基础设施可以基于分布式计算系统中已标识的流量和使用模式来具体地部署。在这方面,客户端设备可以从边缘基础设施的中央基础设施访问分布式计算系统。边缘基础设施可以包括数据中心机架中的硬件或硬件组合件,这些数据中心机架尽可能靠近顾客而边缘基础设施不是集中式的。如本文中可互换地使用的,短语和术语“硬件组合件”、“硬件清单”或“硬件”并不表示限于任何特定配置的组件,而是广义地指代可以集成在分布式计算基础设施内的机架中的任何单个设备、设备汇集(例如,网络设备、计算设备和电源设备)及其组件。硬件组合件、硬件清单或硬件可以包括可以参考本文中描述的功能而独立地被定义或配置为硬件的个体硬件组件。尽管通过示例的方式描述了本文中的实施例中的边缘基础设施以及其中特定的一些挑战,但是可以设想,所描述的方法和系统可以在具有硬件的其他类型的基础设施中实现。在一个实例中,硬件可以位于由云计算网络服务提供商的客户管理的私有企业网络内。在另一示例中,硬件可以位于由云计算网络服务提供商管理的数据中心内。在云计算网络服务提供商的合作伙伴位置内的边缘基础设施可以在解决边缘基础设施中的硬件故障时提出挑战。位于合作伙伴位置内的边缘基础设施可以针对硬件的访问、控制和操作标准具有不同的策略。因此,与由云计算网络服务提供商完全拥有和/或操作的基础设施相比,硬件故障可能不会立即得到解决。故障边缘基础设施硬件的修复时间表可能只能临时执行,和/或可能会延迟几个月。结果就限制了在技术人员执行修复之前被标记为不健康(即,失败)并且置于脱机状态的硬件的最大数目。边缘基础设施硬件也经常具有有限的备份硬件,导致边缘基础设施中出现故障的硬件的影响非常大。例如,当若干机器出现故障并且处于脱机状态时,在边缘基础设施中进行工作负载的负载均衡将会困难得多。用于解决硬件故障的常规方法基于立即移除、替换或修复硬件或硬件组合组件。这种硬件故障策略主要基于云计算网络服务提供商全资拥有和控制的数据中心中的大量硬件或立即访问数据中心的能力。然而,这种解决方案可能并不总是可行的,相比之下,替代解决方案可能在某些情况下更有效率。此外,随着边缘基础设施的实现越来越多,以批量方式立即移除、替换或修复硬件的标准硬件故障策略可能无法忍受,并且需要一种替代方法。本文中描述的实施例涉及用于实现支持硬件故障修复的基础设施管理系统的简单且高效的方法、系统和计算机存储介质。在高层次,监测、降级状态供应和退货授权(RMA)系统、过程和组件被配置以支持硬件故障修复。硬件故障修复允许硬件组合件以降级状态进行操作,在降级状态下,硬件组合件中的健康硬件组件与硬件组合件中的故障硬件组件一起操作。基础设施管理系统支持如下的配置模式,该配置模式可以帮助定义硬件的配置文件。配置模式具体包括硬件的健康模型。健康模型是硬件的计算条件的技术表示。特别地,健康模型基于健康度量或与硬件相关联的可选组件和必需组件来定义硬件的最小操作限制。最小操作限制被用作一个阈值,该阈值用于允许硬件以降级状态操作而不是使硬件组合件完全失效。这带来硬件组合件的利用率最大化。基础设施管理系统可以被实现用于分布式计算系统基础设施(例如,云计算基础设施)。特别地,该系统可以被实现用于边缘基础设施,这样的边缘基础设施难以被访问以解决硬件故障。实施硬件故障修复还可以有利地改进RMA系统,这体现在于:基础设施管理系统允许适时地调度分布式计算基础设施中的修复以获取更好的硬件利用率和效率。适时本文档来自技高网
...

【技术保护点】
1.一种用于实现支持硬件故障修复的基础设施管理系统的系统,所述系统包括:基础设施管理组件,被配置为:确定硬件组件的故障已经发生,所述硬件组件被包括在硬件组合件中;发起用于以降级状态操作所述硬件组合件的修复操作,其中所述降级状态包括所述硬件组合件在没有所述故障硬件组件的情况下进行操作;访问所述硬件组合件的修复属性,其中所述修复属性指示所述硬件组合件的最小操作限制;确定所述硬件组合件在没有已经故障的所述硬件组件的情况下进行操作满足所述硬件组合件的最小操作限制;以及发起所述硬件组合件以所述降级状态的操作,其中所述降级状态包括所述硬件组合件在没有所述故障硬件组件的情况下进行操作。

【技术特征摘要】
【国外来华专利技术】2015.12.31 US 62/274,105;2016.05.27 US 15/167,3941.一种用于实现支持硬件故障修复的基础设施管理系统的系统,所述系统包括:基础设施管理组件,被配置为:确定硬件组件的故障已经发生,所述硬件组件被包括在硬件组合件中;发起用于以降级状态操作所述硬件组合件的修复操作,其中所述降级状态包括所述硬件组合件在没有所述故障硬件组件的情况下进行操作;访问所述硬件组合件的修复属性,其中所述修复属性指示所述硬件组合件的最小操作限制;确定所述硬件组合件在没有已经故障的所述硬件组件的情况下进行操作满足所述硬件组合件的最小操作限制;以及发起所述硬件组合件以所述降级状态的操作,其中所述降级状态包括所述硬件组合件在没有所述故障硬件组件的情况下进行操作。2.根据权利要求1所述的系统,其中配置模式包括用于定义对应硬件组合件的配置文件的多个属性,所述多个属性包括所述修复属性,所述修复属性指示来自硬件组合件的健康模型的所述最小操作限制,其中所述健康模型是所述硬件组合件的计算条件的表示。3.根据权利要求1所述的系统,其中所述最小操作限制是基于健康度量或与所述硬件组合件相关联的可选组件和必需组件来定义的,并且其中在预期到用于操作所述硬件组合件的所述降级状态的情况下,与所述硬件组合件相关联的硬件管理器被预先配置有降级状态配置,其中所述降级状态配置包括用于以所述降级状态操作所述硬件组合件的指令。4.根据权利要求1所述的系统,还包括:数据中心管理器组件,被配置为:提供对硬件组合件的健康状态信息和配置文件的访问,其中所述健康状态信息包括所述硬件组合件的各个健康硬件组件和不健康硬件组件的健康状态信息;监视器组件,被配置为:访问硬件组合件的所述健康状态信息;选择性地监测硬件组合件的硬件组件,其中所述健康状态信息指示健康的所述硬件组件;以及报告所述硬件组合件中的故障,其中至少一个故障基于所述硬件组合件的健康SLA故障。5.根据权利要求4所述的系统,还包括:供应服务组件,被配置为:基于与所述硬件组合件相对应的健康状态信息和配置文件,对处于所述降级状态的所述硬件组合件执行修复操作,所述健康状态信息和所述配置文件是从所述数据中心组件获取的,其中修复操作包括验证所述硬件组合件的所述健康状态信息;以及当针对具有第一SLA的第一租户未满足所述最小操作限制时,解除所述硬件组合件,所述第一SLA是所述最小操作限制中的因素;标识具有第二SLA的第二租户,其中针对具有所述第二SLA的所述第二租户满足所述最小操作限制;以及针对所述第二租户,对所述硬件组合件执行修复操作;以及退货授权组件,被配置为:至少部分基于硬件组合件中的硬件组件的属性字段来执行适时的RMA操作,其中属性字段指示硬件组合件的对应硬件组件的健康状态信息。6.一种用于实现基础设施管理系统的计算机实现的方法,所述方法包括:确定硬件组件的故障已经发生,所述硬件组件被包括在硬件组合件中;访问所述硬件组合件的修复属性,其中所述修复属性指示所述硬件组合件的最小操作限制;基于访问所述修复属性,确定所述硬件组合件在没有已经故障的所述硬件组件的情况下进行操作满足所述硬件组合件的最小操作限制;以及发起所述硬件组合件以所述降级状态...

【专利技术属性】
技术研发人员:U·米勒刘继武M·E·朱布兰A·M·格施夫特
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1