【技术实现步骤摘要】
【国外来华专利技术】用于硬件故障修复的基础设施管理系统
技术介绍
大规模网络化系统是在用于运行应用和维护商业和操作功能的数据的各种设置中采用的普通平台。例如,数据中心(例如,物理云计算平台)可以同时为多个客户提供各种服务(例如,网络应用、电子邮件服务、搜索引擎服务等)。这些大规模网络化系统通常包括分布在整个数据中心的大量资源,其中每个资源都类似于在物理节点或主机上运行的物理机器或虚拟机(VM)。数据中心在可能偶尔发生故障硬件组件上运行。在某些情况下,可以轻松地更换故障硬件组件。然而,在其他情况下,硬件组件不能立即更换。因此,用于配置和实现使数据中心硬件组件以及故障数据中心硬件组件运行(至少暂时)的全面系统可以改善整个数据中心硬件操作和分布式硬件管理以满足确定的目标。
技术实现思路
本文中描述的实施例提供了用于实现支持硬件故障修复的基础设施管理系统的方法和系统。基础设施管理系统可以基于基础设施管理系统平台来实现,该基础设施管理系统平台包括可操作地集成的组件,以减少分布式计算系统的硬件基础设施中的故障硬件的影响。基础设施管理系统支持如下的配置模式,该配置模式可以帮助定义针对硬件的配置文件。配置模式可以是用于表示或定义计算基础设施中的硬件的配置属性的数据结构。配置模式具体包括硬件的健康模型。健康模型是硬件的计算条件的技术表示。硬件的配置模式和健康模型可以被定义在配置文件中。健康模型进一步基于健康度量或与硬件相关的可选组件和必需组件来定义硬件的最小操作限制。最小操作限制被用作一个阈值,该阈值用于允许硬件以降级状态操作而不是使硬件完全失效。在这方面,基础设施管理系统提高了硬件的利用率,这体现在于 ...
【技术保护点】
1.一种用于实现支持硬件故障修复的基础设施管理系统的系统,所述系统包括:基础设施管理组件,被配置为:确定硬件组件的故障已经发生,所述硬件组件被包括在硬件组合件中;发起用于以降级状态操作所述硬件组合件的修复操作,其中所述降级状态包括所述硬件组合件在没有所述故障硬件组件的情况下进行操作;访问所述硬件组合件的修复属性,其中所述修复属性指示所述硬件组合件的最小操作限制;确定所述硬件组合件在没有已经故障的所述硬件组件的情况下进行操作满足所述硬件组合件的最小操作限制;以及发起所述硬件组合件以所述降级状态的操作,其中所述降级状态包括所述硬件组合件在没有所述故障硬件组件的情况下进行操作。
【技术特征摘要】
【国外来华专利技术】2015.12.31 US 62/274,105;2016.05.27 US 15/167,3941.一种用于实现支持硬件故障修复的基础设施管理系统的系统,所述系统包括:基础设施管理组件,被配置为:确定硬件组件的故障已经发生,所述硬件组件被包括在硬件组合件中;发起用于以降级状态操作所述硬件组合件的修复操作,其中所述降级状态包括所述硬件组合件在没有所述故障硬件组件的情况下进行操作;访问所述硬件组合件的修复属性,其中所述修复属性指示所述硬件组合件的最小操作限制;确定所述硬件组合件在没有已经故障的所述硬件组件的情况下进行操作满足所述硬件组合件的最小操作限制;以及发起所述硬件组合件以所述降级状态的操作,其中所述降级状态包括所述硬件组合件在没有所述故障硬件组件的情况下进行操作。2.根据权利要求1所述的系统,其中配置模式包括用于定义对应硬件组合件的配置文件的多个属性,所述多个属性包括所述修复属性,所述修复属性指示来自硬件组合件的健康模型的所述最小操作限制,其中所述健康模型是所述硬件组合件的计算条件的表示。3.根据权利要求1所述的系统,其中所述最小操作限制是基于健康度量或与所述硬件组合件相关联的可选组件和必需组件来定义的,并且其中在预期到用于操作所述硬件组合件的所述降级状态的情况下,与所述硬件组合件相关联的硬件管理器被预先配置有降级状态配置,其中所述降级状态配置包括用于以所述降级状态操作所述硬件组合件的指令。4.根据权利要求1所述的系统,还包括:数据中心管理器组件,被配置为:提供对硬件组合件的健康状态信息和配置文件的访问,其中所述健康状态信息包括所述硬件组合件的各个健康硬件组件和不健康硬件组件的健康状态信息;监视器组件,被配置为:访问硬件组合件的所述健康状态信息;选择性地监测硬件组合件的硬件组件,其中所述健康状态信息指示健康的所述硬件组件;以及报告所述硬件组合件中的故障,其中至少一个故障基于所述硬件组合件的健康SLA故障。5.根据权利要求4所述的系统,还包括:供应服务组件,被配置为:基于与所述硬件组合件相对应的健康状态信息和配置文件,对处于所述降级状态的所述硬件组合件执行修复操作,所述健康状态信息和所述配置文件是从所述数据中心组件获取的,其中修复操作包括验证所述硬件组合件的所述健康状态信息;以及当针对具有第一SLA的第一租户未满足所述最小操作限制时,解除所述硬件组合件,所述第一SLA是所述最小操作限制中的因素;标识具有第二SLA的第二租户,其中针对具有所述第二SLA的所述第二租户满足所述最小操作限制;以及针对所述第二租户,对所述硬件组合件执行修复操作;以及退货授权组件,被配置为:至少部分基于硬件组合件中的硬件组件的属性字段来执行适时的RMA操作,其中属性字段指示硬件组合件的对应硬件组件的健康状态信息。6.一种用于实现基础设施管理系统的计算机实现的方法,所述方法包括:确定硬件组件的故障已经发生,所述硬件组件被包括在硬件组合件中;访问所述硬件组合件的修复属性,其中所述修复属性指示所述硬件组合件的最小操作限制;基于访问所述修复属性,确定所述硬件组合件在没有已经故障的所述硬件组件的情况下进行操作满足所述硬件组合件的最小操作限制;以及发起所述硬件组合件以所述降级状态...
【专利技术属性】
技术研发人员:U·米勒,刘继武,M·E·朱布兰,A·M·格施夫特,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。