当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于机架扩展环境中的高度可用的机架管理的机制制造技术

技术编号:19396845 阅读:24 留言:0更新日期:2018-11-10 05:03
用于机架扩展环境中的高度可用的机架管理的方法和装置。机架管理模块(RMM)被配置为管理机架中的功率区和热区,该机架包括多个池式系统抽屉,其中,每个池式系统抽屉与相应的功率区和相应的热区相关联,相应的功率区包括功率传感器和功率控制设备,相应的热区包括热传感器和热设备。在操作期间,RMM中的一个RMM被实现为主RMM,并且RMM中的另一个RMM被实现为从RMM。主RMM用于对功率区和热区进行监测。周期性地在主RMM与从RMM之间同步状态信息。RMM还被配置为与已经故障或正在故障的RMM结合地执行故障转移操作,其中,在故障转移操作之后,从端成为新的主RMM并且先前的主RMM成为新的从端。

【技术实现步骤摘要】
【国外来华专利技术】用于机架扩展环境中的高度可用的机架管理的机制
技术介绍
“云”计算的可用性和使用在过去几年中呈指数增长。在常规的计算方法下,用户在其自己的计算机上运行软件应用和/或访问由本地服务器(例如,由商业企业运行的服务器)托管的软件服务。相比之下,在云计算下,计算资源和存储资源“在云中”,这意味着计算资源和存储资源物理地托管在经由计算机网络(例如,互联网)来访问的远程设施处。由云运营商托管的计算资源和存储资源可以经由“服务”来访问,其中通常称为基于云的服务、Web服务或简称为服务。基于云的服务典型地由数据中心托管,该数据中心包括组成云或云的特定部分的服务器的物理布置。数据中心通常采用计算、网络和存储共享的资源的物理层级来支持向外扩展工作负载要求。图1示出了数据中心100中的示例性物理层级的一部分,该数据中心100包括数量为L的机架组(pod)102,数量为M的机架104,其中的每个机架104包括用于数量为N的托盘106的槽。每个托盘106进而可以包括多个托架108。为了便于解释,机架组102、机架104和托盘106中的每个标记有对应的标识符,例如,机架组1、机架2、托盘1B等。托盘还可以被称为抽屉,并且托架还可以具有各种形式,例如,模块。除了托盘和托架配置之外,还可以使用其中安装各种形式的服务器的机箱(例如,刀片式服务器机箱和服务器刀片)来供应机架。在每个机架104的顶部描绘了相应的机架顶部(ToR)交换机110,其也由ToR交换机号标记。通常,ToR交换机110表示ToR交换机和支持机架104之间的交换的任何其他交换设施两者。常规实践是将这些交换机称为ToR交换机,而不管它们是否物理地位于机架的顶部(尽管它们通常都物理地位于机架的顶部)。每个机架组102还包括机架组交换机112,机架组的ToR交换机110耦合到机架组交换机112。进而,机架组交换机112耦合到数据中心(DC)交换机114。数据中心交换机可以位于数据中心交换机层级的顶部,或者可以存在未示出的一个或多个附加级别。为了易于解释,本文描述的层级是使用物理LAN的物理层级。实际上,常见的是使用底层物理LAN交换设施来部署虚拟LAN。云托管的服务通常分类为软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)。SaaS服务(通常也称为Web服务和云应用服务)使得能够经由网络连接和客户端侧接口(例如,Web浏览器)来访问在数据中心服务器上运行的服务。公知的SaaS服务的示例包括电子邮件Web服务(例如,Googlegmail、MicrosoftHotmail、Yahoomail)、MicrosoftOffice365、Salesforce.com和Googledocs。PaaS(也称为云平台服务)用于应用和其他开发,同时向软件提供云组件。PaaS的示例包括AmazonWebServices(AWS)ElasticBeanstalk、WindowsAzure和GoogleAppEngine。IaaS是用于访问、监测和管理远程数据中心基础设施的服务,例如,计算机(虚拟化的或裸金属的)、存储、联网和联网服务(例如,防火墙)。用户可以基于消耗购买IaaS,而不是购买和运行其自己的物理硬件。例如,AWS和WindowsAzure分别在资源分配/消耗基础上提供对Amazon和Microsoft数据中心资源的使用。附图说明通过参考以下具体实施方式同时结合附图进行考虑,将更易于意识到本专利技术的前述方面和许多伴随的优点,因为本专利技术的前述方面和许多伴随的优点变得更好理解,在附图中,除非另有说明,否则相同的附图标记贯穿各种视图指代相同的部分:图1是数据中心中的常规物理机架配置的示意图;图2是根据一个实施例的数据中心中的机架扩展架构(RSA)配置的示意图;图3是根据一个实施例的RSA管理架构的框图;图4是示出根据一个实施例的实现冗余机架管理模块(RMM)的RSA机架的进一步细节的示意图,该RMM用于管理池式系统抽屉的功率区和控制区;图4a是示出采用冗余RMM/PSME的、图4所示的方案的替代方案的示意图,在该替代方案下,对RMM和PSME的功能进行组合;图5a是示出图4的RSA机架的示意图,在该RSA机架下,RMM1作为主RMM来操作并且RMM2作为从RMM来操作;图5b是示出图4的RSA机架的示意图,在该RSA机架下,RMM1已经发生故障,并且在故障转移操作之后RMM2已经接管主RMM角色;图6是示出根据一个实施例的RMM中的逻辑框的框图;图7是示出根据一个实施例的在不间断的RSA机架操作期间由RMM执行的操作和逻辑的流程图;图8是示出在图7的流程图的框706中执行的主RMM功能的进一步细节的流程图;图9是示出经由RESTful接口进行远程RMM访问的实现方式的示意图。具体实施方式本文描述了用于机架扩展环境中的高度可用的机架管理的方法和装置的实施例。在以下描述中,阐述了许多具体细节以提供对本专利技术实施例的透彻理解。然而,相关领域的技术人员将认识到,可以在没有这些具体细节中的一个或多个的情况下或者利用其他方法、组件、材料等来实践本专利技术。在其他情况下,公知的结构、材料或操作未被示出或详细描述以避免模糊本专利技术的方面。贯穿本说明书对“一个实施例”或“实施例”的引用意味着结合该实施例描述的特定特征、结构或特性包括在本专利技术的至少一个实施例中。因此,短语“在一个实施例中”或“在实施例中”贯穿本说明书各处的出现不一定都指代同一实施例。此外,特定特征、结构或特性可以以任何合适的方式在一个或多个实施例中组合。为清楚起见,本文附图中的个体组件也可以通过其在附图中的标签而不是通过特定的附图标记来指代。另外,可以利用后面带有“(typ)”(表示“典型的”)的附图标记来示出指代特定类型的组件(与特定组件相对)的附图标记。应当理解,这些组件的配置将是典型的可能存在但为了简单和清楚起见未在附图中示出的类似组件或者以其他方式没有用单独的附图标记进行标记的类似组件。相反,“(typ)”不应解释为意味着组件、元件等典型地用于其公开的功能、实现、目的等。最近,公司推出了称为机架空间架构(RSA)的新机架架构。机架扩展架构是这样的逻辑架构:其可以分解计算资源、存储资源和网络资源,并且引入了将这些资源池化以更高效地利用资产的能力。RSA简化资源管理并且提供基于工作负载特定的需求来动态地组成资源的能力。RSA使用一起工作的计算模块、结构模块、存储模块和管理模块来实现对各种虚拟系统的可选配置。该设计使用可以基于用户需求进行配置的四个基本支柱。包括基本支柱包括1)用于多机架管理的机架组管理器,其包括实现资源和策略管理并且经由标准接口暴露下面的硬件和上面的编排层的固件API和软件API;2)计算资源、网络资源和存储资源的池式系统,其可以基于工作负载要求选择性地组成;3)在连接的存储装置上构建的机架组范围的存储装置,使用存储算法来支持部署为多机架资源或存储硬件和利用本地存储装置的计算节点的一系列使用;以及4)硬件、与电缆和背板的互连以及管理软件的可配置的网络结构,用于支持各种成本高效的网络拓扑,包括当前的机架顶部交换机设计和平台中的分布式交换机。示例性RSA环境200在图2中示出。RSA环境200包括多本文档来自技高网...

【技术保护点】
1.一种用于管理数据中心机架中的机架资源的方法,包括:采用第一机架管理模块(RMM)和第二机架管理模块来管理机架中的功率区和热区,所述机架包括多个池式系统抽屉,每个池式系统抽屉与相应的功率区和相应的热区相关联,所述相应的功率区包括一个或多个功率传感器和一个或多个功率控制设备,所述相应的热区包括一个或多个热传感器和一个或多个热设备;将所述第一RMM和所述第二RMM中的一个RMM实现为初始主RMM,并且将所述第一RMM和所述第二RMM中的另一个RMM实现为初始从RMM;经由主RMM对所述机架中的所述功率区和所述热区进行监测;周期性地在所述主RMM与所述从RMM之间同步状态信息;针对所述主RMM检测故障转移条件,并且响应于检测到故障转移条件,将所述初始从RMM实现为新的主RMM;重置所述初始主RMM;以及将所述初始主RMM实现为新的从RMM。

【技术特征摘要】
【国外来华专利技术】2016.04.01 US 15/089,3771.一种用于管理数据中心机架中的机架资源的方法,包括:采用第一机架管理模块(RMM)和第二机架管理模块来管理机架中的功率区和热区,所述机架包括多个池式系统抽屉,每个池式系统抽屉与相应的功率区和相应的热区相关联,所述相应的功率区包括一个或多个功率传感器和一个或多个功率控制设备,所述相应的热区包括一个或多个热传感器和一个或多个热设备;将所述第一RMM和所述第二RMM中的一个RMM实现为初始主RMM,并且将所述第一RMM和所述第二RMM中的另一个RMM实现为初始从RMM;经由主RMM对所述机架中的所述功率区和所述热区进行监测;周期性地在所述主RMM与所述从RMM之间同步状态信息;针对所述主RMM检测故障转移条件,并且响应于检测到故障转移条件,将所述初始从RMM实现为新的主RMM;重置所述初始主RMM;以及将所述初始主RMM实现为新的从RMM。2.根据权利要求1所述的方法,其中,检测所述故障转移条件包括:周期性地将心跳信息从当前的主RMM发送到当前的从RMM;在所述当前的从RMM处检测在预定的时间内心跳信息没有被接收到;以及响应于检测到在预定的时间内心跳信息没有被接收到,发起故障转移操作,在所述故障转移操作下,所述当前的从RMM成为新的主RMM。3.根据权利要求1或2所述的方法,其中,检测所述故障转移条件包括:周期性地将健康信息从当前的主RMM发送到当前的从RMM;检测所述当前的主RMM正在故障或已经故障;以及响应于检测到所述当前的主RMM正在故障或已经故障,发起故障转移操作,在所述故障转移操作下,所述当前的从RMM成为新的主RMM。4.根据前述权利要求中任一项所述的方法,其中,所述机架包括机架顶部(ToR)交换机,其经由多个通信链路连接到所述多个池式系统抽屉中的每个池式系统抽屉,并且其中,所述主RMM和所述从RMM使用专用网络来执行与对所述功率区和所述热区的管理有关的操作,所述专用网络包括与所述ToR交换机和所述多个池式系统抽屉之间的通信链路分开的通信链路。5.根据前述权利要求中任一项所述的方法,还包括:经由相应的链路将所述第一RMM和所述第二RMM中的每个RMM通信地耦合到机架管理交换机;经由所述第一RMM与所述第二RMM之间的RMM到RMM链路将所述第一RMM通信地耦合到所述第二RMM;实现用于所述多个池式系统抽屉中的每个池式系统抽屉的相应的池式系统管理引擎(PSME);以及将所述PSME中的每个PSME通信地耦合到所述机架管理交换机,其中,所述第一RMM和所述第二RMM中的每个RMM被使得能够经由所述机架管理交换机与所述PSME中的每个PSME进行通信。6.根据权利要求5所述的方法,其中,所述机架管理交换机包括多个端口,并且所述方法还包括:识别所述机架管理交换机上的指定端口以支持所述第一RMM和所述第二RMM与所述多个PSME之间的通信,其中,每个PSME经由相应的通信链路通信地耦合到所述机架管理交换机上的相应的指定端口,并且所述第一RMM和所述第二RMM中的每个RMM经由相应的通信链路通信地耦合到所述机架管理交换机中的相应的指定端口。7.根据权利要求5所述的方法,还包括:经由所述主RMM对所述多个PSME中的每个PSME进行认证,生成对应的PSME认证信息;以及将所述PSME认证信息传送到所述从RMM。8.根据权利要求5所述的方法,还包括:经由专用网络在所述第一RMM和所述第二RMM与所述多个PSME之间实现通信业务,所述专用网络包括所述机架管理交换机、以及所述多个PSME与所述机架管理交换机之间的通信链路、以及所述第一RMM和所述第二RMM与所述机架管理交换机之间的通信链路;以及经由所述第一RMM和所述第二RMM中的至少一个RMM来托管Web服务,所述Web服务使得客户端能够使用与所述专用网络分开的网络经由Web浏览器来访问与RMM的操作有关的信息。9.根据权利要求5所述的方法,其中,所述第一RMM和所述第二RMM在相应的第一PSME和第二PSME中被实现。10.根据前述权利要求中任一项所述的方法,还包括:对第一RMM和第二RMM中的每个RMM进行初始化;以及确定所述第一RMM和所述第二RMM中的哪一个将是所述初始主RMM,并且所述第一RMM和所述第二RMM中的哪一个将是所述初始从RMM。11.一种机架管理模块(RMM),其被配置为在机架中实现,所述机架包括多个池式系统抽屉,每个池式系统抽屉与相应的功率区和相应的热区相关联,所述相应的功率区包括一个或多个功率传感器和一个或多个功率控制设备,所述相应的热区包括一个或多个热传感器和一个或多个热设备,所述RMM包括被配置为在分开的时间点将所述RMM作为主RMM和从RMM来操作的电路和逻辑,其中,当所述RMM作为主RMM操作时,所述RMM被配置为,管理所述多个池式系统抽屉中的每个池式系统抽屉的所述功率区和所述热区,包括维护功率区状态信息和热区状态信息;周期性地在所述主RMM和作为从RMM操作的另一个RMM之间同步功率区状态信息和热区状态信息;以及在主RMM角色被从所述RMM转移到所述从RMM下,执行故障转移操作;并且其中,当所述RMM作为从RMM操作时,所述RMM被配置为针对所述主RMM检测故障转移条件,并且响应于检测到故障转移条件,将所述RMM实现为新的主RMM;以及对针对其检测到所述故障转移条件的所述主RMM进行重置。12.根据权利要求11所述的RMM,其中,当所述RMM作为主RMM操作时,所述RMM被配置为:周期性地将心跳信息发送到作为从RMM操作的RMM;并且当作为从RMM操作时,所述RMM还被配置为,接收来自当前的主RMM的心跳信息;检测在预定的时间内心跳信息没有被接收到;以及响应于检测到在预定的时间内心跳信息没有被接收到,发起故障转移操作,在所述故障转移操作下,所述RMM成为新的主RMM。13.根据权利要求11或12所述的RMM,其中,当所述RMM作为主RMM操作时,所述RMM被配置为:周期...

【专利技术属性】
技术研发人员:M·J·库马尔M·K·纳奇姆苏
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1