【技术实现步骤摘要】
【国外来华专利技术】用于机架扩展环境中的高度可用的机架管理的机制
技术介绍
“云”计算的可用性和使用在过去几年中呈指数增长。在常规的计算方法下,用户在其自己的计算机上运行软件应用和/或访问由本地服务器(例如,由商业企业运行的服务器)托管的软件服务。相比之下,在云计算下,计算资源和存储资源“在云中”,这意味着计算资源和存储资源物理地托管在经由计算机网络(例如,互联网)来访问的远程设施处。由云运营商托管的计算资源和存储资源可以经由“服务”来访问,其中通常称为基于云的服务、Web服务或简称为服务。基于云的服务典型地由数据中心托管,该数据中心包括组成云或云的特定部分的服务器的物理布置。数据中心通常采用计算、网络和存储共享的资源的物理层级来支持向外扩展工作负载要求。图1示出了数据中心100中的示例性物理层级的一部分,该数据中心100包括数量为L的机架组(pod)102,数量为M的机架104,其中的每个机架104包括用于数量为N的托盘106的槽。每个托盘106进而可以包括多个托架108。为了便于解释,机架组102、机架104和托盘106中的每个标记有对应的标识符,例如,机架组1、机架2、托盘1B等。托盘还可以被称为抽屉,并且托架还可以具有各种形式,例如,模块。除了托盘和托架配置之外,还可以使用其中安装各种形式的服务器的机箱(例如,刀片式服务器机箱和服务器刀片)来供应机架。在每个机架104的顶部描绘了相应的机架顶部(ToR)交换机110,其也由ToR交换机号标记。通常,ToR交换机110表示ToR交换机和支持机架104之间的交换的任何其他交换设施两者。常规实践是将这些交换机称为ToR交换机,而不 ...
【技术保护点】
1.一种用于管理数据中心机架中的机架资源的方法,包括:采用第一机架管理模块(RMM)和第二机架管理模块来管理机架中的功率区和热区,所述机架包括多个池式系统抽屉,每个池式系统抽屉与相应的功率区和相应的热区相关联,所述相应的功率区包括一个或多个功率传感器和一个或多个功率控制设备,所述相应的热区包括一个或多个热传感器和一个或多个热设备;将所述第一RMM和所述第二RMM中的一个RMM实现为初始主RMM,并且将所述第一RMM和所述第二RMM中的另一个RMM实现为初始从RMM;经由主RMM对所述机架中的所述功率区和所述热区进行监测;周期性地在所述主RMM与所述从RMM之间同步状态信息;针对所述主RMM检测故障转移条件,并且响应于检测到故障转移条件,将所述初始从RMM实现为新的主RMM;重置所述初始主RMM;以及将所述初始主RMM实现为新的从RMM。
【技术特征摘要】
【国外来华专利技术】2016.04.01 US 15/089,3771.一种用于管理数据中心机架中的机架资源的方法,包括:采用第一机架管理模块(RMM)和第二机架管理模块来管理机架中的功率区和热区,所述机架包括多个池式系统抽屉,每个池式系统抽屉与相应的功率区和相应的热区相关联,所述相应的功率区包括一个或多个功率传感器和一个或多个功率控制设备,所述相应的热区包括一个或多个热传感器和一个或多个热设备;将所述第一RMM和所述第二RMM中的一个RMM实现为初始主RMM,并且将所述第一RMM和所述第二RMM中的另一个RMM实现为初始从RMM;经由主RMM对所述机架中的所述功率区和所述热区进行监测;周期性地在所述主RMM与所述从RMM之间同步状态信息;针对所述主RMM检测故障转移条件,并且响应于检测到故障转移条件,将所述初始从RMM实现为新的主RMM;重置所述初始主RMM;以及将所述初始主RMM实现为新的从RMM。2.根据权利要求1所述的方法,其中,检测所述故障转移条件包括:周期性地将心跳信息从当前的主RMM发送到当前的从RMM;在所述当前的从RMM处检测在预定的时间内心跳信息没有被接收到;以及响应于检测到在预定的时间内心跳信息没有被接收到,发起故障转移操作,在所述故障转移操作下,所述当前的从RMM成为新的主RMM。3.根据权利要求1或2所述的方法,其中,检测所述故障转移条件包括:周期性地将健康信息从当前的主RMM发送到当前的从RMM;检测所述当前的主RMM正在故障或已经故障;以及响应于检测到所述当前的主RMM正在故障或已经故障,发起故障转移操作,在所述故障转移操作下,所述当前的从RMM成为新的主RMM。4.根据前述权利要求中任一项所述的方法,其中,所述机架包括机架顶部(ToR)交换机,其经由多个通信链路连接到所述多个池式系统抽屉中的每个池式系统抽屉,并且其中,所述主RMM和所述从RMM使用专用网络来执行与对所述功率区和所述热区的管理有关的操作,所述专用网络包括与所述ToR交换机和所述多个池式系统抽屉之间的通信链路分开的通信链路。5.根据前述权利要求中任一项所述的方法,还包括:经由相应的链路将所述第一RMM和所述第二RMM中的每个RMM通信地耦合到机架管理交换机;经由所述第一RMM与所述第二RMM之间的RMM到RMM链路将所述第一RMM通信地耦合到所述第二RMM;实现用于所述多个池式系统抽屉中的每个池式系统抽屉的相应的池式系统管理引擎(PSME);以及将所述PSME中的每个PSME通信地耦合到所述机架管理交换机,其中,所述第一RMM和所述第二RMM中的每个RMM被使得能够经由所述机架管理交换机与所述PSME中的每个PSME进行通信。6.根据权利要求5所述的方法,其中,所述机架管理交换机包括多个端口,并且所述方法还包括:识别所述机架管理交换机上的指定端口以支持所述第一RMM和所述第二RMM与所述多个PSME之间的通信,其中,每个PSME经由相应的通信链路通信地耦合到所述机架管理交换机上的相应的指定端口,并且所述第一RMM和所述第二RMM中的每个RMM经由相应的通信链路通信地耦合到所述机架管理交换机中的相应的指定端口。7.根据权利要求5所述的方法,还包括:经由所述主RMM对所述多个PSME中的每个PSME进行认证,生成对应的PSME认证信息;以及将所述PSME认证信息传送到所述从RMM。8.根据权利要求5所述的方法,还包括:经由专用网络在所述第一RMM和所述第二RMM与所述多个PSME之间实现通信业务,所述专用网络包括所述机架管理交换机、以及所述多个PSME与所述机架管理交换机之间的通信链路、以及所述第一RMM和所述第二RMM与所述机架管理交换机之间的通信链路;以及经由所述第一RMM和所述第二RMM中的至少一个RMM来托管Web服务,所述Web服务使得客户端能够使用与所述专用网络分开的网络经由Web浏览器来访问与RMM的操作有关的信息。9.根据权利要求5所述的方法,其中,所述第一RMM和所述第二RMM在相应的第一PSME和第二PSME中被实现。10.根据前述权利要求中任一项所述的方法,还包括:对第一RMM和第二RMM中的每个RMM进行初始化;以及确定所述第一RMM和所述第二RMM中的哪一个将是所述初始主RMM,并且所述第一RMM和所述第二RMM中的哪一个将是所述初始从RMM。11.一种机架管理模块(RMM),其被配置为在机架中实现,所述机架包括多个池式系统抽屉,每个池式系统抽屉与相应的功率区和相应的热区相关联,所述相应的功率区包括一个或多个功率传感器和一个或多个功率控制设备,所述相应的热区包括一个或多个热传感器和一个或多个热设备,所述RMM包括被配置为在分开的时间点将所述RMM作为主RMM和从RMM来操作的电路和逻辑,其中,当所述RMM作为主RMM操作时,所述RMM被配置为,管理所述多个池式系统抽屉中的每个池式系统抽屉的所述功率区和所述热区,包括维护功率区状态信息和热区状态信息;周期性地在所述主RMM和作为从RMM操作的另一个RMM之间同步功率区状态信息和热区状态信息;以及在主RMM角色被从所述RMM转移到所述从RMM下,执行故障转移操作;并且其中,当所述RMM作为从RMM操作时,所述RMM被配置为针对所述主RMM检测故障转移条件,并且响应于检测到故障转移条件,将所述RMM实现为新的主RMM;以及对针对其检测到所述故障转移条件的所述主RMM进行重置。12.根据权利要求11所述的RMM,其中,当所述RMM作为主RMM操作时,所述RMM被配置为:周期性地将心跳信息发送到作为从RMM操作的RMM;并且当作为从RMM操作时,所述RMM还被配置为,接收来自当前的主RMM的心跳信息;检测在预定的时间内心跳信息没有被接收到;以及响应于检测到在预定的时间内心跳信息没有被接收到,发起故障转移操作,在所述故障转移操作下,所述RMM成为新的主RMM。13.根据权利要求11或12所述的RMM,其中,当所述RMM作为主RMM操作时,所述RMM被配置为:周期...
【专利技术属性】
技术研发人员:M·J·库马尔,M·K·纳奇姆苏,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。