机架管理系统、方法及控制器技术方案

技术编号:34120421 阅读:67 留言:0更新日期:2022-07-14 12:53
一种在机架中的运算装置之间分配任务的系统与方法。其中每一运算装置皆具有硬件资源,并耦接至一管理网络。一机架管理控制器监控每一运算装置的硬件资源使用率。该机架管理控制器分配任务的进行(例如运作虚拟机)至其中部分运算装置,以最大化大致上达到硬件资源完全使用的运算装置数量。该机架管理控制器将分配任务至未达硬件资源完全使用的运算装置的数量最小化。该机架管理控制器命令任何闲置运算装置最小化其功率消耗。运算装置最小化其功率消耗。运算装置最小化其功率消耗。

【技术实现步骤摘要】
机架管理系统、方法及控制器


[0001]本公开关于运算装置的资源管理。特定而言,本专利技术的各个态样关于基于硬件资源使用以管理工作分配的系统,以供一机架上的多个服务器使用。

技术介绍

[0002]在高需求的应用中,使用大量的服务器(servers),例如基于网络的系统(network based system)或数据中心(data center)。供运算应用使用的云端(cloud)的出现,增加了对数据中心的需求。数据中心具有大量的服务器,储存数据并运行应用程序,由远程连接的计算机装置用户对其进行存取。一个典型的数据中心具有实体机架(rack)架构,并伴随电源与通信连接设备。每一机架上具有多个以网络互相连接的运算服务器。
[0003]数据中心的服务器可促成商业上的多种服务,包括执行应用程序、提供虚拟化(virtualization)服务、以及促成因特网商务(Internet commerce)。服务器一般具有基板管理控制器(baseboard management controller,BMC),管理内部运作,并处理与数据中心内的中央管理站之间的网络通信。人们可使用不同的网络以在服务器之间交换数据,以及经由管理网络交换服务器运作状态的运作数据。
[0004]一个机架通常包含多个服务器,该等服务器经由网络交换器(switch)互相通信。该等服务器为实体运算装置,然而其中每一服务器可能运行多个虚拟机(virtual machine,VM),该等虚拟机可具有多种应用程序。这些虚拟机由网络外部观之,可视为多个分离的运算装置。虚拟机的每一应用程序皆有其对终端用户提供的特定软件服务。这些虚拟机共享该服务器的硬件资源。该等硬件资源可包括电源供应器、散热风扇、处理器核心、存储器、储存装置及输入/输出(input/output,IO)周边装置。机架上每一服务器的使用率依服务器使用模式、当前时间、用户数量等因素而定。在上述条件下,服务器的工作负载有时会来到100%的硬件使用率,有时则是50%或更少。
[0005]然而,即使该服务器运行于轻负载状态,服务器中未使用的硬件资源仍消耗电源功率,因而可能限制该机架上其他需要最大功率以达最佳效能的服务器的可用功率。当机架资源(例如电源功率)有限时,在完全使用的服务器上运行的应用程序效能可能受限,因资源被分配至使用率较低的服务器。在已知的数据中心管理方法中,系统管理员为特定工作负载用途配置一机架上的服务器。紧急的服务需求通常会导致高效的工作调度与工作负载分配难以实施。因此,已知的数据中心管理方法总是将最大资源分配在尖峰服务需求上。在此情况下,所有服务器的硬件资源使用率总是低落,因而未能对机架资源(例如服务器电源)达成高效的使用。
[0006]一般而言,最佳的电源功率效率在100%重负载使用服务器硬件资源时发生,而最低的转换效率为96%,在50%电源供应负载时发生。上述硬件资源一般包括处理器核心、系统存储器、储存控制器、以太网络(Ethernet)控制器、及输入/输出(IO)周边装置。然而,服务器的运作在一天之中未必总是处于重负载需求状态。服务器硬件资源的最大使用通常发生在特定时段,例如尖峰时段或突发事件中。由于低硬件资源使用率的服务器仍消耗功率,
故任何未完全使用的服务器皆为隐形的电功率消耗者。这些服务器造成的额外功率消耗阻碍了该机架系统中现用(active,运作中)服务器的效能。除了浪费功率以外,这些额外的功率消耗可能在非现用服务器上产生潜在的硬件可修正错误(hardware correctable error)。例如,若一个服务器处于低工作负载状态,则其硬件部件因空闲时间而处于节电状态。其CPU的缓存一致性(cache coherence)在闲置状态与现用状态之间可能无法正常同步,因而在更新与回复CPU高速缓存中的数据时造成硬件故障可修正错误。
[0007]当前的机架管理软件可经由功率监控电路检测一机架上每一服务器的真实功率消耗,且系统管理员可使用虚拟机管理软件监控现用的虚拟机(VM),以得知硬件资源的使用率。然而,目前并无良好的方法可同时对机架与个别服务器在实体硬件层面及软件层面进行完整的使用率分析。当前并无方法可对可用服务器进行搜寻,以及将虚拟机迁移至机架上合适的未完全使用服务器。因此,在当前的机架管理系统中,未完全使用的服务器消耗硬件资源,浪费了机架上的这些资源。例如,若对四个服务器进行管理,且虚拟机仅在其中二个服务器上运行,则另二个服务器仍消耗额外的功率。
[0008]因此,需要一种系统,使机架得以实时地动态改变机架硬件的资源分配。需要一种系统,使基于预测的未来需求的硬件资源分配得以进行,并基于监控所得的数据训练模型以满足该等需求。还需要一种系统,其可评估未完全使用的服务器的工作负载,以最大化机架的功率效率。

技术实现思路

[0009]本说明书公开的一示例为一种系统,其可管理一机架上的多个运算装置。其中,每一运算装置皆具有硬件资源。一管理网络耦接至该等运算装置。该系统包括一管理网络接口,耦接至该管理网络。该系统包括一控制器,耦接至该管理网络接口。该控制器监控各运算装置对硬件资源的使用率。该控制器将任务的进行分配至其中部分运算装置,以将大致上完全使用硬件资源的运算装置数量最大化。该控制器将未完全使用硬件资源进行该等任务的运算装置数量最小化。该控制器命令各个闲置的运算装置将其功率消耗最小化。
[0010]本说明书公开的另一示例为一种方法,在一机架中的多个运算装置之间分配任务。其中每一运算装置皆包括硬件资源。该机架上的每一运算装置皆被决定其硬件资源使用率。每一运算装置被预测其于一个未来时间区段内的硬件使用率层级。任务被分配至该等运算装置,以最大化其中部分运算装置于该未来时间区段内的硬件资源使用率。未完全使用硬件资源进行该等任务的运算装置数量被最小化。闲置的运算装置被命令最小化其功率消耗。
[0011]本说明书公开的另一示例为一种机架管理控制器,其具有网络接口,以与管理网络通信,其中该管理网络与一机架上的各服务器通信。该机架管理控制器具有监控模块,自该机架上的每一服务器收集硬件使用率数据。该机架管理控制器具有一控制器,分配任务至其中部分服务器,以将大致上完全使用硬件资源的服务器数量最大化。该控制器将未完全使用硬件资源进行该等任务的服务器数量最小化。该控制器命令各个闲置的服务器将其功率消耗最小化。
[0012]上述概要并非意图代表本公开的每一实施例或所有态样。反之,上述概要仅为提供示例,以对应于部分本说明书所提及而具有新颖性的态样与特征。上述各特征与优点,以
及本公开的其他特征与优点,在阅读下文详述施行本专利技术的代表实施例与模式,并结合附图与权利要求一同阅读后,将是清楚易懂的。
附图说明
[0013]为使对本公开有更好的理解,建议将下文示例实施例之叙述参照附图一同阅读,其中:
[0014]图1为一框图,显示一具有多个运算装置的机架,其可在各服务器上分配虚拟机;
[0015]图2为一系列资源需求
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种管理机架中多个运算装置的系统,其中每一运算装置包括硬件资源;以及管理网络,耦接至所述多个运算装置,该系统包括:管理网络接口,耦接至该管理网络;以及控制器,耦接至该管理网络接口,该控制器可运作以:监控所述多个运算装置中每一运算装置的硬件资源使用率;分配任务的执行至所述多个运算装置中的部分运算装置,以最大化大致上达到硬件资源完全使用的运算装置数量;最小化执行所述任务而未达硬件资源完全使用的运算装置数量;以及命令任何闲置的运算装置最小化功率消耗。2.如权利要求1所述的系统,还包括:电源供应器,供应电源至所述多个运算装置中每一运算装置;散热系统,其中该散热系统由该控制器控制,以提供匹配于所述多个运算装置的硬件资源使用率的散热。3.如权利要求1所述的系统,其中该控制器包括机器学习模型,以预测所述多个运算装置中每一运算装置的硬件资源使用率,该控制器基于该机器学习模型的预测分配任务。4.如权利要求1所述的系统,其中该控制器可运作以:对所述多个运算装置中每一运算装置产生表单,该表单包括该运算装置的硬件资源分配信息;自所述表单对所述多个运算装置中每一运算装置决定硬件配置分数;以及其中所述任务的分配基于具有超过默认值的配置分数的运算装置而定。5.一种管理机架中的运算装置的方法,其中所述多个运算装置中每一运算装置皆包括硬件资源,该方法包括:决定该机架中每一运算装置的硬件资源使用率;预测所述多个运算装置中每一运算装置在未来时段内的硬件使用率层级;分配任务至所述多个运算装置,以最大化该未来时段内所述多个运算装置中部分运算装置的硬件资源使用...

【专利技术属性】
技术研发人员:钱威宇
申请(专利权)人:广达电脑股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1