当前位置: 首页 > 专利查询>英特尔公司专利>正文

在机柜式架构中的调节、子节点组合和平衡处理制造技术

技术编号:19240233 阅读:18 留言:0更新日期:2018-10-24 03:51
一种包括多个节点的机架系统可以实现热/功率调节、子节点组合和基于电压/频率的处理平衡。在热/功率调节中,至少部分地基于热事件或功率事件,至少一个资源被调节。在子节点组合中,多个计算核心被划分为目标数量的域。在基于电压/频率的处理平衡中,第一核心以第一电压或频率来执行第一处理作业,并且第二核心以与第一电压或频率不同的第二电压或频率来执行第二处理作业。

【技术实现步骤摘要】
在机柜式架构中的调节、子节点组合和平衡处理
本公开总体上涉及包括多个节点的计算机机架系统(也称为刀片式或SLED式),并且更具体地涉及基于这样的机架系统中的热/功率调节、子节点组合和处理平衡。
技术介绍
分解计算是基于资源池的新兴领域。一种分解计算解决方案已知为机柜式架构(RSA)。在当今的系统中,在机架中发生功率预算或热事件时,系统线性地调节机架组件(例如,计算节点)。对于大多数系统,该线性调节可能影响服务等级协议(SLA)的实现。例如,如果关键组件(例如存储节点)被调节,则调节会影响节点中的所有节点的性能。此外,在常规机柜式架构中,计算节点是以裸金属级别构成的。因此,机架所有者向构成的系统用户提供计算节点中的至少一个以及池化的系统组件,例如存储装置或网络带宽。另外,随着技术的进步,系统中的处理器中的处理核心的数量不断增加。因此,构成的系统用户中的一些用户可能不需要处理器中的核心中的所有核心。另外,由于固有的制造变化,单独的核心可以以不同的电压进行操作。常规的操作系统(OS)调度器不能感知单独的核心中的这些变化。因此,常规地,系统将插槽或管芯内的核心中的所有核心限制为以可用核心中的所有核心的最低通用核心电压和频率进行工作。因此,OS调度器跨管芯空间均匀地放置工作负载。作为结果,相邻的核心可能过热。这种过热会导致引起发生性能瓶颈的核心温度。附图说明图1示出了根据本公开的一个实现的机架的实现;图2示出了根据本公开的一个实现的由用于调节的编排层或BMC基于热/功率区域执行的示例性算法;图3示出了根据本公开的一个实现的示例处理核心;图4示出了常规的计算节点的示例;图5示出了根据本公开的实现的计算节点的示例;图6示出了根据本公开的一个实现的计算节点的另一示例;图7示出了根据本公开的一个实现的用于确定计算节点的配置的算法;图8示出了根据本公开的一个实现的用于选择子域以满足SLA的作业的算法;图9示出了根据本公开的一个实现的机架的抽屉内的计算节点的频率的示例;以及图10示出了根据本公开的一个实现的用于基于V-F图来指派节点的算法。具体实施方式图1示出了根据本公开的一个实现的机架100的实现。在许多实现中,机架100在软件定义的基础架构(SDI)中操作。在SDI中,执行的应用及其服务等级定义了系统要求。SDI通过能够动态使应用资源分配“达到最佳”、实现在几分钟内供应服务并且显著减少成本,从而使数据中心能够实现更大的灵活性和效率。机架100与编排层接合。编排层是在所公开的机柜式设计上下文中的POD管理器的顶层运行的软件中被实现的。POD管理器管理POD,该POD是通常由POD管理器管理的一个或多个机架的分组。编排软件基于由服务保证层提供给编排软件的数据来提供、管理和指派资源。更具体地,编排软件负责提供以下资源,例如计算资源、网络资源、存储资源、和数据库资源,以及组成和启动应用或工作负载并且监测硬件和软件。尽管编排层不需要被包括在机架100中,但是编排层的确被包括在至少一个实现中。编排层包括硬件逻辑或由硬件逻辑执行。硬件逻辑是编排单元的示例。基础架构容量和应用资源的智能监测帮助编排软件基于实际的、当前数据而不是基于历史数据的估计或平均消耗需求的静态模型来做出关于工作负载放置的决定。机架包括多个抽屉110。每个抽屉110包括节点槽120、传感器和节点130。机架100中的节点中的每一个至少部分地在硬件中被实现。在本示例中,节点130是计算节点。然而,节点可以是存储节点、现场可编程门阵列(FPGA)等。节点槽120接受计算节点130以用于插入。图1示出了两个抽屉110,其总共包括一个空的节点槽120和由计算节点130占用的三个节点槽。当然,这个示出仅仅是为了示例性的目的,并不以任何方式限制本公开的实现。例如,节点槽中的所有节点槽都可以由计算节点130来填充。另外,每个抽屉110可以具有更少或更多的槽。节点槽120包括用于将计算节点130安装在抽屉110内的结构。节点槽120另外包括导线以用于提供电力并且用于与计算节点130传送信号。节点槽120包括传感器140,其指示计算节点130何时以及是否已经插入到相应的节点槽120中。传感器140可以将信号发送到编排层指示计算节点130的插入。传感器包括传感器150和160。图2示出了安装在节点130上的传感器150和160。附加地或可替代地,传感器150和160也可以安装在节点槽120上。传感器150测量计算节点130附近的温度。传感器150将其测量发送到控制器170。传感器150是温度感测单元的示例。传感器160测量抽屉110内的电特性。这些电特性可以是电压、电阻、电流或其组合(例如,功率)。传感器160可以位于多个位置。作为结果,传感器160可以测量例如在相同的抽屉中或在一些其他位置中的任何两个节点之间的电压差或跨任何两个节点的电阻。类似地,传感器160可以确定跨例如抽屉110内或整个机架100内的任何导线的电阻或通过任何导线的电流。控制器170从传感器150和160接收所发送的测量。控制器170基于由传感器150和160感测的测量来控制计算节点130的各方面。例如,控制器可以实现如下所述的算法的至少一部分。控制器170还执行指派给SLA中的计算节点130的作业的处理。控制器170可以将数据(例如,来自传感器150和160的信号)传送到机架的编排层。控制器170可以是基带管理控制器(BMC)或编排层的一部分。控制器170包括高速缓冲存储器。控制器170是处理单元的示例。在一个实现中,计算节点130包括被实现为附加存储器180的非易失性存储器或固态驱动器。计算节点130还可以包括联网资源。存储器180是存储单元的示例。基于热/功率区域的调节服务提供商提供例如与用户签订合同云服务以提供在定义的服务等级处的计算机机架服务。得到的合同被称为SLA。这些SLA的条款可以像人类的创造力许可一样复杂。然而,在一些实例中,机架的编排层或BMC可以强制执行这些SLA的条款作为策略。例如,机架所有者可以在计算节点的基础上定义SLA。在这样的情况中,机架所有者将机架的一个或多个计算节点的至少一部分指派给用户以执行作业。可选地或可替代地,机架所有者可以基于作业持续时间来定义SLA,其中机架所有者同意允许用户在限定的持续时间(例如,30分钟)内执行作业。这个作业可以用于在持续时间内自身使用至少一个计算节点。这个作业也可以是在持续时间内完成特定的任务无论节点的数量。可选地或可替代地,SLA可以需要带宽的量、或者每秒处理的帧的数量、或者每秒执行的指令的数量。可选地或可替代地,机架所有者可以在错误的处置的基础上来定义SLA。例如,错误可以被定义为中断的上传,并且相对应的处置可以是重新执行该上传。在另一种情况下,错误可以被定义为程序在作业期间内没有连续运行;该错误的相对应的处置可以是重新执行该作业。在另一情况下,这个过程可以被指定为关键任务。在这种情况下,如果发生任何指定的错误,则机架所有者可以对用户有责任以补偿经济损失。在这些SLA的实现期间,可以发生错误(尤其是基于功率的错误)或热事件,针对错误或热事件,调节编排层、BMC、基本输入/输出系统(BIOS)、微代码或OS对资源。这些资源可以是本文档来自技高网...

【技术保护点】
1.一种用于执行事件调节的装置,所述装置包括:多个资源;一个或多个传感器;以及控制器,其用于如果所述控制器确定热事件或功率事件已发生,则调节所述资源中的至少一个资源,其中,所述调节是至少部分地基于与所述资源相关联的一个或多个服务等级协议(SLA)的。

【技术特征摘要】
2017.03.29 US 15/472,9101.一种用于执行事件调节的装置,所述装置包括:多个资源;一个或多个传感器;以及控制器,其用于如果所述控制器确定热事件或功率事件已发生,则调节所述资源中的至少一个资源,其中,所述调节是至少部分地基于与所述资源相关联的一个或多个服务等级协议(SLA)的。2.根据权利要求1所述的装置,其中,调节的至少一个资源与服务的较低级别相关联,所述服务的较低级别低于与未被调节的资源相关联的服务的级别。3.根据权利要求1-2中的任一项所述的装置,其中,所述控制器用于确定多个计算节点中的被指派给所述一个或多个SLA的一个计算节点的能力。4.根据权利要求1-2中的任一项所述的装置,其中,所述控制器用于确定区域中的多个计算节点中的一个计算节点的至少一个资源。5.根据权利要求1-2中的任一项所述的装置,其中,所述控制器用于确定所述至少一个资源的能够用于调节的余裕空间。6.根据权利要求1-2中的任一项所述的装置,其中,所述控制器是BMC、管理控制器、或者是编排层的部分。7.根据权利要求1-2中的任一项所述的装置,其中,所述至少一个资源是网络带宽、对存储器存取的数量、或者由处理器执行的操作的数量。8.根据权利要求1-2中的任一项所述的装置,还包括:编排器,其用于跟踪工作于被指派给所述一个或多个SLA的任务上的所述多个资源,并且将所述多个资源分组到区域中。9.根据权利要求1-2中的任一项所述的装置,其中,调节的资源全部在具有第一SLA的区域中,所述具有第一SLA的区域低于与第二SLA相关联的其他区域中的资源,所述第二SLA高于所述第一SLA。10.根据权利要求9所述的装置,其中,在具有较高SLA的区域中资源被调节之前,在具有所述第一SLA的区域中的所有资源被调节。11.根据权利要求1-2中的任一项所述的装置,其中,所述装置是计算系统。12.一种用于执行事件调节的装置,所述装置包括:多个资源;一个或多个传感器;以及用于如果用于调节的单元确定热事件或功率事件已发生,则调节所述资源中的至少一个资源的单元,其中,所述调节是至少部分地基于与所述资源相关联的一个或多个服务等级协议(SLA)的。13.一种用于执行事件调节的方法,所述方法包括:如果控制器确定热事件或功率事件已...

【专利技术属性】
技术研发人员:M·J·库玛尔M·K·纳奇姆苏V·斯里尼瓦桑
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1