用于迁移工作负载的方法和机架系统技术方案

技术编号:18426057 阅读:50 留言:0更新日期:2018-07-12 01:55
提供了一种用于迁移工作负载的方法以及一种机架系统。所述用于迁移工作负载的方法包括:接收从机架系统的多个服务器节点中运行的多个应用程序生成的多个工作负载;监视所述多个工作负载的延迟要求并检测工作负载对所述延迟要求的违反;收集机架系统的系统利用率信息;计算将所述工作负载迁移至机架系统中的其他服务器节点的奖励;确定所述多个服务器节点中的使奖励最大化的目标服务器节点;执行所述工作负载到目标服务器节点的迁移。

Methods and rack systems for migrating work loads

A method for migrating workloads and a rack system are provided. The methods used to migrate a workload include receiving multiple workload generated by a plurality of applications running from a plurality of server nodes in the rack system; monitoring the delay requirements of the multiple workload and detecting the violation of the delay requirements of the workload; collecting the system utilization information of the rack system; Calculate the incentive to migrate the workload to the other server nodes in the rack system; determine the target server node that maximizes the reward in the multiple server nodes; perform the migration of the workload to the target server node.

【技术实现步骤摘要】
用于迁移工作负载的方法和机架系统本申请要求于2016年12月30日提交的第62/441,027号美国临时专利申请以及于2017年3月23日提交的第15/467,458号美国专利申请的权益和优先权,这些专利申请的公开内容通过引用全部包含于此。
本公开总体涉及一种包括固态驱动器(SSD)的机架(rack)系统,更具体地,涉及一种用于提供减少高性能SSD的长尾延迟的机架级调度器的系统和方法。
技术介绍
高速非易失性存储器(NVMe)为主机软件定义了寄存器级接口以通过外围组件互连高速(PCIe)总线与非易失性存储器子系统(例如,SSD)通信。结构上NVMe(NVMeoverfabrics,NVMeoF)(或简称NVMf)定义了通过大范围的存储网络结构(诸如以太网、光纤信道、无限带宽和其他网络结构)支持NVMe块存储协议的通用架构。NVMeoF在底层结构上与针对传输控制协议(TCP)/互联网协议(IP)和远程直接存储器访问(RDMA)的不同网络堆栈兼容。以各种应用程序为目标的许多大规模服务(例如,基于云的服务)可以由数据中心内的多个服务器托管。这种服务通常需要交互,从而对响应时间敏感。因此,在当今的数据中心中,能够在提供高吞吐量的同时具有低数据访问延迟的高性能存储装置变得流行。具体地,基于NVMe的SSD和NVMeoF装置由于其高带宽、低延迟和优异的随机输入/输出(I/O)性能正变为数据中心所选择的存储。然而,这些高性能存储装置会由于诸如垃圾回收的后台任务而引起周期性延迟尖峰。另一方面,当运行在同一服务器上同地协作(co-located)的多个服务的应用程序在底层结构上竞争诸如中央处理单元(CPU)、存储器以及存储装置的磁盘带宽的共享系统资源时,这些服务会增加延迟的不可预测性。对于将资源分配给租户应用程序的多租户应用程序服务器而言,工作负载调度是关键问题。应用程序容器控制在一种虚拟化方案内运行的应用程序实例(instance)。这被称为基于容器的虚拟化。在基于容器的虚拟化中,应用程序的个体实例可以与用于函数库(library)和其他资源的不同的代码容器来共享系统的操作系统(OS)。数据中心的典型大规模系统具有数据中心级调度器。数据中心级调度器通过考虑到应用程序的服务质量(QoS)要求以及包括CPU核和存储器资源的底层服务器级资源来使工作负载迁移的决策集中化。然而,服务器级资源对存储系统资源提供有限的支持。通常,数据中心级调度器试图使从一个存储装置到另一个存储装置的数据移动最小化。例如,当对工作负载进行迁移时,数据中心级调度器基于与存储数据的当前节点的接近度和/或基于可用于从当前节点到目标节点的数据移动的带宽来从多个候选节点中选择目标节点。虽然数据中心级调度器可以提供全局级资源可见性以及复杂的调度算法,但是其具有一些缺点。首先,数据中心级调度器无法考虑具有较低延迟的高性能存储驱动器。高性能的存储驱动器可以支持高存储容量的存储装置并可以有效地共享服务器资源以管理并编排存储装置的各种内部任务,诸如垃圾回收、磨损平衡、坏块重新映射、写入放大、预留空间等。然而,数据中心级调度器不会把高性能存储驱动器有效地利用达到其最大能力。此外,在数据中心级调度器在数据中心中的机架系统中错误地定位工作负载的情况下,该调度器在采取纠正动作时引起额外的复杂性。尽管数据中心级调度器可以在数据中心级执行纠正动作,但是其不能有效地利用最新的存储装置协议支持的数据局部性和远程执行能力。
技术实现思路
根据一个实施例,用于迁移工作负载的方法包括:接收从机架系统的多个服务器节点中运行的多个应用程序生成的多个工作负载;监视所述多个工作负载的延迟要求并检测工作负载对所述延迟要求的违反;收集机架系统的系统利用率信息;计算将所述工作负载迁移至机架系统中的其他服务器节点的奖励;确定在所述多个服务器节点中的使奖励最大化的目标服务器节点;执行所述工作负载到目标服务器节点的迁移。根据另一实施例,机架系统包括:多个服务器节点;多个存储装置,附属到机架系统;结构,在所述多个服务器节点和所述多个存储装置之间提供连接性;以及机架级调度器,包括尾延迟异常监视器(TLAM)以及目标发现单元(TDU)。TLAM被配置为监视多个工作负载的延迟要求并检测工作负载对所述延迟要求的违反。TDU被配置为:收集机架系统的系统利用率信息;计算用于将所述工作负载迁移至机架系统中的其他服务器节点的奖励;确定在所述多个服务器节点中的使奖励最大化的目标服务器节点。现在将参照附图更具体地描述以上和其他优选的特征,并在权利要求书中指出这些特征,其中,这些特征包括对事件进行实现和组合的各种新颖的细节。将理解的是,仅以说明的方式而不作为限制来示出这里描述的具体系统和方法。如本领域技术人员将理解的,在不脱离本公开的范围的情况下,可以在各种各样的实施例中采用在这里描述的原理和特征。附图说明作为本说明书的一部分被包括的附图示出当前优选实施例,并与上面给出的总体描述以及下面给出的优选实施例的详细描述一起用于解释并教导在这里描述的原理。图1示出运行数据中心级调度器的示例SSD的随机写入访问延迟分布;图2示出示例SSD的归一化延迟分布;图3示出针对各种调度和资源管理方案的协作执行的容器化应用程序的吞吐量和延迟特性;图4示出根据一个实施例的包括机架级调度器的示例存储系统;图5示出根据一个实施例的由目标发现单元采用的示例令牌环的拓扑;图6示出根据一个实施例的包括机架级调度器的机架系统的示例;以及图7是根据一个实施例的用于迁移工作负载的流程图。附图未必按照比例绘制,出于说明性的目的,贯穿附图的相似结构或功能的元件通常由相似的附图标记表示。附图仅意图有助于描述在这里描述的各种实施例。附图不描述在这里公开的教导的每个方面,并且不限制权利要求的范围。具体实施方式在这里公开的每个特征和教导可以单独利用或与其他特征和教导结合利用以提供用于减少高性能SSD的长尾延迟的机架级调度器。参照附图进一步详细描述单独以及结合地利用很多这些额外特性和教导的代表性示例。本详细描述仅意图教导本领域技术人员用于实践本教导的方面的进一步细节,而不意图限制权利要求的范围。因此,上述在详细描述中公开的特征的组合对以最广泛意义实践教导而言可能不是必需的,相反仅意图描述本教导的具体的代表性示例。在以下的描述中,仅出于说明的目的,阐明具体的命名法以提供对本公开的彻底的理解。然而,本领域技术人员将清楚的是,不需要这些具体细节来实践本公开的教导。在这里详细描述的一些部分是按照计算机存储器内的对数据位的操作的算法和符号表示来呈现的。由数据处理领域的技术人员使用这些算法描述和表示以向本领域其他技术人员有效地传达他们工作的实质。在这里,算法通常被认为是导致期望结果的步骤的自洽序列。步骤是需要对物理量进行物理操作的步骤。通常,尽管不是必需的,这些量采用能够被存储、被传输、被组合、被比较以及被进行其他操作的电信号或磁信号的形式。主要出于常见用途的原因,已经证明了将这些信号称为比特、值、元件、符号、字符、术语、数字等是方便的。然而,应该牢记于心,全部这些术语以及相似的术语将与适当的物理量关联,并仅是应用于这些量的方便的标号。除非明确指出,否则,如从下面的讨论中显而易见的,应当本文档来自技高网
...

【技术保护点】
1.一种用于迁移工作负载的方法,所述方法包括:接收从机架系统的多个服务器节点中运行的多个应用程序生成的多个工作负载;监视所述多个工作负载的延迟要求并检测工作负载对所述延迟要求的违反;收集机架系统的系统利用率信息;计算将所述工作负载迁移至机架系统中的其他服务器节点的奖励;确定所述多个服务器节点中的使奖励最大化的目标服务器节点;执行所述工作负载到目标服务器节点的迁移。

【技术特征摘要】
2016.12.30 US 62/441,027;2017.03.23 US 15/467,4581.一种用于迁移工作负载的方法,所述方法包括:接收从机架系统的多个服务器节点中运行的多个应用程序生成的多个工作负载;监视所述多个工作负载的延迟要求并检测工作负载对所述延迟要求的违反;收集机架系统的系统利用率信息;计算将所述工作负载迁移至机架系统中的其他服务器节点的奖励;确定所述多个服务器节点中的使奖励最大化的目标服务器节点;执行所述工作负载到目标服务器节点的迁移。2.如权利要求1所述的方法,所述方法还包括向主机操作系统提供包括迁移的状态的反馈。3.如权利要求1所述的方法,其中,机架系统包括多个存储装置。4.如权利要求1所述的方法,其中,机架系统兼容NVMeoF标准,所述多个存储装置可以是NVMeoF装置。5.如权利要求1所述的方法,其中,当所述工作负载的尾延迟比延迟阈值高时,检测到所述工作负载违反了所述延迟要求。6.如权利要求5所述的方法,其中,延迟阈值根据所述多个应用程序和/或所述多个工作负载的服务质量要求以及机架系统的系统利用率而动态地改变。7.如权利要求1所述的方法,其中,通过奖励函数来计算奖励,奖励函数是多个系统利用率参数的线性权重函数。8.如权利要求7所述的方法,其中,系统利用率参数包括可用CPU的数量、可用存储器的大小、可用网络带宽以及可用磁盘带宽中的一个或更多个。9.如权利要求1所述的方法,其中,所述方法还包括以循环的方式在所述多个服务器节点之间传递令牌,其中,在所述多个服务器节点中仅持有令牌的服务器节点确定迁移工作负载。10.一种机架系统,所述机架系统包括:多个服务器节点;多个存储装置,附属到机架系统;结构,在所述多个服务器节点和所述多个存储装置之间提供连接性;机架级调度器,包括尾延迟异常监视器以及目标发现单元,其中,尾延迟异常监视器...

【专利技术属性】
技术研发人员:徐秋旻克里希纳·T·马拉丁马努·阿瓦施
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1