当前位置: 首页 > 专利查询>英特尔公司专利>正文

云原生工作负载的数据管理平台中的存储管理制造技术

技术编号:34237474 阅读:69 留言:0更新日期:2022-07-24 08:30
提供了一种包括计算服务器和存储服务器的数据管理平台。所述存储服务器管理通信地耦合至所述存储服务器的多个存储设备。所述计算服务器和所述存储服务器经由网络通信地耦合。由所述存储服务器管理的所述多个存储设备与所述计算服务器解聚,以使所述多个存储设备的存储容量能够独立于所述计算服务器进行缩放。存储容量能够独立于所述计算服务器进行缩放。存储容量能够独立于所述计算服务器进行缩放。

Storage management in data management platform of cloud native workload

【技术实现步骤摘要】
【国外来华专利技术】云原生工作负载的数据管理平台中的存储管理
[0001]要求的优先权
[0002]本申请基于35U.S.C.
§
365(c)要求享受于2019年12月27日递交的、标题为“STORAGE MANAGEMENT IN A DATA MANAGEMENT PLATFORM FOR CLOUD

NATIVE WORKLOADS(云原生工作负载的数据管理平台中的存储管理)”的美国申请No.16/729,075的优先权,在此,以引用的方式将该申请的完整内容并入本文。

技术介绍

[0003]云计算通过互联网提供对服务器、存储、数据库和应用服务的广泛集合的访问。云服务提供商提供云服务,例如网络服务,以及业务应用,该云服务和业务应用托管在一个或多个数据中心的服务器中,其中,公司或个人可以通过互联网访问这些数据中心。超大规模云服务提供商通常拥有数十万台服务器。超大规模云中的每台服务器都包括用于存储用户数据的存储设备,该用户数据例如,用于商业智能、数据挖掘、分析、社交媒体和微服务的用户数据。云服务提供商从使用云服务的公司和个人(也被称为租户)生成收入。例如,租户可以基于分配给租户的用于存储数据的存储量而向云服务提供商按月支付费用。
[0004]当今的大多数企业数据中心都不具有用于在规模上和性能上有效地管理和处理千万亿字节级数据的能力。诸如人工智能(AI)推理和分析等的数据密集型应用和工具会生成和消耗大量数据和遥测数据,这些数据和遥测数据需要以更安全、更快和可缩放的方式进行移动、存储和处理。在超大规模数据中心中,这通常通过向数据中心添加附加的服务器来执行。但是,取决于数据中心中运行的工作负载,这些服务器中的一种类型的组件可能会被超额订用,而另一种类型的组件可能未得到充分利用,这意味着客户和服务提供商并未优化其投资的使用。
附图说明
[0005]随着以下具体实施方式的进行并参考附图,所要求保护的主题的实施例的特征将变得显而易见,其中相同的附图标记表示相同的部件,并且其中:
[0006]图1是数据管理平台(DMP)的实施例的概念图;
[0007]图2是物理集群中图1所示的数据管理平台的实施例的框图;
[0008]图3是图2所示的数据管理平台中的计算服务器之一的实施例的框图;
[0009]图4是图2所示的数据管理平台中的加速器服务器之一的实施例的框图;
[0010]图5是访问来自图2所示的数据管理平台中的计算服务器的固态驱动器的逻辑视图;
[0011]图6是图4所示的执行存储服务的资源控制的加速器服务器的框图;
[0012]图7示出了网络接口控制器和加速器服务器中的固态驱动器之间的数据传输;
[0013]图8是示出了用于经由L3高速缓存和网络接口控制器将数据从固态驱动器移动到数据平面的方法的流程图;
[0014]图9示出了用于配置最后一级高速缓存以隔离由固态驱动器和网络接口控制器共
享的最后一级高速缓存的高速缓存通路的N个集合的实施例;
[0015]图10是示出了用于将最后一级高速缓存中的高速缓存通路的集合配置为由固态驱动器和网络接口控制器共享的方法的实施例的流程图;
[0016]图11是图2所示物理集群中的数据管理平台中用于健康系统中的正常操作的机架的实施例的框图;
[0017]图12是图2所示物理集群中的数据管理平台中用于故障系统中的降级操作的机架的实施例的框图;
[0018]图13是示出数据管理平台用于检测节点条件/故障的节点的舱(pod)的容器中的度量导出器的框图;
[0019]图14是示出用于在物理集群中管理数据管理平台中的硬件故障的方法的流程图;
[0020]图15是示出由数据管理平台用于监测和管理性能阈值以检测节点条件和故障的节点中的硬件事件和测量的框图;
[0021]图16是示出一种在机架中的存储节点中实施以监测存储节点的性能的方法的流程图;
[0022]图17是计算节点的实施例的框图;
[0023]图18是计算节点的另一实施例的框图;
[0024]图19是图2所示物理集群中数据管理平台中的机架的实施例的框图,所述数据管理平台包括用于自动添加和移除逻辑资源的资源管理器;
[0025]图20是用于响应于检测到图19所示的数据管理平台中的机架中的压力而自动添加或移除逻辑资源的方法的流程图;
[0026]图21是包括存储自修复机制的数据管理平台中物理集群的实施例的框图;
[0027]图22示出了图21所示的集群中工作负载的映射的实施例。
[0028]虽然下文的具体实施方式将参考所要求保护的主题的说明性实施例进行,但其许多替代、修改和变化对于本领域技术人员来说将是显而易见的。因此,所要求保护的主题旨在被广泛地看待,并且被定义为如所附权利要求书中所阐述的。
具体实施方式
[0029]数据管理平台包括加速器服务器和计算服务器。由加速器服务器管理的存储设备与计算服务器解聚(disaggregate),以使存储容量能够独立于计算进行缩放。
[0030]将参考下文讨论的细节来描述本专利技术的各种实施例和方面,并且附图将说明各种实施例。下文的描述和附图是对本专利技术的说明,不应被解释为对本专利技术的限制。描述了大量具体细节以提供对本专利技术的各种实施例的透彻理解。然而,在某些实例中,为了提供对本专利技术的实施例的简明讨论,没有描述公知的或传统的细节。
[0031]说明书中提及“一个实施例”或“实施例”是指结合实施例描述的特定特征、结构或特性可以包括在本专利技术的至少一个实施例中。在本说明的各个地方出现短语“在一个实施例中,”并不一定全部指的是相同的实施例。
[0032]图1是数据管理平台(DMP)100的实施例的概念图。在图1所示的实施例中,数据管理平台100是以机架为中心的物理集群,其中机架106经由路由互连110而互连。路由互连110可以是排列在多级Clos拓扑结构或任何其他开放系统互连(OS1)第3层路由互连中的以
太网结构。
[0033]数据中心中的机架106是一种物理钢和电子框架,其被设计用于容纳服务器、网络设备、电缆和其他数据中心计算设备。每个机架106连接到路由互连110并且可以包括一个或多个计算服务器112、加速器服务器114、实用程序服务器118和基础结构服务器116。服务器也可以被称为节点。
[0034]实用程序服务器118用于对物理集群进行初始化。在初始化期间,实用程序服务器118执行编排和调度功能。在实施例中,Kubernetes(K8)用于执行编排器/调度器102的功能。Kubernetes是开源容器编排系统,用于对应用程序部署、缩放和管理进行自动化。Kubernetes控制平面托管在基础结构服务器116上。Kubernetes主机代理在所有计算服务器112和加速器服务器114上运行。
[0035]应用部署也可以通过使用虚拟机来实现自动化。编排器/调度器102的其他本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种装置,包括:多个服务器,所述多个服务器中的每个服务器用于监测所述服务器中的度量;数据交换机,所述多个服务器通信地耦合至所述数据交换机,所述数据交换机包括路由表,所述路由表包括去往所述多个服务器中的服务的多个动态路由;以及过滤系统,所述过滤系统用于基于所监测的度量动态地允许或抑制去往所述多个服务器中的一个服务器中的所述服务的路由。2.根据权利要求1所述的装置,其中,去往所述服务的所述路由被从所述路由表中移除以抑制所述路由。3.根据权利要求1所述的装置,其中,去往所述服务的所述路由被添加到所述路由表以允许所述路由。4.根据权利要求1所述的装置,其中,所监测的度量包括与所述多个服务器中的压力条件或性能降级相关的度量。5.根据权利要求4所述的装置,其中,与所述压力条件相关的所述度量包括工作负载度量。6.根据权利要求4所述的装置,其中,与所述性能降级相关的所述度量包括与存储器带宽相关的度量。7.根据权利要求1所述的装置,其中,所监测的度量包括与所述多个服务器中的降级的硬件组件相关的度量。8.根据权利要求7所述的装置,其中,与所述降级的硬件组件相关的度量包括节点度量、编排器度量和工作负载度量。9.根据权利要求7所述的装置,其中,所述多个服务器中的一个服务器是存储服务器,并且与所述降级的硬件组件相关的度量包括固态驱动器度量。10.一种方法,包括:监测多个服务器中的度量;在数据交换机的路由表中存储去往所述多个服务器中的服务的多个动态路由;以及基于所监测的度量来动态地允许或抑制去往所述多个服务器中的一个服务器中的所述服务的路由。11.根据权利要求10所述的方法,其中,去往所述服务的所述路由被从所述路由表中移除以抑制所述路由。12.根据权利要求10所述的方法,其中,去往所述服务的所述路由被添加到所述路由表以允许所述路由。13.根据权利要求10所述的方法,其中,所监测的度量包括与所述多个服务器中的压力条件或性能降级相关的度量。14.根据权利要求13所述的方法,其中,与所述压力条件相关的所述度量包括工作负载度量。15.根据权利要求13所述的方法,其中,与所述性能降级相关的所述度量包括与存储器带宽相关的度量。16.根据权利要求10所述的方法,其中,所监测的度量包括与所述多个服务器中的降级的硬件组件相关的度量。
17.一种数据管理平台,包括:机架,包括:多个服务器,所述多个服务器中的每个服务器用于监测所述服务器中的度量;以及数据交换机,所述多个服务器通信地耦合至所述数据交换机,所述数据交换机包括路由表,所述路由表包括去往所述多个服务器中的服务的多个动态路由;以及过滤系统,所述过滤系统用于基于所监测的度量来动态地允许或抑制去往所述多个服务器中的一个服务器中的所述服务的路由。18.根据权利要求17所述的数据管理平台,其中,去往所述服务的所述路由被从所述路由表中移除以抑制所述路由。19.根据权利要求17所述的数据管理平台,其中,去往所述服务的所述路由被添加到所述路由表以允许所述路由。20.根据权利要求17所述的数据管理平台,其中,所监测的度量包括与所述多个服务器中的压力条件或性能降级相关的度量。21.一种装置,包括:计算服务器;以及存储服务器,所述存储服务器用于管理通信地耦合至所述存储服务器的多个存储设备,所述计算服务器和所述存储服务器经由网络通信地耦合,由所述存储服务器管理的所述多个存储设备与所述计算服务器解聚,以使所述多个存储设备的存储容量能够独立于所述计算服务器进行缩放。22.根据权利要求21所述的装置,其中,所述存储服务器还包括:网络接口控制器,其通信地耦合至所述网络;以及片上系统,所述片上系统包括多个核和最后一级存储器,所述多个核通信地耦合至所述最后一级高速缓存存储器,所述最后一级高速缓存存储器包括多个高速缓存通路,所述多个高速缓存通路的部分被分配由所述多个存储设备中的逻辑卷和所述网络接口控制器专用于在所述逻辑卷和所述网络接口控制器之间传输数据。23.根据权利要求22所述的装置,其中,所述多个高速缓存通路的所述部分是在初始化期间分配的。24.根据权利要求23所述的装置,其中,所述逻辑卷存储供所述计算服务器使用的数据。25.根据权利要求24所述的装置,其中,在所述逻辑卷和所述最后一级高速缓存中的所述多个高速缓存通路之间传输的数据经由通信地耦合至所述网络接口控制器的网络在所述存储服务器和所述计算服务器之间传输。26.根据权利要求22所述的装置,其中,所述多个核中的至少一个核被分配供所述多个存储设备中的逻辑卷和所述网络接口控制器专用于在所述逻辑卷和所述网络接口控制器之间传输数据。27.根据权利要求22所述的装置,还包括:耦合至所述片上系统的外部存储器,当最后一级高速缓存的部分中的所有多个高速缓存通路被分配供所述逻辑卷和所述网络接口控制器专用于存储要被传输的数据时,所述外部存储器用于临时存储要在所述逻辑卷和所述网络接口之间传输的数据。
28.一种方法,包括:通过存储服务器管理通信地耦合至所述存储服务器的多个存储设备;以及经由网络将所述存储服务器和计算服务器通信地耦合,由所述存储服务器管理的所述多个存储设备与所述计算服务器解聚,以使所述多个存储设备的存储容量能够独立于所述计算服务器进行缩放。29.根据权利要求28所述的方法,其中,所述存储服务器包括:通信地耦合至所述网络的网络接口控制器;以及片上系统,所述片上系统包括多个核和最后一级存储器,所述多个核通信地耦合至所述最后一级高速缓存存储器,所述最后一级高速缓存存储器包括多个高速缓存通路,所述多个高速缓存通路的部分被分配由所述多个存储设备中的逻辑卷和所述网络接口控制器专用于在所述逻辑卷和所述网络接口控制器之间传输数据。30.根据权利要求29所述的方法,其中,所述多个高速缓存通路的所述部分是在初始化期间分配的。31.根据权利要求30所述的方法,其中,所述逻辑卷存储供所述计算服务器使用的...

【专利技术属性】
技术研发人员:C
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1