当前位置: 首页 > 专利查询>之江实验室专利>正文

一种非侵入式HPC计算集群的统一容器集群托管系统和方法技术方案

技术编号:35359786 阅读:23 留言:0更新日期:2022-10-26 12:43
本发明专利技术提供一种非侵入式HPC计算集群的统一容器集群托管系统和方法,所述系统包括:自定义计算作业资源集、计算集群管理模块、计算集群执行模块以及一个或多个需要被纳管的HPC计算集群,所述的计算集群管理模块包括:控制器、配置器、工作负载承载器。当现有环境下存在两类或多类的容器集群管理系统和面向科学计算领域的集群管理和作业调度系统的复杂集群环境下,本专利提供了一种非侵入式方式构建基于容器集群管理系统的统一操作管理平面的系统和方法。统和方法。统和方法。

【技术实现步骤摘要】
一种非侵入式HPC计算集群的统一容器集群托管系统和方法


[0001]本专利技术涉及计算机集群管理和高性能计算的
,尤其涉及一种非侵入式HPC计算集群的统一容器集群托管系统和方法。

技术介绍

[0002]随着数字经济时代到来,通用算力逐渐普及,算力聚合网络成趋势。针对数据中心算力网络建设过程中,在同一数据中心或者不同数据中心中,存在大量异构的HPC算力集群和容器集群,但各个集群之间的算力定义、资源使用、作业调度没有统一标准,无法在其上构建统一的算力聚合网络。因此,设计一种非侵入式HPC计算集群的统一容器集群托管系统成为了技术人员亟待解决的问题。使算力的使用方可以在统一的平台对这些HPC算力集群进行管理和调度,使算力的使用方可以方便地根据需要、使用习惯调度算力资源。

技术实现思路

[0003]本专利技术的目的在于提供一种以非侵入式HPC计算集群方式构建统一容器集群托管系统和方法,解决了现有技术中异构HPC计算集群统一托管的问题。
[0004]本专利技术采用的技术方案如下:本专利技术提供一种非侵入式HPC计算集群的统一容器集群托管系统,包括:容器集群、自定义计算作业资源集、计算集群管理模块、计算集群执行模块以及一个或多个需要被纳管的HPC计算集群;用户在容器集群提交对自定义作业资源集的操作;计算集群管理模块监听自定义资源集的变更,生成相应的执行指令下发给计算集群执行模块;计算集群执行模块根据执行指令生成HPC计算集群实际运行的命令,并在HPC计算集群上运行。
[0005]所述的计算集群管理模块包括工作负载承载器以及与该工作负载承载器连接的控制器和配置器。
[0006]] 在一些实施例中, 所述的自定义计算作业资源集是一系列能够完整描述一个作业对象的资源集合,一个自定义计算资源的字段应包括但不限于计算任务所需的软硬件资源信息、任务执行的命令或脚本、任务结果存放目录、日志存放目录。
[0007]在一些实施例中,所述的控制器能够持续监听所述自定义计算作业资源集的创建、修改、删除事件。能根据事件类型及所述自定义作业资源对象的定义生成相应的对工作负载的操作事件及工作负载对象的定义,并将工作负载操作事件发送给容器集群调度器。其中工作负载,是HPC计算集群真正计算任务的上层抽象,用于描述一个HPC集群计算任务。
[0008]在一些实施例中,所述的工作负载承载器是所述HPC计算集群的最小计算资源调度单元的上层抽象,并且能伪装成容器集群的一个节点而被容器集群发现,并参与容器集群的调度,可根据工作负载操作事件和工作负载对象的定义,生成实际作业执行指令并发送给所述计算集群执行模块。
[0009]在一些实施例中,所述的配置器可与所述的计算集群执行模块网络交互,持续监控所述集群的各种软硬件资源信息和当前状态,并根据收集到的信息动态创建、销毁、配置工作负载承载器。
[0010]在一些实施例中,所述的计算集群执行模块还包括资源感知层和任务执行层。所述的资源感知层,能实时获取所述计算集群的软硬件资源状态和任务资源状态,并将状态上报给所述的配置器;所述的任务执行层,可根据所述工作负载承载器下发的作业执行指令生成并执行所述HPC计算集群的实际计算任务。
[0011]本专利技术还提供一种非侵入式HPC计算集群的统一容器集群托管方法,应用于所述的非侵入式HPC计算集群的统一容器集群托管系统,包括以下步骤:步骤1:所述自定义作业资源集接受用户创建、修改、删除操作,并携带操作类型、命令、所需资源等信息;步骤2:所述的计算集群管理模块监听自定义作业资源的变更,并根据操作类型下发相应的执行指令到计算集群执行模块;步骤3:所述的计算集群执行模块,根据执行指令运行实际的所述HPC计算集群的相应命令。
[0012]在一些实施例中,步骤2生成执行指令包含以下步骤:步骤2.1:所属的控制器根据自定义作业资源的变更,生成相应的工作负载的变更,并将工作负载变更信息发送给容器集群调度器;步骤2.2:容器集群调度器根据工作负载变更,调度或变更所述工作负载承载器上的工作负载;步骤2.3:所述工作负载承载器监听其上的工作负载变更事件,当工作负载信息发生变化后,生成相应的执行指令并下发给所述的计算集群执行模块。
[0013]本专利技术提供的非侵入式HPC计算集群的统一容器集群托管系统,通过云原生、算力感知、控制、集中调度等技术,实现将现有HPC集群非侵入式纳入容器集群管理,并提供统一的计算资源和计算任务的出口,使算力的使用方可以在统一的平台上、使用统一的算力视图对这些HPC算力集群进行管理和调度,使算力的使用方可以方便地根据使用需要,使用习惯调度算力资源。
附图说明
[0014]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0015]图1为本专利技术一实施例提供的一种非侵入式HPC计算集群的统一容器集群托管系统的结构示意图;图2 为本专利技术一实施例提供的一种非侵入式HPC计算集群的统一容器集群托管系统中控制器工作流程示意图;图3 为本专利技术一实施例提供的一种非侵入式HPC计算集群的统一容器集群托管系统中工作负载承载器工作流程示意图;
图4 为本专利技术一实施例提供的一种非侵入式HPC计算集群的统一容器集群托管系统中配置器工作流程示意图;图5 为本专利技术一实施例提供的一种非侵入式HPC计算集群的统一容器集群托管系统中计算集群执行模块工作流程示意图;图6为本专利技术一实施例提供的一种非侵入式HPC计算集群的统一容器集群托管方法流程示意图。
具体实施方式
[0016]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0017]本专利技术的一种非侵入式HPC计算集群的统一容器集群托管系统,包括:容器集群、自定义计算作业资源集、计算集群管理模块、计算集群执行模块以及一个或多个需要被纳管的HPC计算集群,用户在容器集群提交对自定义作业资源集的操作;计算集群管理模块监听自定义资源集的变更,生成相应的执行指令下发给计算集群执行模块;计算集群执行模块根据执行指令生成HPC计算集群实际运行的命令,并在HPC计算集群上运行。
[0018]所述的计算集群管理模块包括工作负载承载器以及与该工作负载承载器连接的控制器和配置器。
[0019]所述自定义计算作业资源集作为与用户交互的入口,用于描述一个完整的作业对象。
[0020]所述控制器持续监听所述自定义计算作业资源集的创建、修改、删除事件,继而生成工作负载对象, 将工作负载对象提交到所述的容器集群,并接收容器集群的发现与调度。
[0021]所述工作负载承载器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非侵入式HPC计算集群的统一容器集群托管系统,其特征在于,包括:容器集群、自定义计算作业资源集、计算集群管理模块、计算集群执行模块以及一个或多个需要被纳管的HPC计算集群;所述的计算集群管理模块包括工作负载承载器以及与该工作负载承载器连接的控制器和配置器;用户在容器集群提交对自定义作业资源集的操作;计算集群管理模块监听自定义资源集的变更,生成相应的执行指令下发给计算集群执行模块;计算集群执行模块根据执行指令生成HPC计算集群实际运行的命令,并在HPC计算集群上运行。2.根据权利要求1所述的一种非侵入式HPC计算集群的统一容器集群托管系统,其特征在于,所述自定义计算作业资源集作为与用户交互的入口,用于描述一个完整的作业对象。3.根据权利要求1所述的一种非侵入式HPC计算集群的统一容器集群托管系统,其特征在于,所述控制器持续监听所述自定义计算作业资源集的创建、修改、删除事件,继而生成工作负载对象,并将工作负载对象提交到所述的容器集群,并接收容器集群的发现与调度。4.根据权利要求1所述的一种非侵入式HPC计算集群的统一容器集群托管系统,其特征在于,所述工作负载承载器是所述HPC计算集群的最小计算资源调度单元的上层抽象,其用于伪装成容器集群的一个节点而被容器集群发现,并参与容器集群的调度,根据运行在其上的工作负载生成实际作业执行指令并发送给所述计算集群执行模块。5.根据权利要求1所述的一种非侵入式HPC计算集群的统一容器集群托管系统,其特征在于,所述配置器与所述的计算集群执行模块网络交互,配置器持续监控所...

【专利技术属性】
技术研发人员:高翔潘爱民王易围
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1