当前位置: 首页 > 专利查询>之江实验室专利>正文

多集群云计算系统及多集群作业分发方法技术方案

技术编号:38735714 阅读:13 留言:0更新日期:2023-09-08 23:22
本申请涉及一种多集群云计算系统及多集群作业分发方法,该系统包括控制集群和多个算力集群,算力集群包括一个或多个计算节点,控制集群包括:资源采集模块,用于采集各算力集群的资源分布信息和资源使用率;共享资源分配模块,用于基于共享策略,将各算力集群的算力资源配置为独占资源、共享资源和预留资源中的至少一种;作业分发决策模块,用于基于各算力集群的资源分布信息和资源使用率,确定各作业对应的目标算力集群;作业平衡模块,用于在作业对共享资源的占用满足共享策略的迁移条件的情况下,释放作业占用的共享资源,保持各算力集群资源的动态平衡,解决了多集群管控平台无法实现负载自动调整的问题。无法实现负载自动调整的问题。无法实现负载自动调整的问题。

【技术实现步骤摘要】
多集群云计算系统及多集群作业分发方法


[0001]本申请涉及云计算
,特别是涉及一种多集群云计算系统及多集群作业分发方法。

技术介绍

[0002]云计算的普及和企业数字化的转型带来了计算机集群的大规模应用。计算机集群将一组松散集成的计算机软件或硬件连接起来,高度紧密地协作完成计算工作,集群中的单个计算机通常称为节点。由于每个集群能管理的节点数是有上限的,而且在跨组织运作时,每个组织都有自己的集群,因此产生了对多集群进行统一管控的需求,另外,作业的分发也需要进行统一的自动化部署。然而,现有的多集群管控平台仅能对作业进行简单的分发,未考虑各个算力集群的实际负载情况,容易造成算力资源的使用不均衡,且负载过高后需要人工干预,无法实现负载的自动调整。
[0003]针对现有技术中多集群管控平台无法实现负载自动调整的问题,目前还没有提出有效的解决方案。

技术实现思路

[0004]在本实施例中提供了一种多集群云计算系统及多集群作业分发方法,以解决相关技术中存在的多集群管控平台无法实现负载自动调整的问题。
[0005]第一个方面,在本实施例中提供了一种多集群云计算系统,所述多集群云计算系统包括控制集群和多个算力集群,所述算力集群包括一个或多个计算节点,所述控制集群包括:资源采集模块,用于采集各所述算力集群的资源分布信息和资源使用率;共享资源分配模块,用于基于共享策略,将各所述算力集群的算力资源配置为独占资源、共享资源和预留资源中的至少一种;作业分发决策模块,用于基于各所述算力集群的资源分布信息和资源使用率,确定各作业对应的目标算力集群;作业平衡模块,用于在所述作业对所述共享资源的占用满足所述共享策略的迁移条件的情况下,将所述作业迁移出所述目标算力集群,并释放占用的共享资源。
[0006]在其中的一些实施例中,所述共享策略包括静态配置策略、动态配置策略和条件配置策略中的至少一种,所述静态配置策略用于预先配置各所述算力集群中的计算节点对应的算力资源;所述动态配置策略用于基于所述计算节点的资源使用率动态调整所述计算节点的共享资源比重;所述条件配置策略用于设置所述计算节点的迁移条件。
[0007]在其中的一些实施例中,所述共享资源分配模块还用于:基于所述资源分布信息,确定各所述计算节点已分配的独占资源和已占用的共享
资源;基于所述共享策略,确定各所述计算节点的预留资源;基于所述独占资源、已占用的共享资源和预留资源,确定各所述计算节点可用的共享资源。
[0008]在其中的一些实施例中,所述作业分发决策模块包括过滤模块和竞争模块,所述过滤模块,用于基于所述作业的资源需求和分发策略,对各所述算力集群进行筛选,得到多个候选算力集群;所述竞争模块,用于基于预先确定的评分项,从所述多个候选算力集群中确定目标算力集群。
[0009]在其中的一些实施例中,所述评分项包括:所述候选算力集群的可用算力资源、已占用算力资源、资源分布信息、资源使用率的至少其中之一。
[0010]在其中的一些实施例中,所述资源采集模块包括拓扑信息采集模块和资源使用率采集模块,所述拓扑信息采集模块用于采集各所述算力集群的计算节点信息,以及分布在所述计算节点上的算力资源信息;所述资源使用率采集模块用于采集各所述算力集群的资源使用率和各所述作业的资源占用率。
[0011]在其中的一些实施例中,所述控制集群还包括作业控制模块和作业队列管理模块,所述作业控制模块用于:接收作业并将所述作业依次加入所述作业队列管理模块;将所述作业队列管理模块中的作业依次发送至所述目标算力集群中运行。
[0012]在其中的一些实施例中,所述作业平衡模块用于在所述作业对所述共享资源的占用满足所述共享策略的迁移条件的情况下,发送驱逐指令;所述作业控制模块用于基于所述驱逐指令,保存所述作业的业务状态并退出所述作业对所述共享资源的占用,将所述作业加入所述作业队列管理模块。
[0013]在其中的一些实施例中,所述作业控制模块,用于基于接收的作业创建作业实例,并将所述作业实例加入所述作业队列管理模块;所述作业分发决策模块,用于将所述作业对应的目标算力集群的信息写入所述作业实例;所述作业控制模块,用于读取所述目标算力集群的信息,并将所述作业实例部署至所述目标算力集群。
[0014]第二个方面,在本实施例中提供了一种多集群作业分发方法,所述方法应用于多集群云计算系统,所述多集群云计算系统包括控制集群和多个算力集群,所述方法包括:采集各所述算力集群的资源分布信息和资源使用率;基于共享策略,将各所述算力集群的算力资源配置为独占资源、共享资源和预留资源中的至少一种;基于各所述算力集群的资源分布信息和资源使用率,确定各作业对应的目标算力集群;
在所述作业对所述共享资源的占用满足所述共享策略的迁移条件的情况下,将所述作业迁移出所述目标算力集群,并释放占用的共享资源。
[0015]与相关技术相比,在本实施例中提供的多集群云计算系统,包括控制集群和多个算力集群,算力集群包括一个或多个计算节点;通过控制集群中的资源采集模块采集各算力集群的资源分布信息和资源使用率,为作业分发提供资源分布和占用信息参考;通过共享资源分配模块将各算力集群的算力资源配置为独占资源、共享资源和预留资源中的至少一种,以确定资源分配的基本规则;通过作业分发决策模块基于各算力集群的资源分布信息和资源使用率,确定各作业对应的目标算力集群,对接收到的作业任务进行分发决策,对应到目标算力集群进行计算;通过作业平衡模块在作业对共享资源的占用满足共享策略的迁移条件的情况下,将作业迁移出目标算力集群,并释放占用的共享资源,对占用资源过多的作业重新分发,保持各算力集群资源的动态平衡,解决了多集群管控平台无法实现负载自动调整的问题。
[0016]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0017]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是本申请一些实施例的多集群云计算系统的系统结构框图;图2是本申请一些实施例的计算节点的独占资源份额与共享资源份额示意图;图3是本申请一些实施例的竞争模块确定目标算力集群的示意图;图4是本申请一些实施例的作业平衡模块驱逐作业的示意图;图5是本申请一些优选实施例的多集群云计算系统的作业分发示意图;图6是本申请一些优选实施例的多集群云计算系统的作业迁移示意图;图7是本申请一些实施例的多集群作业分发方法的流程图。
具体实施方式
[0018]为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0019]除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属
具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多集群云计算系统,其特征在于,所述多集群云计算系统包括控制集群和多个算力集群,所述算力集群包括一个或多个计算节点,所述控制集群包括:资源采集模块,用于采集各所述算力集群的资源分布信息和资源使用率;共享资源分配模块,用于基于共享策略,将各所述算力集群的算力资源配置为独占资源、共享资源和预留资源中的至少一种;作业分发决策模块,用于基于各所述算力集群的资源分布信息和资源使用率,确定各作业对应的目标算力集群;作业平衡模块,用于在所述作业对所述共享资源的占用满足所述共享策略的迁移条件的情况下,将所述作业迁移出所述目标算力集群,并释放占用的共享资源。2.根据权利要求1所述的系统,其特征在于,所述共享策略包括静态配置策略、动态配置策略和条件配置策略中的至少一种,所述静态配置策略用于预先配置各所述算力集群中的计算节点对应的算力资源;所述动态配置策略用于基于所述计算节点的资源使用率动态调整所述计算节点的共享资源比重;所述条件配置策略用于设置所述计算节点的迁移条件。3.根据权利要求2所述的系统,其特征在于,所述共享资源分配模块还用于:基于所述资源分布信息,确定各所述计算节点已分配的独占资源和已占用的共享资源;基于所述共享策略,确定各所述计算节点的预留资源;基于所述独占资源、已占用的共享资源和预留资源,确定各所述计算节点可用的共享资源。4.根据权利要求1所述的系统,其特征在于,所述作业分发决策模块包括过滤模块和竞争模块,所述过滤模块,用于基于所述作业的资源需求和分发策略,对各所述算力集群进行筛选,得到多个候选算力集群;所述竞争模块,用于基于预先确定的评分项,从所述多个候选算力集群中确定目标算力集群。5.根据权利要求4所述的系统,其特征在于,所述评分项包括:所述候选算力集群的可用算力资源、已占用算力资源、资源分布信息、资源使用率的至少其中之一。6.根据权利...

【专利技术属性】
技术研发人员:高翔潘爱民华剑峰董赵宇
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1