一种面向国产异构算力集群的作业调度方法及系统技术方案

技术编号:42496415 阅读:49 留言:0更新日期:2024-08-22 14:06
本公开提出一种面向国产异构算力集群的作业调度方法及系统,方法包括:在一个调度周期中,根据待调度作业的资源量、算力类型请求,及节点的算力类型标签,从异构算力集群中筛选出候选节点;考虑异构算力资源的性能差异,基于加权轮询计算候选节点权重,将权重最高的候选节点作为第一目标节点;根据异构算力集群及候选节点中各类资源占比对候选节点的资源使用空间进行评分,将评分最高的候选节点作为第二目标节点;随机选择最终目标节点,将待调度作业调度到最终目标节点。本公开通过在节点预选阶段添加初次筛选提升节点预选效率,在节点优选阶段,考虑异构算力资源性能差异和集群的整体性,克服了负载不均衡、异构算力不兼容的问题。

【技术实现步骤摘要】

本专利技术涉及云计算,尤其涉及一种面向国产异构算力集群的作业调度方法及系统


技术介绍

1、随着大语言模型的兴起,人们对计算力的需求达到了前所未有的高度,ai算力也开始呈现出多元化、异构化的特点,相继涌现出多种优质的国产ai芯片算力资源。

2、当前很多数据中心为满足日益增长的应用需求,往往会部署多套大规模的异构计算资源集群,形成一个或者多个物理资源池,供上层业务使用。作业调度器根据预先指定的资源类型和规格,按照调度策略指定的逻辑,将不同的作业调度到合适的节点上运行。目前调度策略主要采用kubernetes(简称k8s)容器编排与调度引擎技术来实现,研究高效的调度策略有利于提高集群的负载均衡能力和算力资源的利用率。已有的调度策略大致可以分为三类:k8s默认的调度策略、基于k8s默认调度策略进行改进的调度策略和第三方调度框架提供的调度策略。

3、专利技术人发现,上述调度策略存在如下几个问题:

4、第一,k8s默认调度策略的预选算法需要根据pod的资源请求与集群中每个节点的空闲资源量进行逐一比较,对于大型的含有多种ai芯片的异本文档来自技高网...

【技术保护点】

1.一种面向国产异构算力集群的作业调度方法,其特征在于,包括:

2.如权利要求1所述的一种面向国产异构算力集群的作业调度方法,其特征在于,所述节点的算力类型标签为:预先对异构算力集群中的节点进行分类,为节点设置算力类型标签。

3.如权利要求2所述的一种面向国产异构算力集群的作业调度方法,其特征在于,所述根据待调度作业的资源量、算力类型请求,及节点的算力类型标签,从异构算力集群中筛选出候选节点,具体步骤为:

4.如权利要求1所述的一种面向国产异构算力集群的作业调度方法,其特征在于,所述考虑异构算力资源的性能差异,基于平滑加权轮询对各候选节点计算权重,具体...

【技术特征摘要】

1.一种面向国产异构算力集群的作业调度方法,其特征在于,包括:

2.如权利要求1所述的一种面向国产异构算力集群的作业调度方法,其特征在于,所述节点的算力类型标签为:预先对异构算力集群中的节点进行分类,为节点设置算力类型标签。

3.如权利要求2所述的一种面向国产异构算力集群的作业调度方法,其特征在于,所述根据待调度作业的资源量、算力类型请求,及节点的算力类型标签,从异构算力集群中筛选出候选节点,具体步骤为:

4.如权利要求1所述的一种面向国产异构算力集群的作业调度方法,其特征在于,所述考虑异构算力资源的性能差异,基于平滑加权轮询对各候选节点计算权重,具体过程为:

5.如权利要求1所述的一种面向国产异构算力集群的作业调度方法,其特征在于,所述根据异构算力集群及候选节点中各类资源占比,对各候选节点的资源使用空间进行评分,具体过程为:

【专利技术属性】
技术研发人员:王春晓温华岗王英龙赵志刚郭莹黄猛张俭刘秋月臧书昌郝国鹏
申请(专利权)人:山东省计算中心国家超级计算济南中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1