System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多云异构管理平台的算力任务调度方法及系统技术方案_技高网

基于多云异构管理平台的算力任务调度方法及系统技术方案

技术编号:40818987 阅读:4 留言:0更新日期:2024-03-28 19:37
本发明专利技术实施例涉及云计算技术领域,公开了一种基于多云异构管理平台的算力任务调度方法,包括:通过多云异构管理平台处的算力用户来进行算力任务配置;创建算力调度任务;主服务节点对接收到的算力调度任务进行节点拆分以得到拆分后各个任务节点以及各个任务节点之间的依赖关系;根据所拆分任务要求以及资源空闲情况并结合算力调度算法调用底层算力资源。本发明专利技术实施例中的基于多云异构管理平台的算力任务调度方法通过构建算力用户进而实现了多云异构管理平台与算力调度平台的数据关联,其解决同时进行云计算管理和算力调度任务管理的问题,使得用户能够更加灵活地利用不同云计算厂商的资源,提高资源的使用率。

【技术实现步骤摘要】

本专利技术涉及云计算,具体涉及一种基于多云异构管理平台的算力任务调度方法及系统


技术介绍

1、随着云计算、人工智能、大数据的发展,算力资源已经成为生产和生活的必需品。而仅仅依靠扩大算力资源的总量并不能完全满足不断增长的算力需求,特别是针对一些既需要云计算管理又需要算力调度的场景,将二者有效的融合,以提升对算力资源的利用率以及调度能力就显得尤为重要。

2、现有的算力任务资源调度大都是在已有的算力资源如带cpu、gpu的物理服务器上部署调度器,来实现针对上层不同工作流任务的算力需求调度。

3、然而,上述现有的算力任务调度方法存在一些不可忽略的缺陷:首先,调度器直接在物理资源上部署,不利于算力资源根据调度任务进行弹性扩展;第二,直接在物理资源上部署调度器的调度方法因长期固定占用物理资源不利于算力资源的有效利用,容易造成浪费;第三,现有方法大都基于某一种资源类型或者默认的调度算法,算力资源来源以及调度方法单一,第四,针对一些既需要云计算管理又需要算力调度的场景,现有算力任务调度方法无法实现。因此,设计一种便于进行算力任务调度的方案成为本领域技术人员亟待解决的技术问题。


技术实现思路

1、针对所述缺陷,本专利技术实施例公开了一种基于多云异构管理平台的算力任务调度方法,其能够提高对算力资源利用率。

2、本专利技术实施例第一方面公开了基于多云异构管理平台的算力任务调度方法,包括:

3、通过多云异构管理平台处的算力用户来进行算力任务配置,并得到相应算力用户配置到的算力调度信息,所述算力调度信息包括算力任务类型、所需算力种类以及所需算力大小;

4、算力用户在多云异构管理平台上选择相应的计算场景,并根据所述计算场景、算力任务类型、所需算力种类以及所需算力大小调用算力调度平台的算力任务调度接口以创建算力调度任务;

5、算力调度平台的主服务节点对接收到的算力调度任务进行节点拆分以得到拆分后各个任务节点以及各个任务节点之间的依赖关系;算力调度平台根据所拆分任务要求以及资源空闲情况并结合算力调度算法调用底层算力资源。

6、作为一种可选的实施方式,在本专利技术实施例第一方面中,在所述通过多云异构管理平台处的算力用户来进行算力任务配置之前,还包括:

7、在多云异构平台上创建新建算力用户时会调用分布式任务调度系统中的创建用户接口以同步在算力任务调度平台上创建一个与所述新建算力用户相同的用户,并通过所述新建算力用户实现多云异构管理平台对算力调度平台的任务同步与管理,其中,所述分布式任务调度系统支持shell、mr、spark,hadoop、sql、python、flink的算力调度任务;

8、所述通过多云异构管理平台处的算力用户来进行算力任务配置,包括:

9、通过多云异构管理平台处的算力用户在多云异构管理平台以可视化方式进行算力任务配置;

10、所述算力调度平台根据所拆分任务要求以及资源空闲情况并结合算力调度算法调用底层算力资源,包括:

11、算力调度平台根据所拆分任务要求以及资源空闲情况并结合算力调度算法调用多云异构管理平台的底层算力资源。

12、作为一种可选的实施方式,在本专利技术实施例第一方面中,所述通过多云异构管理平台处的算力用户来进行算力任务配置,并得到相应算力用户配置到的算力调度信息,包括:

13、在多云异构管理平台处的算力用户调用分布式任务调度系统中的项目接口创建相应的任务项目,所述任务项目为一个命名空间;其用于实现各个算力用户的权限隔离;

14、在所述任务项目中算力用户根据任务类型配置工作流中各个工作任务节点名称,并指定算力资源工作分组以及节点任务执行内容;

15、调用分布式任务调度系统中资源接口创建或者上传工作流所需要的数据文件,根据所述工作流中各个工作任务节点名称、算力资源工作分组、节点任务执行内容以及数据文件确定相应算力用户配置到的算力调度信息。

16、作为一种可选的实施方式,在本专利技术实施例第一方面中,所述算力调度平台的主服务节点对接收到的算力调度任务进行节点拆分以得到拆分后各个任务节点以及各个任务节点之间的依赖关系,算力调度平台根据所拆分任务要求以及资源空闲情况并结合算力调度算法调用底层算力资源,包括:

17、算力调度平台的主服务节点获取到算力调度任务之后,将整个算力调度任务拆分成各个任务节点;

18、获取算力调度任务中的第一任务节点,根据所述第一任务节点配置的节点任务执行内容、算力资源工作分组以及算力分配算法调用所述算力资源工作分组下基础算力资源对所述第一任务节点进行处理;其中,所述算力资源工作分组下基础算力资源来自于多云异构管理平台的物理资源或者虚拟资源;

19、算力资源工作分组定时轮询算力资源对所述第一任务节点的处理状态,并在运行结果后,将所述第一任务节点的运行结果上传至主服务节点;

20、将所述第一任务节点的节点任务状态存入数据库;

21、获取与所述第一任务节点与其余各节点之间的依赖关系;若所述第一任务节点还关联有后续任务节点,则获取后续任务节点并对所述后续任务节点执行上述步骤直至所有任务节点均完成相应算力调度分配。

22、作为一种可选的实施方式,在本专利技术实施例第一方面中,所述算力分配算法包括加权随机算法、平滑轮询算法、线性负载算法和加权排序算法中的任意一种。

23、作为一种可选的实施方式,在本专利技术实施例第一方面中,所述加权排序算法包括:

24、获取场景信息,并基于所述场景信息确定与物理内存数值关联的第二权重和与cpu负载平均值关联的第一权重;

25、确定物理内存和cpu负载平均值小于阈值且参与负载分配的工作节点;

26、根据所述第一权重、第二权重以及预先设置的负载公式来计算工作组中各个工作节点的算力资源值;所述负载公式为:res=w1*k+w2*r,其中,res为算力资源值,w1为第一权重,k为cpu负载平均值,w2为第二权重,r为物理内存数值;

27、根据各个工作节点的算力资源值按照设定顺序进行排序,每次在主服务节点调用时,分配至工作组中算力资源值最大的工作节点上。

28、作为一种可选的实施方式,在本专利技术实施例第一方面中,所述主服务节点和工作节点均为来自多云异构管理平台统一纳管的分布式的、跨数据中心的算力资源、网络资源和存储资源;

29、所述多云异构管理平台为用于实现同一用户在同一云管平台上对定制私有云,阿里云,vmware等各云平台资源进行统一管理的平台,所述多云异构管理平台纳管的底层基础设施是分布式的,所述底层基础设施包括x86架构、arm架构、cpu算力资源、gpu算力资源、nup算力资源、fpga算力资源、asics算力资源的异构物理资源池,所述网络资源包括rdma网络,所述存储资源包括分布式存储系统hdfs、ceph和/或clusterfs,所述多云异构管理平台处本文档来自技高网...

【技术保护点】

1.一种基于多云异构管理平台的算力任务调度方法,其特征在于,包括:

2.如权利要求1所述的基于多云异构管理平台的算力任务调度方法,其特征在于,在所述通过多云异构管理平台处的算力用户来进行算力任务配置之前,还包括:

3.如权利要求1所述的基于多云异构管理平台的算力任务调度方法,其特征在于,所述通过多云异构管理平台处的算力用户来进行算力任务配置,并得到相应算力用户配置到的算力调度信息,包括:

4.如权利要求3所述的基于多云异构管理平台的算力任务调度方法,其特征在于,所述算力调度平台的主服务节点对接收到的算力调度任务进行节点拆分以得到拆分后各个任务节点以及各个任务节点之间的依赖关系,算力调度平台根据所拆分任务要求以及资源空闲情况并结合算力调度算法调用底层算力资源,包括:

5.如权利要求4所述的基于多云异构管理平台的算力任务调度方法,其特征在于,所述算力分配算法包括加权随机算法、平滑轮询算法、线性负载算法和加权排序算法中的任意一种。

6.如权利要求5所述的基于多云异构管理平台的算力任务调度方法,其特征在于,所述加权排序算法包括:

7.如权利要求1所述的基于多云异构管理平台的算力任务调度方法,其特征在于,所述主服务节点和工作节点均为来自多云异构管理平台统一纳管的分布式的、跨数据中心的算力资源、网络资源和存储资源;

8.一种基于多云异构管理平台的算力任务调度系统,其特征在于,包括:

9.一种电子设备,其特征在于,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至7任一项所述的基于多云异构管理平台的算力任务调度方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至7任一项所述的基于多云异构管理平台的算力任务调度方法。

...

【技术特征摘要】

1.一种基于多云异构管理平台的算力任务调度方法,其特征在于,包括:

2.如权利要求1所述的基于多云异构管理平台的算力任务调度方法,其特征在于,在所述通过多云异构管理平台处的算力用户来进行算力任务配置之前,还包括:

3.如权利要求1所述的基于多云异构管理平台的算力任务调度方法,其特征在于,所述通过多云异构管理平台处的算力用户来进行算力任务配置,并得到相应算力用户配置到的算力调度信息,包括:

4.如权利要求3所述的基于多云异构管理平台的算力任务调度方法,其特征在于,所述算力调度平台的主服务节点对接收到的算力调度任务进行节点拆分以得到拆分后各个任务节点以及各个任务节点之间的依赖关系,算力调度平台根据所拆分任务要求以及资源空闲情况并结合算力调度算法调用底层算力资源,包括:

5.如权利要求4所述的基于多云异构管理平台的算力任务调度方法,其特征在于,所述算力分配算法包括加权随机算法、平滑轮询算法、线性负...

【专利技术属性】
技术研发人员:刘玲星唐卓宋欢梅
申请(专利权)人:深圳市证通电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1