适用于多种计算框架的资源调度方法及系统技术方案

技术编号:23342899 阅读:40 留言:0更新日期:2020-02-15 03:44
本发明专利技术提供了一种适用于多种计算框架的资源调度方法及系统,包括:计算任务管理步骤:进行插件化任务的注册、打包;作业模型编排及引擎步骤:基于打包后的插件,面向不同的业务进行流程编排,并提供基于镜像的流程的解析引擎功能;统一资源调度步骤:对各个计算节点的计算资源进行感知,并与不同的计算任务进行资源建模,然后根据相应的策略,并结合编排好的流程,调度相应的计算节点,获取统一资源调度控制信息;所述统一资源调度控制信息控制统一资源调度行为。本发明专利技术针对目前主流的MPI并行计算库,可以提供针对不同操作系统,不同MPI厂商,不同版本的多种模板组合。

Resource scheduling methods and systems for multiple computing frameworks

【技术实现步骤摘要】
适用于多种计算框架的资源调度方法及系统
本专利技术涉及分布式计算领域,具体地,涉及一种适用于多种计算框架的资源调度方法及系统。
技术介绍
在高性能计算集群中,越来越多的用户的计算环境变的越来越复杂,不同的操作系统,不同的版本号,不同的MPI类型与版本,使得计算环境越来越难以维护。同时越来越多的用户更倾向于将传统的高性能集群转变成一个综合计算的集群,不仅仅是MPI计算框架,还有如对其他计算框架的支持,例如大数据分析计算框架Hadoop,Spark,Storm等,以及对机器学习和深度学习的支持如TensorFlow,Caffe,PaddlePaddle等。专利文献109933433A公开了一种GPU资源调度系统及其调度方法,包括一GPU总集合,所述GPU总集合包括多个GPU节点;一GPU调用单元,所述GPU调用单元通信地连接所述GPU总集合,并调用所述GPU节点以形成一GPU子集合;以及一资源管理单元,所述资源管理单元通信地连接所述GPU总集合和所述GPU调用单元,并调用所述GPU节点以形成一GPU调度子集合,其中所述GPU调用单元监控所述本文档来自技高网...

【技术保护点】
1.一种适用于多种计算框架的资源调度方法,其特征在于,包括:/n计算任务管理步骤:进行插件化任务的注册、打包;/n作业模型编排及引擎步骤:基于打包后的插件,面向不同的业务进行流程编排,并提供基于镜像的流程的解析引擎功能;/n统一资源调度步骤:对各个计算节点的计算资源进行感知,并与不同的计算任务进行资源建模,然后根据相应的策略,并结合编排好的流程,调度相应的计算节点,获取统一资源调度控制信息;/n所述统一资源调度控制信息控制统一资源调度行为。/n

【技术特征摘要】
1.一种适用于多种计算框架的资源调度方法,其特征在于,包括:
计算任务管理步骤:进行插件化任务的注册、打包;
作业模型编排及引擎步骤:基于打包后的插件,面向不同的业务进行流程编排,并提供基于镜像的流程的解析引擎功能;
统一资源调度步骤:对各个计算节点的计算资源进行感知,并与不同的计算任务进行资源建模,然后根据相应的策略,并结合编排好的流程,调度相应的计算节点,获取统一资源调度控制信息;
所述统一资源调度控制信息控制统一资源调度行为。


2.根据权利要求1所述的适用于多种计算框架的资源调度方法,其特征在于,计算任务管理步骤包括:
上传步骤:根据计算任务信息、计算任务依赖文件信息,将计算任务及计算任务依赖文件上传至服务器中,获取计算任务结果信息、计算任务依赖文件结果信息;
软件版本管理步骤:根据计算任务上传结果信息、计算任务依赖文件上传结果信息,对用户上传的计算任务进行版本标注及管理,获取计算任务标注管理结果信息。


3.根据权利要求2所述的适用于多种计算框架的资源调度方法,其特征在于,计算任务管理步骤还包括:
计算框架版本管理步骤:建立计算任务版本与依赖的计算框架版本之间的映射关系;
容器化打包步骤:将基于不同计算框架的不同版本的计算任务分别进行容器化打包,生成计算任务版本唯一、计算框架版本唯一的计算任务镜像,获取计算任务镜像结果信息。


4.根据权利要求1所述的适用于多种计算框架的资源调度方法,其特征在于,所述作业模型编排及引擎步骤包括:
镜像节点及接口展现步骤:根据计算任务镜像结果信息,以镜像为节点,计算任务为核心进行展示,可视化提取计算任务的输入、输出参数作为镜像的I/O参数,并标明I/O参数的名称属性、类别属性、个数属性;
镜像流程业务编排步骤:以镜像为节点,依据实际生产环境的业务流程,通过连线来标明各个任务镜像之间的前后依赖关系,并标明各个镜像的执行先后次序,支持顺序结构、分支结构、合并结构;
镜像流程模型引擎步骤:对镜像流程模型进行解析,识别模型中的各个镜像依赖关系属性、参数属性,并通过调用资源调度接口,依次将镜像调度到不同的计算节点中运行。


5.根据权利要求1所述的适用于多种计算框架的资源调度方法,其特征在于,还包括:
异构平台统一感知步骤:统一感知不同硬件平台、不同操作步骤的计算资源,并匹配镜像的不同资源需求;
异构计算资源统一感知步骤:统一感知显卡计算资源,并提供感知接口定制接口单元;
计算资源的穿透访问步骤:计算任务穿透容器对物理资源进行访问,将基于容器的设备虚拟化;支持传统的MPI作业,通过容器和MPI作业管理插件实现对大规模并行作业的调度,启动、运行、统计、监控、挂起、迁移、断点运行等功能;
多策略调度步骤:基于容器镜像调度的资源的负载与优先调度;
容器镜像混合调度步骤:在同一集群环境中,多种异构计算框架同时运行,保持各个计算框架之间不冲突;
异常容错调度步骤:实时感知容器镜像健康状态,在发现容器异常的情况下,根据调度策略,在其他健康节点中进行容错调度。

【专利技术属性】
技术研发人员:王敬平姜鑫周洁沈晨黄子君徐文远杜真真褚少鹤
申请(专利权)人:华东计算技术研究所中国电子科技集团公司第三十二研究所
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1