一种任务调度方法与装置制造方法及图纸

技术编号:27219140 阅读:33 留言:0更新日期:2021-02-04 11:37
本发明专利技术提供一种任务调度方法与装置。该装置包括:作业请求收集与分发模块,至少一个调度服务模块,至少一个作业执行服务模块。作业请求收集与分发模块从用户终端接收待执行作业的第一描述信息。至少一个调度服务模块中与作业调度算法名称相匹配的当前调度服务模块,根据第一描述信息确定待执行作业所需要的计算资源,然后根据所需要的计算资源以及当前可用集群计算资源,确定作业调度结果。通过至少一个作业执行服务模块中与作业执行服务名称相匹配的当前作业执行服务模块,根据调度结果中包含的设备标识和待执行作业的全局标识,将待执行作业提交至高性能计算机。待执行作业提交至高性能计算机。待执行作业提交至高性能计算机。

【技术实现步骤摘要】
一种任务调度方法与装置


[0001]本申请涉及高性能计算领域,更具体的,涉及一种任务调度方法与装置。

技术介绍

[0002]跨集群计算服务环境聚合了由分布在不同地域,甚至归属不同组织机构的集群的计算资源,面向用户提供统一的计算服务环境。跨集群计算服务环境屏蔽了底层计算资源、作业管理系统、接入方式、管理制度等的异构性,为用户提供具有统一访问入口、使用方法和用户技术支持的高水平计算应用服务。
[0003]跨集群计算服务环境的多种任务调度算法与传统作业调度概念不同,是在集群作业资源管理系统之上的集群之间资源选择与匹配,属于应用层的任务调度。面对高并发、多计算模型、大数据存储下的跨集群计算,如何合理分配计算任务、充分利用计算资源,在满足用户应用需求的同时达到最佳能效,是任务调度策略的最基本、也是亟待解决的问题。

技术实现思路

[0004]本申请的目的是为了解决现有技术中存在的问题,能够通过软件配置的手段,快速将不同的任务调度算法集成到跨集群计算环境中,不影响运行中的服务。
[0005]第一方面,本申请提出一种任务调度装置,包括:作业请求收集与分发模块,至少一个调度服务模块,以及至少一个作业执行服务模块;其中:
[0006]所述作业请求收集与分发模块,用于接收待执行作业的作业执行请求,所述作业执行请求包括待执行作业的第一描述信息,所述第一描述信息包括作业调度算法名称以及待执行作业的全局标识;
[0007]所述至少一个调度服务模块中与所述作业调度算法名称相匹配的当前调度服务模块,用于根据所述第一描述信息以及至少一个可用计算集群的计算资源信息,确定作业调度结果;其中,所述作业调度结果包括作业全局标识、用于执行待执行作业的高性能计算机的设备标识以及作业执行服务名称;
[0008]所述至少一个作业执行服务模块中与所述作业执行服务名称相匹配的当前作业执行服务模块,用于接收所述当前调度服务模块确定的调度结果,并且根据所述调度结果中包含的设备标识和待执行作业的全局标识,将待执行作业提交至用于执行待执行作业的高性能计算机。
[0009]优选地,所述当前调度服务模块,还用于利用所述第一描述信息和所述作业调度结果生成第二描述信息,并向所述作业请求收集与分发模块提供所述第二描述信息;
[0010]所述作业请求收集与分发模块,还用于根据所述第二描述信息包含的所述作业调度结果中携带的作业执行服务名称,向所述当前作业执行服务模块分发所述第二描述信息。
[0011]优选地,所述第一描述信息还包括作业所需应用名称、作业所需队列名称以及作业所需高性能计算机的核数;
[0012]所述至少一个调度服务模块中与所述作业调度算法名称相匹配的当前调度服务模块,还用于获取计算资源信息;所述计算资源信息包括:应用列表以及应用资源;其中,所述应用列表用于指示所述至少一个可用计算集群的至少一个高性能计算机中各自部署的至少一个应用程序,所述应用资源用于指示所述至少一个计算集群中的每一个高性能计算机各自包含的至少一个计算队列,每个计算队列中包括其对应的高性能计算机的核数;
[0013]用于执行待执行作业的高性能计算机包含的至少一个计算队列中,包括所述作业所需队列名称;
[0014]用于执行待执行作业的高性能计算机对应的,并且名称为作业所需队列名称的当前队列中,包括的高性能计算机的可用核数不小于作业所需高性能计算机的核数;
[0015]用于执行所述待执行作业的高性能计算机部署的至少一个应用程序中,包括应用名称为所述作业所需应用名称的应用程序。
[0016]优选地,所述作业第一描述信息还包括作业名,作业所需应用程序的版本、作业预计运行时长。
[0017]第二方面,本申请提出一种任务调度方法,方法流程具体为:
[0018]接收待执行作业的作业执行请求,所述作业执行请求包括待执行作业的第一描述信息,所述第一描述信息包括作业调度算法名称以及待执行作业的全局标识;
[0019]通过至少一个调度服务模块中与所述作业调度算法名称相匹配的当前调度服务模块,根据所述第一描述信息以及至少一个可用计算集群的计算资源描述信息,确定作业调度结果;其中,所述作业调度结果包括作业全局标识、用于执行所述待执行作业的高性能计算机的设备标识以及作业执行服务名称;
[0020]通过至少一个作业执行服务模块中与所述作业执行服务名称相匹配的当前作业执行服务模块,接收所述当前调度服务模块确定的调度结果,并且根据所述调度结果中包含的设备标识和所述待执行作业的全局标识,将所述待执行作业提交至用于执行所述待执行作业高性能计算机。
[0021]优选地,方法还包括:通过所述当前调度服务模块,利用所述第一描述信息和所述作业调度结果生成第二描述信息,向所述作业请求收集与分发模块提供所述第二描述信息;
[0022]通过所述作业请求收集与分发模块,根据所述第二描述信息包含的所述作业调度结果中携带的作业执行服务名称,向所述当前作业执行服务模块分发所述第二描述信息。
[0023]优选地,所述第一描述信息还包括作业所需应用名称、作业所需队列名称以及作业所需高性能计算机的核数;
[0024]所述方法还包括:通过所述当前调度服务模块,获取计算资源信息;所述计算资源信息包括:应用列表以及应用资源;其中,所述应用列表用于指示所述至少一个可用计算集群的至少一个高性能计算机中各自部署的至少一个应用程序,所述应用资源用于指示所述至少一个计算集群中的每一个高性能计算机各自包含的至少一个计算队列,每个计算队列中包括其对应的高性能计算机的核数;
[0025]用于执行待执行作业的高性能计算机包含的至少一个计算队列中,包括所述作业所需队列名称;
[0026]用于执行待执行作业的高性能计算机对应的,并且名称为作业所需队列名称的当
前队列中,包括的高性能计算机的可用核数不小于作业所需高性能计算机的核数;
[0027]用于执行待执行作业的高性能计算机部署的至少一个应用程序中,包括应用名称为所述作业所需应用名称的应用程序。
[0028]优选地,方法中所述作业第一描述信息还包括作业名,作业所需应用程序的版本、作业预计运行时长。
[0029]通过本申请提供的任务调度方法及装置,任务调度算法严格按照标准开发,最后形成一个独立的服务,即形成一个独立的调度服务模块,多个调度服务之间互不影响,各个调度服务经过注册后直接部署至计算集群环境中即可,无需修改原有代码、不影响已有服务,具备高可扩展性。
附图说明
[0030]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0031]图1是本申请实施例中提供的一种任务调度装置的示意图;
[0032]图2是本申请实施例中提供的一种任务调度方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种任务调度装置,其特征在于,包括:作业请求收集与分发模块,至少一个调度服务模块,以及至少一个作业执行服务模块;其中:所述作业请求收集与分发模块,用于接收待执行作业的作业执行请求,所述作业执行请求包括待执行作业的第一描述信息,所述第一描述信息包括作业调度算法名称以及待执行作业的全局标识;所述至少一个调度服务模块中与所述作业调度算法名称相匹配的当前调度服务模块,用于根据所述第一描述信息以及至少一个可用计算集群的计算资源信息,确定作业调度结果;其中,所述作业调度结果包括作业全局标识、用于执行待执行作业的高性能计算机的设备标识以及作业执行服务名称;所述至少一个作业执行服务模块中与所述作业执行服务名称相匹配的当前作业执行服务模块,用于接收所述当前调度服务模块确定的调度结果,并且根据所述调度结果中包含的设备标识和待执行作业的全局标识,将待执行作业提交至用于执行待执行作业的高性能计算机。2.根据权利要求1所述的集成装置,其特征在于,所述当前调度服务模块,还用于利用所述第一描述信息和所述作业调度结果生成第二描述信息,并向所述作业请求收集与分发模块提供所述第二描述信息;所述作业请求收集与分发模块,还用于根据所述第二描述信息包含的所述作业调度结果中携带的作业执行服务名称,向所述当前作业执行服务模块分发所述第二描述信息。3.根据权利要求1所述的集成装置,其特征在于,所述第一描述信息还包括作业所需应用名称、作业所需队列名称以及作业所需高性能计算机的核数;所述至少一个调度服务模块中与所述作业调度算法名称相匹配的当前调度服务模块,还用于获取计算资源信息;所述计算资源信息包括:应用列表以及应用资源;其中,所述应用列表用于指示所述至少一个可用计算集群的至少一个高性能计算机中各自部署的至少一个应用程序,所述应用资源用于指示所述至少一个计算集群中的每一个高性能计算机各自包含的至少一个计算队列,每个计算队列中包括其对应的高性能计算机的核数;用于执行待执行作业的高性能计算机包含的至少一个计算队列中,包括所述作业所需队列名称;用于执行待执行作业的高性能计算机对应的,并且名称为作业所需队列名称的当前队列中,包括的高性能计算机的可用核数不小于作业所需高性能计算机的核数;用于执行所述待执行作业的高性能计算机部署的至少一个应用程序中,包括应用名称为所述作业所需应用名称的应用程序。4.根据权利要求1所述的集成装置,其特征在于,所述作业...

【专利技术属性】
技术研发人员:吴璨王小宁肖海力迟学斌和荣卢莎莎
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1