当前位置: 首页 > 专利查询>之江实验室专利>正文

异构作业调度系统及方法技术方案

技术编号:38664087 阅读:10 留言:0更新日期:2023-09-02 22:45
本申请涉及一种异构作业调度系统及方法。所述系统包括:插件总线、插件驱动和多个计算集群;每个计算集群通过插件驱动接入插件总线;驱动控制器用于获取插件驱动的注册信息,并根据注册信息对所有插件驱动进行注册认证;虚拟节点控制器用于获取插件驱动对应计算集群的软硬件信息以及计算集群的分区列表,根据分区列表以及软硬件信息,为每个分区分配虚拟节点并确定每个虚拟节点对应的软硬件信息;计算作业控制器用于获取用户上传的作业以及作业所需资源;调度器用于获取每个虚拟节点对应的软硬件信息以及每个作业对应的作业所需资源,确定虚拟节点与作业的调度结果。采用本系统能够实现集群部署操作简化和作业调度自动化,提高作业调度效率。提高作业调度效率。提高作业调度效率。

【技术实现步骤摘要】
异构作业调度系统及方法


[0001]本申请涉及计算机
,特别是涉及一种异构作业调度系统及方法。

技术介绍

[0002]随着信息技术的发展,人工智能和云计算取得了蓬勃发展,计算中心的建设方向从满足容量需求慢慢转变为满足多样的计算需求。然而,多样的计算需求也就意味着对计算集群有着多样的硬件和软件需求。
[0003]传统技术中,若要将计算集群部署至管理平台,则需要操作人员对每个节点分别进行部署操作,在运行过程中,还需要操作人员对每个计算集群的底层资源可用性进行识别,并基于作业的计算需求将作业分配给相应的计算集群。计算集群接入管理平台的操作复杂,还涉及重复性较高的操作,因此集群接入和作业调度的效率仍然较低。
[0004]由此可见,传统技术中仍然存在计算集群接入管理平台和作业调度操作复杂、效率低的问题。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够简化计算集群接入管理平台和作业调度操作流程、提高处理效率的异构作业调度系统及方法。
[0006]第一个方面,本实施例提供了一种异构作业调度系统,所述系统包括:插件总线、插件驱动和多个计算集群;每个所述计算集群通过所述插件驱动接入所述插件总线;所述插件总线包括:驱动控制器、虚拟节点控制器、调度器以及计算作业控制器;所述驱动控制器与所述插件驱动连接,用于获取所述插件驱动的注册信息,并根据所述注册信息对所有所述插件驱动进行注册认证;所述虚拟节点控制器与所述插件驱动连接,用于获取所述插件驱动对应计算集群的软硬件信息以及计算集群的分区列表,根据所述分区列表以及软硬件信息,为每个分区分配虚拟节点并确定每个虚拟节点对应的软硬件信息;所述计算作业控制器与所述调度器连接,用于获取用户上传的作业以及作业所需资源;所述调度器还与所述虚拟节点控制器连接;用于获取每个虚拟节点对应的软硬件信息以及每个作业对应的作业所需资源,确定虚拟节点与作业的调度结果。
[0007]在其中一个实施例中,所述驱动控制器,还用于对注册认证完成的所述插件驱动进行健康检测;当所述插件驱动基于所述健康检测的反馈信息为健康信息时,为所述插件驱动下发安全证书,并将所述插件驱动的驱动状态设置为运行中;当所述插件驱动基于所述健康检测的反馈信息为超时信息或非健康信息时,将所述插件驱动的驱动状态设置为失败,并对所述插件驱动进行队列隔离。
[0008]在其中一个实施例中,所述驱动控制器,还用于以预设时间为间隔,对所有所述插件驱动进行健康检测,当所述插件驱动基于健康检测的反馈信息为超时信息或非健康信
息,且超过预设次数时,删除所述插件驱动。
[0009]在其中一个实施例中,所述调度器包括一级调度器,所述计算集群包括二级调度器;所述一级调度器,用于获取每个虚拟节点对应的软硬件信息以及每个作业对应的作业所需资源,确定虚拟节点与作业的第一调度结果;所述二级调度器,用于获取每个虚拟节点对应的软硬件信息以及每个作业对应的作业所需资源,确定虚拟节点与作业的第二调度结果;所述一级调度器,还用于根据所述第一调度结果以及第二调度结果,生成最终调度结果。
[0010]在其中一个实施例中,所述虚拟节点控制器与所述调度器连接,用于获取虚拟节点与作业的调度结果,并根据所述调度结果向所述虚拟节点对应的插件驱动下发作业,以使插件驱动对应的计算集群运行所述作业。
[0011]在其中一个实施例中,所述虚拟节点控制器,还用于通过所述插件驱动获取对应计算集群的作业运行信息,所述作业运行信息包括:作业日志、作业告警记录以及作业完成进度。
[0012]在其中一个实施例中,所述计算作业控制器与所述虚拟节点控制器连接,所述计算作业控制器,还用于获取用户的作业查询指令,根据所述作业查询指令,从所述虚拟节点控制器获取对应作业的所述作业运行信息。
[0013]在其中一个实施例中,所述插件总线通过Kubernetes容器集群部署。
[0014]第二个方面,本实施例提供了一种异构作业调度方法,所述方法应用于如上述异构作业调度系统,所述方法包括:驱动控制器获取插件驱动的注册信息,并根据所述注册信息对所有所述插件驱动进行注册认证;虚拟节点控制器获取所述插件驱动对应计算集群的软硬件信息以及计算集群的分区列表,根据所述分区列表以及软硬件信息,为每个分区分配虚拟节点并确定每个虚拟节点对应的软硬件信息;计算作业控制器获取用户上传的作业以及作业所需资源;调度器获取每个虚拟节点对应的软硬件信息以及每个作业对应的作业所需资源,确定虚拟节点与作业的调度结果。
[0015]在其中一个实施例中,所述驱动控制器对注册认证完成的所述插件驱动进行健康检测;当所述插件驱动基于所述健康检测的反馈信息为健康信息时,为所述插件驱动下发安全证书,并将所述插件驱动的驱动状态设置为运行中;当所述插件驱动基于所述健康检测的反馈信息为超时信息或非健康信息时,将所述插件驱动的驱动状态设置为失败,并对所述插件驱动进行队列隔离。
[0016]上述异构作业调度系统及方法,通过在系统中设置插件总线、插件驱动和多个计算集群,其中,插件总线包括驱动控制器、虚拟节点控制器、调度器以及计算作业控制器,通过驱动控制器获取插件驱动的注册信息,并基于注册信息对插件驱动进行注册认证,可以实现计算集群部署的自动化;通过虚拟节点控制器获取计算集群的软硬件信息以及分区列表进行虚拟节点匹配和软硬件信息的确定,调度器根据每个虚拟节点的软硬件信息与作业
所需资源确定虚拟节点与作业的调度结果,可以实现异构计算集群插件化,使计算集群的接入更为简单,且可以实现计算集群的热插拔,简化计算集群接入的操作和提高接入效率;通过作业调度的自动化,还可以减少作业调度的人力成本,提高作业调度效率,进一步的提高计算集群整体计算效率。
附图说明
[0017]图1为一个实施例中异构作业调度系统的结构框图;图2为一个实施例中异构作业调度系统的时序图;图3为一个实施例中异构作业调度系统的时序图;图4为一个实施例中异构作业调度系统的时序图;图5为一个实施例中异构作业调度方法的流程示意图。
具体实施方式
[0018]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0019]如图1所示,本实施例提供了一种异构作业调度系统,所述系统包括:插件总线100、插件驱动200和多个计算集群300;每个所述计算集群300通过所述插件驱动200接入所述插件总线100;所述插件总线包括:驱动控制器110、虚拟节点控制器120、调度器130以及计算作业控制器140;所述驱动控制器110与所述插件驱动200连接,用于获取所述插件驱动200的注册信息,并根据所述注册信息对所有所述插件驱动200进行注册认证;所述虚拟节点控制器120与所述插件驱动200连接,用于获取所述插件驱动200对应计算集群300的软硬件信息以及计算集群300的分区列表,根据所述分区列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异构作业调度系统,其特征在于,所述系统包括:插件总线、插件驱动和多个计算集群;每个所述计算集群通过所述插件驱动接入所述插件总线;所述插件总线包括:驱动控制器、虚拟节点控制器、调度器以及计算作业控制器;所述驱动控制器与所述插件驱动连接,用于获取所述插件驱动的注册信息,并根据所述注册信息对所有所述插件驱动进行注册认证;所述虚拟节点控制器与所述插件驱动连接,用于获取所述插件驱动对应计算集群的软硬件信息以及计算集群的分区列表,根据所述分区列表以及软硬件信息,为每个分区分配虚拟节点并确定每个虚拟节点对应的软硬件信息;所述计算作业控制器与所述调度器连接,用于获取用户上传的作业以及作业所需资源;所述调度器还与所述虚拟节点控制器连接;用于获取每个虚拟节点对应的软硬件信息以及每个作业对应的作业所需资源,确定虚拟节点与作业的调度结果。2.根据权利要求1所述的异构作业调度系统,其特征在于,所述驱动控制器,还用于对注册认证完成的所述插件驱动进行健康检测;当所述插件驱动基于所述健康检测的反馈信息为健康信息时,为所述插件驱动下发安全证书,并将所述插件驱动的驱动状态设置为运行中;当所述插件驱动基于所述健康检测的反馈信息为超时信息或非健康信息时,将所述插件驱动的驱动状态设置为失败,并对所述插件驱动进行队列隔离。3.根据权利要求2所述的异构作业调度系统,其特征在于,所述驱动控制器,还用于以预设时间为间隔,对所有所述插件驱动进行健康检测,当所述插件驱动基于健康检测的反馈信息为超时信息或非健康信息,且超过预设次数时,删除所述插件驱动。4.根据权利要求1所述的异构作业调度系统,其特征在于,所述调度器包括一级调度器,所述计算集群包括二级调度器;所述一级调度器,用于获取每个虚拟节点对应的软硬件信息以及每个作业对应的作业所需资源,确定虚拟节点与作业的第一调度结果;所述二级调度器,用于获取每个虚拟节点对应的软硬件信息以及每个作业对应的作业所需资源,确定虚拟节点与作业的第二调度结果;所述一级调度器,还用于根据所...

【专利技术属性】
技术研发人员:王易围高翔潘爱民
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1