一种去中心化的跨集群资源管理与任务调度系统与调度方法技术方案

技术编号:8934441 阅读:395 留言:0更新日期:2013-07-18 03:01
本发明专利技术涉及一种去中心化的跨集群资源管理与任务调度系统与调度方法,该调度系统包括:提供管理与协调服务的子系统,收集其它子系统的信息,提供监控、报表与计费、资源共享协调工作,同时对高性能计算系统的管理、规划提供决策参考;提供计算服务的子系统,设置有高性能计算节点的数据中心,作为提供计算子系统,同时收集本地和远程的资源,以此为依据进行作业调度;提供接入的子系统,为用户提供本地化的作业提交、管理访问服务。本发明专利技术去中心化的跨集群资源管理与任务调度方法整合单集群资源,一方面提高了作业的执行效率,提高了用户体验,另一方面也有效利用了现有资源,使资源得到最大化利用,节省了购买硬件以扩充计算能力的成本。

【技术实现步骤摘要】

本专利技术涉及一种跨集群的资源管理与任务调度系统与调度方法,特别是涉及一种 去中心化的跨集群资源管理与任务调度系统与调度方法
技术介绍
单集群作业调度程序已经实现了单集群的作业调度及负载均衡,一旦作业过多, 所需计算资源大于集群的现有资源,将造成低优先级作业的等待,势必影响用户的使用体 验,因此,寻求一种跨集群资源管理与任务调度方法十分必要。跨集群资源管理和作业调度 分为中心化管理调度和去中心化作业管理调度,中心化管理调度存在中心失效导致系统整 体瘫痪的问题,而且中心集群的安全也直接影响系统中其他集群的安全,而去中心化管理 调度是一种网状结构,单集群的问题不会影响整体系统,因此,需要寻找一种提高作业调度 的效率,节省数据传输时间的去中心化的跨集群资源管理与任务调度方法。
技术实现思路
针对以上专利技术的目的在于提供一种去中心化的跨集群资源管理与任务调度系统 与调度方法,以解决作业所需资源大于集群已有资源时,作业的执行效率问题。每个集群系统都可成为一个自组织和自管理的子系统,同时多个集群又可联合起 来构成一个网状的系统进行统一管理和使用。此过程对用户是透明的,用户无需关心其任 务在哪台主机或哪个集群中运行,只需通过Web页面进行简单的作业提交即可使用多个集 群中庞大的计算资源。系统分为三个模块,分别为:个性化门户、资源监控器和任务管理器。 个性化门户是一个web门户页面,提供给用户一个提交任务的界面,负责与用户交互。资源 监控器负责本地集群及远端集群的资源监控,资源监控为任务分发提供依据。任务管理器 负责任务执行和任务分发,在本地资源满足任务要求的前提下,任务管理器优先将任务调 度至本地集群执行,在本地资源不足而外集群资源充足的情况下,任务管理器将任务分发, 调度至别的集群执行任务,并在任务完成后收回结果文件。系统运行过程分为以下三个部 分:一、本地集群资源的管理和任务执行由于带宽等因素的制约,用户提交任务将优先使用本地资源。本地集群中的资源 包括硬件资源、软件资源和服务资源三类,由资源管理中心进行统一管理和使用。集群中的 资源可动态变化,即支持资源的随时移入和移出。用户提交的后,任务管理器向资源管理中 心提出查询请求,资源管理中心收集集群内资源信息,并将结果返回给任务调度器。本地资 源可以满足需求时,任务由任务管理器加入任务队列,等待分配资源执行,执行完毕后通知 用户并将结果返回。二、本地资源不足时,跨集群使用远程资源当出现以下几种情况,将使用跨集群的资源:1.本地集群没有任务执行所需的资源。如任务需要使用ansys软件,本地资源没有,而其它集群有此类软件。2.本地负载过 重。如任务排队现象过于严重。此时,资源管理中心则与其他集群的资源管理中心进行通 讯,收集其它集群的状态信息,为任务的跨集群调度提供数据支持。三、将任务调度至其他集群执行并进行管理本地集群的资源无法满足任务的需求时,任务管理器将根据其它集群资源管理中 心反馈回的结果择优挑选目的集群,进行跨集群的任务调度。任务将由其他集群的任务管 理器加入其任务队列。本地的任务管理器也可对其调度出的任务进行kill、结果取回等操 作。对于运行时间较长的任务,还可以随时取回中间结果以方便用户核对与使用。跨集群作业调度模块完成的任务是将本地集群排队的作业合理地分配到其他集 群计算,待作业完成后,能够快速及时地获取作业结果。跨集群作业调度模块遵循集群间负 载均衡的原理,实现跨集群作业调度策略。跨集群作业调度策略将综合考虑集群间的物理 距离,网络传输速度,各集群计算能力等因素。跨集群作业调度模块的主要功能有:(I)作业控制:支持用户对其提交作业的控制,包括对作业的提交、删除、修改和监 视功能以及用户对作业结果的取回。此外还支持管理员对用户提交作业的全局管理功能。(2)作业处理辅助:为作业处理提供前期准备和后续支持,包括建立批处理作业, 将处理作业加入执行队列,定时记录作业处理情况、将作业结果存放至指定位置,便于用户 取回等功能。(3)作业处理控制:根据用户需求,对作业的处理进行控制,包括对作业计算时间、 占用CPU数目、占用内存大小、存储数据大小等进行控制。(4)高效的调度策略:由于计算能力、用户需求不同,提供对作业优先级、资源使用 优先级、用户份额控制,保证用户满意度和资源的使用效率。(5)负载均衡:分布式和并行计算时,应考虑负载均衡问题,跨集群作业调度模块 可以根据各集群的负载情况,综合考虑数据传输效率,为等待作业分配计算资源,确保作业 的运行效率。本专利技术的目的通过以下技术方案来实现:一种去中心化的跨集群资源管理与任务调度系统,该调度系统包括:提供管理与协调服务的子系统,收集其它子系统的信息,提供监控、报表与计费、 资源共享协调工作,同时对高性能计算系统的管理、规划提供决策参考;提供计算服务的子系统,设置有高性能计算节点的数据中心,作为提供计算子系 统,同时收集本地和远程的资源,以此为依据进行作业调度;提供接入的子系统,为用户提供本地化的作业提交、管理访问服务。进一步,所述提供管理与协调服务的子系统、提供计算服务的子系统和提供接入 的子系统分别包括:个性化门户,用于与客户交互请求资源信息;资源监控器,用于对本地集群及远端集群的资源监控,为任务管理分发提供依 据;任务管理器,用于对本地集群资源和外集群资源进行分析,对请求任务进行分配。3进一步,所述提供管理与协调服务的子系统,提供计算服务的子系统和提供接入 的子系统之间的调用采用web service实现,保证接口的统一性和对防火墙的跨越性—种去中心化的跨集群资源管理与任务调度方法,该方法包括:I)个性化门户提供用户交互界面,提交任务至任务管理器;2 )资源监控器搜集本地集群或者跨集群搜集可用资源信息;3)根据获取的可用资源信息,任务管理器选择任务分配的目的集群并由该集群执 行分配任务。进一步,所述步骤2中资源监控器搜集本地集群资源的具体方法为:资源监控器 每隔一定的时间收集本集群及其他集群的资源信息,当有任务通过门户提交时,任务管理 器查看资源管理中心收集集群内资源信息,如是否有所需软件、是否计算资源足够、任务队 列是否过长等,并对采集到的信息进行判断,如果能够满足条件则将该任务加入到本地队 列中,任务队列按照优先级与加入时间依次执行,任务执行完毕后将结果返回给个性化门 户。进一步,所述步骤2中资源监控器跨集群搜集资源时的具体方法为:每个集群通 过本地的个性化门户接受到任务后,资源监控器查询本地资源能否满足计算需求,如能满 足,则在集群内部完成任务,如果不能满足计算需求,则遍历配置文件中的集群,选取合适 的集群并将任务分配至该集群上。进一步,所述步骤3中集群执行分配任务的具体步骤包括:(I)用户登录本地门户,验证通过后,提交任务;(2)提交作业时,任务管理器根据本地资源管理中心提供的数据,判断本地资源是 否满足需求;(3)如果本地资源满足任务的需求则使用本地调度组件将任务提交至本地运行;(4)如果本地资源无法满足任务的需求,则跨集群收集信息,使用远程调度组件将 任务转发至适当的集群系统;(5)远程的集群系统要根据所需进行许可证license申请;申请成功后执行计算 资源预留操作;预留成功后再发出数据文本文档来自技高网...

【技术保护点】
一种去中心化的跨集群资源管理与任务调度系统,其特征在于,该调度系统包括:提供管理与协调服务的子系统,收集其它子系统的信息,提供监控、报表与计费、资源共享协调工作,同时对高性能计算系统的管理、规划提供决策参考;提供计算服务的子系统,设置有高性能计算节点的数据中心,作为提供计算子系统,同时收集本地和远程的资源,以此为依据进行作业调度;提供接入的子系统,为用户提供本地化的作业提交、管理访问服务。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴增巍王琪
申请(专利权)人:北京仿真中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1