【技术实现步骤摘要】
一种层次化集群作业管理系统
[0001]本专利技术属于计算机
,具体涉及一种层次化集群作业管理系统。
技术介绍
[0002]集群是通过高性能网络将多台同构或者异构的计算机连接起来并协同完成特定任务的计算机群,它们对外部的表现就像一个系统在工作。
[0003]按照集群所使用的操作系统,集群可以分为windows集群和Linux集群,由于Linux操作系统的稳定性,目前已有的集群以Linux集群居多。
[0004]按照不同的用途,集群通常可以分为负载均衡集群、高可用性集群和超级计算集群。其中,负载均衡集群是希望集群中的每个节点能承担与其处理能力相当的负载,使得每个节点都不会因为负载过高而崩溃,这种集群一般应用于拥有大量访问的Web服务中;高可用性集群能提供不间断的服务,这种集群一般应用于实时性很高的系统中;而超级计算集群一般用于处理复杂的计算问题。
[0005]按照集群对用户作业的调度方式,集群又可以分为集中式调度集群和分布式调度集群。集中式调度集群中只有一台节点有调度用户作业的能力,所有的资源和作业都由该节点上配置的作业调度器进行调度;分布式调度集群中,有多个节点具有调度用户作业的能力。集中式调度集群的特点是实现和控制简单,但它存在扩展性比较差,容易引起单点失效而导致整个集群不可用的问题。分布式集群克服了集中式集群的缺点,可扩展性比较好,但是集群中多个调度器之间的交互和协同不易实现。
[0006]因此,集群可以由许多运行应用软件的计算机组成,在集群作业管理软件的统一调配下,协调工作 ...
【技术保护点】
【技术特征摘要】
1.一种层次化集群作业管理系统,其特征在于,包括作业分发模块、作业管理模块、资源管理模块;所述资源管理模块用于管理和监控系统中的各节点的资源使用情况;其中,将节点状态定义为三种状态,分别是free态、busy态、down态;其中,free态:又名空闲态,表示节点没有任务在运行,可以承担新的计算任务;busy态:又名忙碌态,表示节点正在执行任务,不能再承担新的计算任务;down态:又名异常态,表示该节点已经和管理节点失去联系,节点出现异常;节点的free、down和busy三种状态会在一定条件下相互转换,具体如下:(1)free态到busy态:当空闲节点承担了新的计算任务,该节点的状态就会从free态转换为busy态;(2)busy态到free态:当一个节点完成了所承担的计算任务而又没有新的计算任务需要完成,此时,该节点的状态会转换为free态;(3)free态到down态,busy态到down态:在节点运行的过程中,可能出现死机、网络不畅通、管理员强制节点为离线状态等,都会使节点的状态转换为down状态;(4)down态到free态、down态到busy态:节点要从down态转换到其它两种状态需要分析节点进入down态的原因并解决对应的问题,如果是由于宕机引起的,那么需要管理员手动重启机器;如果是由于网络不畅通引起的,那么需要解决网络故障;如果是管理员强制节点状态为离线状态,那么需要管理员取消该命令;所述作业分发模块包括任务均分子模块和节点异常处理子模块;任务均分子模块用于完成以下功能:让已经完成任务的节点去帮助任务执行缓慢的节点,以达到节点资源的均衡利用并缩短作业的处理时间的目的;节点异常处理子模块用于完成节点异常的处理;假设节点I承担了任务总量为W项的任务,当完成了L项任务以后,该节点发生异常,为了保证该节点上的任务能正确地完成,将该节点上未完成的任务组装成新的任务迁移到其它节点上继续进行执行,新的任务命名为异常迁移任务;所述作业管理模块包括作业脚本组装子模块和进度管理子模块;用户提交的作业被分发到各个计算节点,作业脚本组装子模块能够自动组装作业脚本,提供了向指定节点分发作业的功能;进度管理子模块提供各个作业的完成进度,也就是作业的完成率,假设一个作业需要生成N个文件,目前已经生成了S个文件,那么该作业的完成率Progress为:Progress=(S/N)*100%
ꢀꢀꢀꢀꢀꢀꢀ
(1)2.如权利要求1所述的系统,其特征在于,还包括数据管理模块:数据管理模块使用网络文件系统NFS,在一个存储容量大于预设阈值的的节点上配置NFS服务器,并划分一个目录用于用户数据的存储,其它节点挂载该目录。采用用户目录访问权限来保证用户数据在系统的安全性,也就是该数据空间只有超级管理员和用户本身才有访问权限,其它用户无法访问,采用域名信息服务NIS保证整个集群环境共享一套用户账户,每一个用户账户为一...
【专利技术属性】
技术研发人员:李谦,袁盾,刘康,贾磊,
申请(专利权)人:天津津航计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。