一种层次化集群作业管理系统技术方案

技术编号:27123312 阅读:15 留言:0更新日期:2021-01-25 19:38
本发明专利技术涉及一种层次化集群作业管理系统,属于计算机技术领域。本发明专利技术的集群作业管理系统能够满足用户对计算平台的基本需求,为用户提供高效、可靠的应用服务,在集群环境出现节点异常的情况下能够保证用户作业的正确完成。系统可以使用户实时查看进度,并通过设置权限,保证用户数据的安全性。保证用户数据的安全性。保证用户数据的安全性。

【技术实现步骤摘要】
一种层次化集群作业管理系统


[0001]本专利技术属于计算机
,具体涉及一种层次化集群作业管理系统。

技术介绍

[0002]集群是通过高性能网络将多台同构或者异构的计算机连接起来并协同完成特定任务的计算机群,它们对外部的表现就像一个系统在工作。
[0003]按照集群所使用的操作系统,集群可以分为windows集群和Linux集群,由于Linux操作系统的稳定性,目前已有的集群以Linux集群居多。
[0004]按照不同的用途,集群通常可以分为负载均衡集群、高可用性集群和超级计算集群。其中,负载均衡集群是希望集群中的每个节点能承担与其处理能力相当的负载,使得每个节点都不会因为负载过高而崩溃,这种集群一般应用于拥有大量访问的Web服务中;高可用性集群能提供不间断的服务,这种集群一般应用于实时性很高的系统中;而超级计算集群一般用于处理复杂的计算问题。
[0005]按照集群对用户作业的调度方式,集群又可以分为集中式调度集群和分布式调度集群。集中式调度集群中只有一台节点有调度用户作业的能力,所有的资源和作业都由该节点上配置的作业调度器进行调度;分布式调度集群中,有多个节点具有调度用户作业的能力。集中式调度集群的特点是实现和控制简单,但它存在扩展性比较差,容易引起单点失效而导致整个集群不可用的问题。分布式集群克服了集中式集群的缺点,可扩展性比较好,但是集群中多个调度器之间的交互和协同不易实现。
[0006]因此,集群可以由许多运行应用软件的计算机组成,在集群作业管理软件的统一调配下,协调工作,以并行方式完成所分配的计算任务,整个过程是自动化和智能化的,它代表了制作技术的发展方向。在集群应用模式下,为了能保证用户快速得到正确的计算结果,需要解决如下问题:用户的作业如何在集群环境下进行合理分发以充分利用集群资源进而快速获得计算结果;集群中节点异常如何检测以及在节点出现异常情况下如何保证用户能得到正确的计算结果;如何为用户提供更方便的交互操作;如何定价用户的作业等。。

技术实现思路

[0007](一)要解决的技术问题
[0008]本专利技术要解决的技术问题是:如何设计一种集群作业管理系统,满足用户对计算平台的基本需求,为用户提供高效、可靠的应用服务。
[0009](二)技术方案
[0010]为了解决上述技术问题,本专利技术提供了一种层次化集群作业管理系统,包括作业分发模块、作业管理模块、资源管理模块;
[0011]所述资源管理模块用于管理和监控系统中的各节点的资源使用情况;
[0012]其中,将节点状态定义为三种状态,分别是free态、busy态、down态;其中,free态:又名空闲态,表示节点没有任务在运行,可以承担新的计算任务;busy态:又名忙碌态,表示
节点正在执行任务,不能再承担新的计算任务;down态:又名异常态,表示该节点已经和管理节点失去联系,节点出现异常;
[0013]节点的free、down和busy三种状态会在一定条件下相互转换,具体如下:
[0014](1)free态到busy态:当空闲节点承担了新的计算任务,该节点的状态就会从free态转换为busy态;
[0015](2)busy态到free态:当一个节点完成了所承担的计算任务而又没有新的计算任务需要完成,此时,该节点的状态会转换为free态;
[0016](3)free态到down态,busy态到down态:在节点运行的过程中,可能出现死机、网络不畅通、管理员强制节点为离线状态等,都会使节点的状态转换为down状态;
[0017](4)down态到free态、down态到busy态:节点要从down态转换到其它两种状态需要分析节点进入down态的原因并解决对应的问题,如果是由于宕机引起的,那么需要管理员手动重启机器;如果是由于网络不畅通引起的,那么需要解决网络故障;如果是管理员强制节点状态为离线状态,那么需要管理员取消该命令;
[0018]所述作业分发模块包括任务均分子模块和节点异常处理子模块;
[0019]任务均分子模块用于完成以下功能:让已经完成任务的节点去帮助任务执行缓慢的节点,以达到节点资源的均衡利用并缩短作业的处理时间的目的;
[0020]节点异常处理子模块用于完成节点异常的处理;假设节点I承担了任务总量为W项的任务,当完成了L项任务以后,该节点发生异常,为了保证该节点上的任务能正确地完成,将该节点上未完成的任务组装成新的任务迁移到其它节点上继续进行执行,新的任务命名为异常迁移任务;
[0021]所述作业管理模块包括作业脚本组装子模块和进度管理子模块;
[0022]用户提交的作业被分发到各个计算节点,作业脚本组装子模块能够自动组装作业脚本,提供了向指定节点分发作业的功能;
[0023]进度管理子模块提供各个作业的完成进度,也就是作业的完成率,假设一个作业需要生成N个文件,目前已经生成了S个文件,那么该作业的完成率Progress为:
[0024]Progress=(S/N)*100%
ꢀꢀꢀꢀꢀꢀ
(1)
[0025]优选地,还包括数据管理模块:数据管理模块使用网络文件系统NFS,在一个存储容量大于预设阈值的的节点上配置NFS服务器,并划分一个目录用于用户数据的存储,其它节点挂载该目录。
[0026]采用用户目录访问权限来保证用户数据在系统的安全性,也就是该数据空间只有超级管理员和用户本身才有访问权限,其它用户无法访问,采用域名信息服务NIS保证整个集群环境共享一套用户账户,每一个用户账户为一个集群用户。
[0027]优选地,还包括计费管理模块,用于采用一定的计费策略实现对用户作业定价的功能。
[0028]优选地,所述计费管理模块具体采用如下计费策略实现对用户作业定价的功能:
[0029](1)用户作业完成才计费,其它状态均不计费;
[0030](2)用户的每个作业所产生的费用F为:
[0031][0032]式中:
[0033]Num表示该作业对应的任务的个数;
[0034]T
n
表示作业对应的每一个任务的执行时间;
[0035]B是费用基数,其单位是单节点每小时多少元;
[0036]因此,表示作业对应的所有任务在单节点上进行计算的时间总和。
[0037]优选地,还包括用户管理模块:用于在用户管理方面提供注册用户、更新用户、删除用户操作。
[0038]优选地,所述用户管理模块实现的用户注册流程如下:
[0039](1)系统用户注册:用户通过正确填写表单,系统将用户的注册信息写入数据库以完成系统用户的注册;并创建相应的数据空间;
[0040](2)集群用户注册:系统调用相应的用户注册脚本在系统上完成相应的集群用户的注册,并创建相应的数据空间;
[0041](3)更新NIS信息:写入新注册的集群用户信息。
[0042]优选地,所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种层次化集群作业管理系统,其特征在于,包括作业分发模块、作业管理模块、资源管理模块;所述资源管理模块用于管理和监控系统中的各节点的资源使用情况;其中,将节点状态定义为三种状态,分别是free态、busy态、down态;其中,free态:又名空闲态,表示节点没有任务在运行,可以承担新的计算任务;busy态:又名忙碌态,表示节点正在执行任务,不能再承担新的计算任务;down态:又名异常态,表示该节点已经和管理节点失去联系,节点出现异常;节点的free、down和busy三种状态会在一定条件下相互转换,具体如下:(1)free态到busy态:当空闲节点承担了新的计算任务,该节点的状态就会从free态转换为busy态;(2)busy态到free态:当一个节点完成了所承担的计算任务而又没有新的计算任务需要完成,此时,该节点的状态会转换为free态;(3)free态到down态,busy态到down态:在节点运行的过程中,可能出现死机、网络不畅通、管理员强制节点为离线状态等,都会使节点的状态转换为down状态;(4)down态到free态、down态到busy态:节点要从down态转换到其它两种状态需要分析节点进入down态的原因并解决对应的问题,如果是由于宕机引起的,那么需要管理员手动重启机器;如果是由于网络不畅通引起的,那么需要解决网络故障;如果是管理员强制节点状态为离线状态,那么需要管理员取消该命令;所述作业分发模块包括任务均分子模块和节点异常处理子模块;任务均分子模块用于完成以下功能:让已经完成任务的节点去帮助任务执行缓慢的节点,以达到节点资源的均衡利用并缩短作业的处理时间的目的;节点异常处理子模块用于完成节点异常的处理;假设节点I承担了任务总量为W项的任务,当完成了L项任务以后,该节点发生异常,为了保证该节点上的任务能正确地完成,将该节点上未完成的任务组装成新的任务迁移到其它节点上继续进行执行,新的任务命名为异常迁移任务;所述作业管理模块包括作业脚本组装子模块和进度管理子模块;用户提交的作业被分发到各个计算节点,作业脚本组装子模块能够自动组装作业脚本,提供了向指定节点分发作业的功能;进度管理子模块提供各个作业的完成进度,也就是作业的完成率,假设一个作业需要生成N个文件,目前已经生成了S个文件,那么该作业的完成率Progress为:Progress=(S/N)*100%
ꢀꢀꢀꢀꢀꢀꢀ
(1)2.如权利要求1所述的系统,其特征在于,还包括数据管理模块:数据管理模块使用网络文件系统NFS,在一个存储容量大于预设阈值的的节点上配置NFS服务器,并划分一个目录用于用户数据的存储,其它节点挂载该目录。采用用户目录访问权限来保证用户数据在系统的安全性,也就是该数据空间只有超级管理员和用户本身才有访问权限,其它用户无法访问,采用域名信息服务NIS保证整个集群环境共享一套用户账户,每一个用户账户为一...

【专利技术属性】
技术研发人员:李谦袁盾刘康贾磊
申请(专利权)人:天津津航计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1