一种高性能作业调度管理节点双机加固方法及设备技术

技术编号:9906894 阅读:117 留言:0更新日期:2014-04-11 05:46
提供一种高性能作业调度管理节点双机加固方法,同时对主管理节点的心跳信息和作业系统资源进行监控,当发现主管理节点的心跳信息或者作业系统资源发生故障时,启动管理节点切换。同时还提供相应装置。所述方法和装置实现对作业调度管理节点的双机加固,并能够对作业系统资源进行监控,有效的弥补了传统方法的不足。

【技术实现步骤摘要】
【专利摘要】提供一种高性能作业调度管理节点双机加固方法,同时对主管理节点的心跳信息和作业系统资源进行监控,当发现主管理节点的心跳信息或者作业系统资源发生故障时,启动管理节点切换。同时还提供相应装置。所述方法和装置实现对作业调度管理节点的双机加固,并能够对作业系统资源进行监控,有效的弥补了传统方法的不足。【专利说明】一种高性能作业调度管理节点双机加固方法及设备
本专利技术涉及计算机
,具体涉及一种作业调度管理节点的双机加固。
技术介绍
当前,基于网络的计算机技术,促进了集群系统的发展和广泛应用。用高速网络将高性能工作站或个人电脑(PC)按某种结构连接成集群,实现并行计算,只需要很小的花费就可以得到大型机和并行机的性能。然而,随着高性能计算机集群应用规模的不断扩充,集群的管理问题也随之而来。作业调度系统主要负责接收用户提交的作业请求,并根据特定的调度规则以及用户对作业的要求选择合适的计算资源来完成用户作业。在作业调度系统的帮助下,对用户而言高性能计算集群系统就好像一台具备很多CPU的大服务器,多个用户可以同时使用这个系统。作业调度系统管理用户提交的作业,为各个作业合理地分配资源,从而确保充分利用集群系统的计算能力,并尽可能迅速地得到运算结果。因此作业调度系统的重要性也就不言而喻。传统的加固方法包括管理节点单机部署,或者使用心跳(heartbeat)方案进行双机加固。这两种方式都存在一定的缺陷漏洞,例如采用管理节点单机部署的方式,一旦该管理节点发生故障,便会导致整个集群的作业调度系统停止工作,整个集群的作业无法进行合理有效的调度,作业运行也就会出现停滞,严重影响系统运行效率;再如采用心跳方案进行双机加固,由于心跳软件自身的设计因素,并不能对作业调度系统实行资源级监控,一旦监控的资源出现故障,就不能有效的进行资源切换,同样会导致整个集群作业无法进行合理有效的调度,严重影响系统运行效率。因上述两种加固方式均存在致命缺点,故如何更加有效的对作业调度系统进行加固就成为一个亟待解决的技术问题。
技术实现思路
本专利技术提出一种高性能作业调度管理节点双机加固方法及设备,一方面避免了单机部署造成的单点故障问题,另一方面,提供了对作业系统资源的监控,能够有效的弥补传统方法的不足。一种高性能作业调度管理节点双机加固方法,包括:步骤1:将NFS服务器的共享目录挂载到作业调度双机管理节点上,启动心跳监控和资源监控;步骤2:心跳监控和资源监控分别对当前主管理节点的心跳信息和作业系统资源进行监控;步骤3:判断当前主管理节点的所述心跳信息或作业系统资源是否发生故障,如果是则启动管理节点切换。一种高性能作业调度管理节点双机加固装置,包括:心跳监测模块,配置用于对当前主管理节点的心跳信息进行监控,并向资源监测模块报告心跳故障消息;资源监测模块,配置用于对当前主管理节点的作业系统资源进行监控,并在接收到心跳故障消息或者判断所述作业系统资源出现故障时,启动管理节点切换。本专利技术的有益效果是实现对作业调度管理节点的双机加固,同时也实现了对作业系统资源的监控,能够有效的弥补传统方法的不足。【专利附图】【附图说明】图1是本专利技术提出的一种高性能作业调度管理节点双机加固方法的运行原理框图。图2是本专利技术提出的一种高性能作业调度管理节点双机加固方法的流程图。图3是本专利技术提出的一种高性能作业调度管理节点双机加固装置的原理框图。【具体实施方式】参照图1,图1示出了本专利技术提出的方法的运行原理框图,在管理节点I (主管理节点)和管理节点2上运行本专利技术提出的方法,心跳监测模块实时监测主管理节点的心跳信息,在发现主管理节点的心跳出现故障时,报告资源监控模块。资源监控模块实时监控主管理节点上的作业系统资源,当发现作业系统资源出现故障时或者接收到心跳监测模块报告的主管理节点心跳故障时,启动管理节点切换过程,使得管理节点2变为主管理节点。参照附图2,图2示出了本专利技术提出的一种高性能作业调度管理节点双机加固方法流程图,包括:步骤1:将NFS服务器的共享目录挂载到作业调度双机管理节点上,启动心跳监控(corosync)和资源监控(pacemaker)。所述心跳监控和资源监控分别对管理节点I和管理节点2进行监控,其中管理节点I作为主管理节点,管理节点2作为备节点,管理节点I和管理节点2构成作业调度双机节点。用户可以事先对心跳监控和资源监控参数进行配置,例如配置资源的监控时长timeout、监控间隔interval、资源的分组以及启动顺序,同时需要配置ST0NITH,这样可以最大限度的保障资源的可用性。步骤2:心跳监控和资源监控分别对当前主管理节点的心跳信息和作业系统资源进行监控。步骤3:判断当前主管理节点的所述心跳信息或作业系统资源是否发生故障,如果是则启动管理节点切换。参见图3,图3示出了本专利技术提出的一种高性能作业调度管理节点双机加固装置,所述装置包括:心跳监测模块,配置用于对当前主管理节点的心跳信息进行监控,并向资源监测模块报告心跳故障消息;资源监测模块,配置用于对当前主管理节点的作业系统资源进行监控,并在接收到心跳故障消息或者判断所述作业系统资源出现故障时,启动管理节点切换。当然,本专利技术还可有其他多种实施例,在不背离本专利技术精神及其实质的情况下,熟悉本领域的技术人员当可根据本专利技术作出各种相应的改变和变形,但这些相应的改变和变形都应属于本专利技术的权利要求的保护范围。【权利要求】1.一种高性能作业调度管理节点双机加固方法,其特征在于,包括: 步骤1:将NFS服务器的共享目录挂载到作业调度双机管理节点上,启动心跳监控和资源监控; 步骤2:心跳监控和资源监控分别对当前主管理节点的心跳信息和作业系统资源进行监控; 步骤3:判断当前主管理节点的所述心跳信息或作业系统资源是否发生故障,如果是则启动管理节点切换。2.如权利要求1所述的方法,其特征在于: 用户事先对心跳监控和资源监控参数进行配置,所述参数包括监控时长timeout,监控间隔 interval。3.一种高性能作业调度管理节点双机加固装置,其特征在于:包括: 心跳监测模块,配置用于对当前主管理节点的心跳信息进行监控,并向资源监测模块报告心跳故障消息; 资源监测模块,配置用于对当前主管理节点的作业系统资源进行监控,并在接收到心跳故障消息或者判断所述作业系统资源出现故障时,启动管理节点切换。【文档编号】G06F11/16GK103713974SQ201410007013【公开日】2014年4月9日 申请日期:2014年1月7日 优先权日:2014年1月7日 【专利技术者】马四腾 申请人:浪潮(北京)电子信息产业有限公司本文档来自技高网
...

【技术保护点】
一种高性能作业调度管理节点双机加固方法,其特征在于,包括:步骤1:将NFS服务器的共享目录挂载到作业调度双机管理节点上,启动心跳监控和资源监控;步骤2:心跳监控和资源监控分别对当前主管理节点的心跳信息和作业系统资源进行监控;步骤3:判断当前主管理节点的所述心跳信息或作业系统资源是否发生故障,如果是则启动管理节点切换。

【技术特征摘要】

【专利技术属性】
技术研发人员:马四腾
申请(专利权)人:浪潮北京电子信息产业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1