一种与作业调度系统相结合的资源检测预处理方法技术方案

技术编号:8271323 阅读:215 留言:0更新日期:2013-01-31 03:31
本法明涉及一种与作业调度系统相结合的资源检测预处理方法,包括下述步骤:(1)启用作业调度器预处理功能;(2)作业调度器读取计算节点资源配置文件;(3)对计算节点资源进行内容检测;(4)当发现计算节点资源异常内容时,判断是否需要启动自处理过程;(5)判断是否对计算节点资源异常内容进行自处理;(6)对计算节点资源异常内容进行自处理;(7)通过SMTP或SMGP扩展配置接口将计算节点资源异常内容以短信或邮件的形式发送给使用者;(8)将操作过程记录到日志文件中。针对“存储资源的可靠性”和“准备文件可用性”这两问题给出了自处理方案,并提供相关的自动处理和配置文件,真正做到简单、可配置、可扩展。处理效率高,省时省力。

【技术实现步骤摘要】
本专利技术涉及一种高性能计算集群领域的预处理方法,具体涉及一种与作业调度系统相结合的资源检测预处理方法
技术介绍
大规模集群作业调度系统最常见的问题之一就是资源(包括计算节点资源、存储资源等)已经出现了异常(非节点下线异常),但调度系统却未能捕获该异常,以至于作业被调度到异常节点资源上,或使用了其他异常资源,导致作业最终无法正常完成。这样将造成资源和时间的大量浪费,且无法得到正常的作业运行结果。 Torque 5. O中提供了计算节点健康检测的功能,并且配合调度器(如Maui)将健康状态异常节点的状态置为Down。Torque的节点健康检测功能通过指定监测脚本,获取检测脚本的运行输出信息,如果输出信息以“ERROR”开头,则调度器将该节点的状态设为Down。同时,可以设置节点检测间隔。现有技术存在以下问题首先,Torque所提供的计算节点健康检测功能要求使用者自行编写相应检测脚本或Linux下的可执行程序,这样就要求使用者具有一定的检测脚本或应用检测程序开发能力,使用难度较大;其次,Torque所提供的计算节点健康检测功能仅在检测异常时,利用调度器将节点状态设置为Down,并没有提供相应的异常自动处理功能。
技术实现思路
针对现有技术的不足,本专利技术提供一种与作业调度系统相结合的资源检测预处理方法。本专利技术在开源的集群作业调度资源管理系统Torque计算节点健康检测功能的基础之上,针对“存储资源的可靠性”和“准备文件可用性”这两问题给出了自处理方案,并提供了相关的自动处理和配置文件,真正做到了简单、可配置、可扩展。本专利技术的目的是采用下述技术方案实现的—种与作业调度系统相结合的资源检测预处理方法,其改进之处在于,所述方法包括下述步骤(I)启用作业调度器预处理功能;(2)所述作业调度器读取计算节点资源配置文件;(3)对计算节点资源进行内容检测;(4)当发现计算节点资源异常内容时,判断是否需要启动自处理过程;(5)判断是否对计算节点资源异常内容进行自处理;(6)对计算节点资源异常内容进行自处理;(7)通过SMTP或SMGP扩展配置接口将所述计算节点资源异常内容以短信或邮件的形式发送给使用者;(8)将操作过程记录到日志文件中。其中,所述步骤(2)中,所述计算节点资源配置文件用health, prop配置文件表/Jn ο其中,所述health, prop配置文件的内容包括A、是否启用资源监测预处理功能,默认为Yes ;B、准备文件(准备文件属于被检测对象之一,对其检测方式仅为可用性检测)可用性对象,即检查指定文件是否存在,默认为空;C、所要检测容量的目录或分区是否存在,默认为空;D、自动处理过程触发阈值,当所指定目录或分区使用容量超出该阈值时,将启动 自动处理过程,默认为O. 8,即当指定目录或分区使用量超过80%时,则启动自动处理过程;E、自动处理时,处理文件对象的最小值,默认1BM,即仅处理文件大小大于IBM的文件;F、自动处理时,处理文件对象需早于此日期前产生,默认值为7,即仅处理一周以前生产的文件;G、自动处理时,只处理属于某个任务组的文件,默认值为空,即处理所有组的文件;H、自动处理时,只处理属于某个人的文件,默认值为空,即处理所有人的文件。其中,所述步骤(3)中,对计算节点资源中脚本文件的内容进行检测;所述脚本文件用 node_check. scp 表不。其中,所述步骤(4)中,若需要启动自处理过程,则进行步骤(5);否则返回步骤(I)。其中,所述步骤(5)中,若对计算节点资源异常内容进行处理时则进行步骤(6);否则进行步骤(7)。其中,所述步骤(6 )中,对计算节点资源异常内容进行自处理后将处理过程记录到日志文件中,即进行步骤(8)。其中,所述步骤(8)中,所述操作过程包括对计算节点资源异常内容进行处理时的处理过程和发送给使用者的发送过程;所述日志文件用health, log表示。与现有技术比,本专利技术达到的有益效果是本专利技术在开源的集群作业调度资源管理系统Torque计算节点健康检测功能的基础之上,针对“存储资源的可靠性”和“准备文件可用性”这两问题给出了自处理方案,并提供了相关的自动处理和配置文件,真正做到了简单、可配置、可扩展。处理效率高,省时省力,处理的可靠性提高。附图说明图I是本专利技术提供的pbs_mom config部分为Torque所提供健康检测功能的配置文件示意图;图2是本专利技术提供的与作业调度系统相结合的资源检测预处理方法流程图。具体实施例方式下面结合附图对本专利技术的具体实施方式作进一步的详细说明。高性能计算集群(HPCC,High Performance Computing Cluster):计算机科学的一个分支,以解决复杂的科学计算或数值计算问题为目的,是由多台节点机(服务器)构成的一种松散耦合的计算节点集合。本专利技术在Torque计算节点健康检测功能的基础之上,为使用者提供了一套简单、可配置、可扩展的节点检测预处理方案。在与众多高性能计算集群使用者的沟通过程中,我们了解到,在集群资源的使用过程中,使用者所担心的计算资源异常的情况主要集中在“存储资源的可靠性”和“准备文件可用性”这两问题上。本专利技术给出的节点检测预处理方案,主要就是针对上述的两个问题,及众多使用者的实际需求,形成的一套配置标准与自动处理相结合的解决方案。本专利技术提供的pbs_mom config部分为Torque所提供健康检测功能的配置文件如图I所示,要求在该配置文件中将node_check_script项配置为本解决方案所提供的node_ check, scp脚本文件位置。如图I资源检测预处理配置方案所示,本专利技术中的解决方案主要由node_check. scp等一系列脚本文件、health, prop配置文件、health, log日志记录文件所组成,同时提供SMTP、SMGP等扩展配置接口。Torque表示一种开源的集群作业调度资源管理系统;SMTP (Simple MailTransfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制邮件的中转方式;SMGP (Short Message Gateway Protocol)是SMGW与其它网元设备进行短消息传输的接口协议。本专利技术提供的与作业调度系统相结合的资源检测预处理方法流程如图2所示,该方法包括下述步骤(I)启用作业调度器预处理功能该作业调度器为Maui作业调度器。(2)Maui作业调度器读取计算节点资源heakh. prop配置文件;(3)对计算节点资源node_checL scp脚本文件的内容进行检测根据表I health, prop部分配置详解中的配置,进行指定内容检测;表I如下表I health, prop部分配置详解本文档来自技高网...

【技术保护点】
一种与作业调度系统相结合的资源检测预处理方法,其特征在于,所述方法包括下述步骤:(1)启用作业调度器预处理功能;(2)所述作业调度器读取计算节点资源配置文件;(3)对计算节点资源的内容进行检测;(4)当发现计算节点资源异常内容时,判断是否需要启动自处理过程;(5)判断是否对计算节点资源异常内容进行自处理;(6)对计算节点资源异常内容进行自处理;(7)通过SMTP或SMGP扩展配置接口将所述计算节点资源异常内容以短信或邮件的形式发送给使用者;(8)将操作过程记录到日志文件中。

【技术特征摘要】
1.一种与作业调度系统相结合的资源检测预处理方法,其特征在于,所述方法包括下述步骤 (1)启用作业调度器预处理功能; (2)所述作业调度器读取计算节点资源配置文件; (3)对计算节点资源的内容进行检测; (4)当发现计算节点资源异常内容时,判断是否需要启动自处理过程; (5)判断是否对计算节点资源异常内容进行自处理; (6)对计算节点资源异常内容进行自处理; (7)通过SMTP或SMGP扩展配置接口将所述计算节点资源异常内容以短信或邮件的形式发送给使用者; (8)将操作过程记录到日志文件中。2.如权利要求I所述的与作业调度系统相结合的资源检测预处理方法,其特征在于,所述步骤(2)中,所述计算节点资源配置文件用health, prop配置文件表示。3.如权利要求2所述的与作业调度系统相结合的资源检测预处理方法,其特征在于,所述health, prop配置文件的内容包括 A、是否启用资源监测预处理功能,默认为Yes; B、准备文件可用性对象,S卩检查指定文件是否存在,默认为空; C、所要检测容量的目录或分区是否存在,默认为空; D、自动处理过程触发阈值,当所指定目录或分区使用容量超出该阈值时,将启动自动处理过程,默认为O. 8,即当指定目录或分区使用量超过80%时,则启动自动处理过程; E、自动处理时,处理文件对象的最小值,默认1BM,即仅...

【专利技术属性】
技术研发人员:张磊张涛
申请(专利权)人:曙光信息产业北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1