一种与作业调度系统相结合的资源检测预处理方法技术方案

技术编号:8271323 阅读:222 留言:0更新日期:2013-01-31 03:31
本法明涉及一种与作业调度系统相结合的资源检测预处理方法,包括下述步骤:(1)启用作业调度器预处理功能;(2)作业调度器读取计算节点资源配置文件;(3)对计算节点资源进行内容检测;(4)当发现计算节点资源异常内容时,判断是否需要启动自处理过程;(5)判断是否对计算节点资源异常内容进行自处理;(6)对计算节点资源异常内容进行自处理;(7)通过SMTP或SMGP扩展配置接口将计算节点资源异常内容以短信或邮件的形式发送给使用者;(8)将操作过程记录到日志文件中。针对“存储资源的可靠性”和“准备文件可用性”这两问题给出了自处理方案,并提供相关的自动处理和配置文件,真正做到简单、可配置、可扩展。处理效率高,省时省力。

【技术实现步骤摘要】
本专利技术涉及一种高性能计算集群领域的预处理方法,具体涉及一种与作业调度系统相结合的资源检测预处理方法
技术介绍
大规模集群作业调度系统最常见的问题之一就是资源(包括计算节点资源、存储资源等)已经出现了异常(非节点下线异常),但调度系统却未能捕获该异常,以至于作业被调度到异常节点资源上,或使用了其他异常资源,导致作业最终无法正常完成。这样将造成资源和时间的大量浪费,且无法得到正常的作业运行结果。 Torque 5. O中提供了计算节点健康检测的功能,并且配合调度器(如Maui)将健康状态异常节点的状态置为Down。Torque的节点健康检测功能通过指定监测脚本,获取检测脚本的运行输出信息,如果输出信息以“ERROR”开头,则调度器将该节点的状态设为Down。同时,可以设置节点检测间隔。现有技术存在以下问题首先,Torque所提供的计算节点健康检测功能要求使用者自行编写相应检测脚本或Linux下的可执行程序,这样就要求使用者具有一定的检测脚本或应用检测程序开发能力,使用难度较大;其次,Torque所提供的计算节点健康检测功能仅在检测异常时,利用调度器将节点状态设置为Down,并没有提供相应本文档来自技高网...

【技术保护点】
一种与作业调度系统相结合的资源检测预处理方法,其特征在于,所述方法包括下述步骤:(1)启用作业调度器预处理功能;(2)所述作业调度器读取计算节点资源配置文件;(3)对计算节点资源的内容进行检测;(4)当发现计算节点资源异常内容时,判断是否需要启动自处理过程;(5)判断是否对计算节点资源异常内容进行自处理;(6)对计算节点资源异常内容进行自处理;(7)通过SMTP或SMGP扩展配置接口将所述计算节点资源异常内容以短信或邮件的形式发送给使用者;(8)将操作过程记录到日志文件中。

【技术特征摘要】
1.一种与作业调度系统相结合的资源检测预处理方法,其特征在于,所述方法包括下述步骤 (1)启用作业调度器预处理功能; (2)所述作业调度器读取计算节点资源配置文件; (3)对计算节点资源的内容进行检测; (4)当发现计算节点资源异常内容时,判断是否需要启动自处理过程; (5)判断是否对计算节点资源异常内容进行自处理; (6)对计算节点资源异常内容进行自处理; (7)通过SMTP或SMGP扩展配置接口将所述计算节点资源异常内容以短信或邮件的形式发送给使用者; (8)将操作过程记录到日志文件中。2.如权利要求I所述的与作业调度系统相结合的资源检测预处理方法,其特征在于,所述步骤(2)中,所述计算节点资源配置文件用health, prop配置文件表示。3.如权利要求2所述的与作业调度系统相结合的资源检测预处理方法,其特征在于,所述health, prop配置文件的内容包括 A、是否启用资源监测预处理功能,默认为Yes; B、准备文件可用性对象,S卩检查指定文件是否存在,默认为空; C、所要检测容量的目录或分区是否存在,默认为空; D、自动处理过程触发阈值,当所指定目录或分区使用容量超出该阈值时,将启动自动处理过程,默认为O. 8,即当指定目录或分区使用量超过80%时,则启动自动处理过程; E、自动处理时,处理文件对象的最小值,默认1BM,即仅...

【专利技术属性】
技术研发人员:张磊张涛
申请(专利权)人:曙光信息产业北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1