一种基于作业调度系统的应用作业控制系统及其控制方法技术方案

技术编号:8215528 阅读:182 留言:0更新日期:2013-01-17 12:58
本发明专利技术涉及一种基于作业调度系统的应用作业控制系统及其控制方法,控制系统包括组播消息发送器、应用程序监控器和作业调度系统;当组播消息发送器被应用程序作业调用后,向组播域发送组播消息;应用程序监控器中的应用监听器接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;消息分析器判定所述组播消息运行状态是否正常,若处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun;该方法解决了现有调度系统仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理的问题,保证高性能计算集群上作业内的应用程序的正常运行,避免了资源的浪费,同时还保证了应用程序作业运行的准确性。

【技术实现步骤摘要】

本专利技术涉及一种高性能计算机群的控制系统及其控制方法,具体涉及。
技术介绍
在高性能计算集群的使用中,很多应用作业在提交运行后会长期占用大量的计算资源,甚至有些作业会以服务的形式长时间存在,对于这种类型的作业,从作业调度系统的角度所看到的作业状态始终为Run,而使用者更为关注的这类作业的应用本身的运行情况并没能显示出来,应用本身已经处于异常状态,但应用依旧以作业的形式运行于集群之中的情况却是时有发生的,针对这样的情况,调度系统暂未捕捉此类异常。而这种情况往往会带来的后果就是 I、应用作业已经处于异常状态、无法提供正常的服务时,却不能被及时发现,做出相应处理2、作业所占用的大量资源无法得到及时释放;3、作业耗费长时运行结束,却无法得到正常的运行结果,或无法确定所得到运行结果的正确性。现有调度系统仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理。这也就出现了上述的问题。
技术实现思路
针对现有技术的不足,本专利技术提供,该方法解决了现有调度系统仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理的问题,保证高性能计算集群上作业内的应用程序的正常运行,同时当应用程序作业运行状态异常时,异常应用对应作业会在第一时间进入作业调度系统的Rerun (重新运行)状态,避免了资源的浪费,同时还保证了应用程序作业运行的准确性。本专利技术的目的是采用下述技术方案实现的一种基于作业调度系统的应用作业控制系统,其改进之处在于,所述控制系统包括组播消息发送器、应用程序监控器和作业调度系统;所述组播消息发送器被应用程序作业调用后,向组播域发送组播消息;所述应用程序监控器中的应用监听器接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;所述消息分析器判定所述组播消息运行状态是否正常,若处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun ;当应用程序监控器中的应用监听器在>10ms的指定时间内没有收到应用作业的组播消息,则认为应用作业处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun0其中,所述组播消息发送器被应用程序作业调用后,以组播格式组成结构向组播域中发送组播消息。其中,所述应用程序监控器包括应用监听器和消息分析器;所述应用监听器接收所述组播消息并将其发送到消息分析器中;所述消息分析器判定组播消息的运行状态是否正常。其中,若组播消息处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun0本专利技术基于另一目的提供的一种基于作业调度系统的应用作业控制方法,其改进之处在于,所述方法包括下述步骤(I)组播消息发送器被应用程序作业调用后,向组播域发送组播消息;(2)所述应用程序监控器中的应用监听器接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;(3)所述消息分析器判定所述组播消息运行状态是否正常;(4)若处于异常状态,则通过作业调度系统将该应用程序作业Rerun。其中,所述步骤(I)中,组播消息发送器被应用程序作业调用后,以组播格式组成结构向组播域发送组播消息。其中,所述组播格式组成结构包括头部信息用于应用监听器在监听组播域时,过滤出组播消息发送器所发出的组播消息;消息类型码用于确定组播消息的类型,消息的类型分为组合和单一两种类型;组合类型的消息,是指单从本条消息中无法确定作业中的应用程序运行状态是否正常,与该作业的组播消息发送器发送的下一条组播消息相结合;单一类型的消息,是指利用本条消息中的消息内容码和判定规则码判定当前作业中的应用程序运行状态是否正常;判定规则码根据该判定规则码对应的判定规则,来处理消息内容码后,可判定出作业中的应用程序运行状态;消息内容码应用监听器传给组播消息发送器的应用状态信息,用于判定作业中的应用程序的运行状态的依据。其中,所述步骤(2)中,应用监听器接收所述组播消息后,根据组播头部信息过滤出所需的组播消息;再利用组播消息中的作业信息获取作业调度系统作业的ID信息;所述应用监听器将ID信息、消息类型码、判定规则码和消息内容码发送到消息分析器中。其中,所述步骤(3)中,所述消息分析器通过判定消息类型码,判别消息类型;若消息类型为组合型消息,所述消息分析器在缓存中搜索该组播消息,若没有搜索到,则将该组播消息内容加入消息分析器的缓存;再利用本条消息中的判定规则码和消息内容码判定作业中应用程序的运行状态;若消息类型为单一型消息,则利用本条消息中的判定规则码和消息内容码判定作业中的应用程序运行状态。其中,所述步骤(4)中,若步骤(3)作业中的应用程序运行状态为异常状态,则通过作业调度系统将应用程序作业Rerun。与现有技术比,本专利技术达到的有益效果是本专利技术提供的基于作业调度系统的应用作业控制系统及其控制方法,解决了现有调度系统仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理的问题,保证高性能计算集群上作业内的应用的正常运行,同时当应用程序作业运行状态异常时,异常应用对应作业会在第一时间进入作业调度系统的Rerun状态,避免了资源的浪费,同时还保证了应用程序作业运行的准确性。附图说明图I是本专利技术提供的基于作业调度系统的应用作业控制方案示意图;图2是本专利技术提供的组播格式组成结构示意图;图3是本专利技术提供的组播消息应用监听器工作原理示意图;图4是本专利技术提供的消息分析器工作原理示意图。 具体实施例方式下面结合附图对本专利技术的具体实施方式作进一步的详细说明。本专利技术中所提出的应用作业控制方案如图I基于作业调度系统的应用作业控制方案图所示,基于作业调度系统的应用作业控制系统由“组播消息发送器”、“应用程序监控器”和“作业调度系统”组成。应用作业控制系统要求应用程序需按特定时间间隔调用方案中所提供的“组播消息发送器”,该组播消息发送器会向组播域内发送规定格式的组播消息。使用这种组播消息的机制,保证了集群管理节点上的“应用程序监控器”的“应用监听器”部件可以接收到来自任何计算节点的应用作业通过组播消息发送器所发送出的组播消肩、O“应用程序监控器”中的“应用监听器”组件在接收到“组播域”中的组播后,会根据组播信息判断是来自哪个作业的组播,之后将该组播消息发送到“消息分析器”中,“消息分析器”根据组播内容判断发送该组播消息的作业中“应用程序”的运行状态是否正常。如果应用监听器在所指定时间段内没能接受到某作业的组播消息,应用程序监控器将会认为该作业中的应用程序已经处于异常状态,便会通过作业调度系统将该作业Rerun。本专利技术提供的基于作业调度系统的应用作业控制方法,包括下述步骤(I)组播消息发送器被应用程序作业调用后,向组播域发送组播消息a、组播消息发送器在被应用程序调用后,组播消息发送器以特定的格式向组播域中发送组播消息,组播格式的组成结构如图2组播格式组成结构所示其中,各部分内容如下头部信息用于应用监听器在监听组播域时,过滤出组播消息发送器所发出的组播消息。作业信息用于应用监听器将组播消息关联到作业的应用程序。消息类型码用于确定后面的消息内容的类型,消息的类型分为“组合”和“单一”两种类型。组合类型的消息,是指单从本条消息中无法确定作业中的应用的状态是否正常,需要与该作业的组播本文档来自技高网...

【技术保护点】
一种基于作业调度系统的应用作业控制系统,其特征在于,所述控制系统包括组播消息发送器、应用程序监控器和作业调度系统;所述组播消息发送器被应用程序作业调用后,向组播域发送组播消息;所述应用程序监控器中的应用监听器接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;所述消息分析器判定所述组播消息运行状态是否正常,若处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun;当应用程序监控器中的应用监听器在>10ms的指定时间内没有收到应用作业的组播消息,则认为应用作业处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun。

【技术特征摘要】

【专利技术属性】
技术研发人员:张磊张涛
申请(专利权)人:曙光信息产业北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1