一种集群作业调度系统的告警方法、装置、设备及介质制造方法及图纸

技术编号:40904920 阅读:22 留言:0更新日期:2024-04-18 14:36
本发明专利技术公开了一种集群作业调度系统的告警方法、装置、设备及介质,适用于集群管理技术领域。基于延时队列存储待监控的作业信息,将阈值时间作为延时队列的超时时间,在达到超时时间后,将过期数据的作业信息从延时队列取出,用于告警处理减少一次性从数据库中查询大量数据,对于不同的作业信息状态设置对应的告警类型,在满足各目标告警类型下的作业信息状态预设要求时,告警处理。避免当前的Slurm系统在监测周期间隔内无法察觉,导致时间成本增加,使得在作业过程中及时告警进行有效处理,提高作业运行效率。

【技术实现步骤摘要】

本专利技术涉及集群管理,特别是涉及一种集群作业调度系统的告警方法、装置、设备及介质


技术介绍

1、集群作业调度系统(simple linux utility for resource management,slurm)为用户分配集群的资源以发挥集群性能,被世界范围内的超级计算机和计算机集群广泛采用。

2、当前的slurm系统在作业运行过程中,由于用户在提交作业运行后,根据预设的时间用户认为该作业处理到某一个阶段,实际在提交后的监测周期间隔内,整个过程可能出现作业没有运行,一直处于等待状态,或者因为服务器故障,作业的某些参数出现问题,用户未察觉,等到察觉后其时间成本相应地增加,导致作业未能在相应的时间内及时有效处理,降低作业运行效率。

3、因此,如何提高作业运行效率有效处理以及减少时间成本是本领域技术人员亟需要解决的问题。


技术实现思路

1、本专利技术的目的是提供一种集群作业调度系统的告警方法、装置、设备及介质,以解决当前slurm系统在监测周期间隔内出现故障用户不能及时察觉处理导致时本文档来自技高网...

【技术保护点】

1.一种集群作业调度系统的告警方法,其特征在于,包括:

2.根据权利要求1所述的集群作业调度系统的告警方法,其特征在于,在所述获取延时队列的当前过期数据之前,还包括:

3.根据权利要求2所述的集群作业调度系统的告警方法,其特征在于,在所述延时队列的数量为一个时,所述获取延时队列的当前过期数据,包括:

4.根据权利要求2所述的集群作业调度系统的告警方法,其特征在于,在所述延时队列的数量为多个时,所述获取延时队列的当前过期数据,包括:

5.根据权利要求3或4所述的集群作业调度系统的告警方法,其特征在于,所述根据所述当前过期数据对应的当前作业信息...

【技术特征摘要】

1.一种集群作业调度系统的告警方法,其特征在于,包括:

2.根据权利要求1所述的集群作业调度系统的告警方法,其特征在于,在所述获取延时队列的当前过期数据之前,还包括:

3.根据权利要求2所述的集群作业调度系统的告警方法,其特征在于,在所述延时队列的数量为一个时,所述获取延时队列的当前过期数据,包括:

4.根据权利要求2所述的集群作业调度系统的告警方法,其特征在于,在所述延时队列的数量为多个时,所述获取延时队列的当前过期数据,包括:

5.根据权利要求3或4所述的集群作业调度系统的告警方法,其特征在于,所述根据所述当前过期数据对应的当前作业信息状态确定对应的目标告警类型,包括:

6.根据权利要求5所述的集群作业调度系统的告警方法,其特征在于,所述在所述当前作业信息状态满足确定的所述目标告警类型下的作业信息状态预设要求时,对所述当前过期数据的当前作业信息进行告警处理,包括:

【专利技术属性】
技术研发人员:刘京龙
申请(专利权)人:济南浪潮数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1