【技术实现步骤摘要】
本专利技术涉及集群管理,特别是涉及一种集群作业调度系统的告警方法、装置、设备及介质。
技术介绍
1、集群作业调度系统(simple linux utility for resource management,slurm)为用户分配集群的资源以发挥集群性能,被世界范围内的超级计算机和计算机集群广泛采用。
2、当前的slurm系统在作业运行过程中,由于用户在提交作业运行后,根据预设的时间用户认为该作业处理到某一个阶段,实际在提交后的监测周期间隔内,整个过程可能出现作业没有运行,一直处于等待状态,或者因为服务器故障,作业的某些参数出现问题,用户未察觉,等到察觉后其时间成本相应地增加,导致作业未能在相应的时间内及时有效处理,降低作业运行效率。
3、因此,如何提高作业运行效率有效处理以及减少时间成本是本领域技术人员亟需要解决的问题。
技术实现思路
1、本专利技术的目的是提供一种集群作业调度系统的告警方法、装置、设备及介质,以解决当前slurm系统在监测周期间隔内出现故障用户不
...【技术保护点】
1.一种集群作业调度系统的告警方法,其特征在于,包括:
2.根据权利要求1所述的集群作业调度系统的告警方法,其特征在于,在所述获取延时队列的当前过期数据之前,还包括:
3.根据权利要求2所述的集群作业调度系统的告警方法,其特征在于,在所述延时队列的数量为一个时,所述获取延时队列的当前过期数据,包括:
4.根据权利要求2所述的集群作业调度系统的告警方法,其特征在于,在所述延时队列的数量为多个时,所述获取延时队列的当前过期数据,包括:
5.根据权利要求3或4所述的集群作业调度系统的告警方法,其特征在于,所述根据所述当前过期数
...【技术特征摘要】
1.一种集群作业调度系统的告警方法,其特征在于,包括:
2.根据权利要求1所述的集群作业调度系统的告警方法,其特征在于,在所述获取延时队列的当前过期数据之前,还包括:
3.根据权利要求2所述的集群作业调度系统的告警方法,其特征在于,在所述延时队列的数量为一个时,所述获取延时队列的当前过期数据,包括:
4.根据权利要求2所述的集群作业调度系统的告警方法,其特征在于,在所述延时队列的数量为多个时,所述获取延时队列的当前过期数据,包括:
5.根据权利要求3或4所述的集群作业调度系统的告警方法,其特征在于,所述根据所述当前过期数据对应的当前作业信息状态确定对应的目标告警类型,包括:
6.根据权利要求5所述的集群作业调度系统的告警方法,其特征在于,所述在所述当前作业信息状态满足确定的所述目标告警类型下的作业信息状态预设要求时,对所述当前过期数据的当前作业信息进行告警处理,包括:
【专利技术属性】
技术研发人员:刘京龙,
申请(专利权)人:济南浪潮数据技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。