作业恢复方法及计算设备技术

技术编号:37720742 阅读:10 留言:0更新日期:2023-06-02 00:19
本申请实施例公开了一种作业恢复方法及计算设备,属于计算集群技术领域。集群计算系统可以自动对作业进行恢复,缩短了作业恢复时间,从而提高了作业运行效率。集群计算系统中包括管理节点和至少一个计算节点,集群计算系统的至少一个计算节点上运行有至少一个作业;该方法包括:在第一计算节点监控到第一作业停止运行的情况下,第一计算节点向管理节点发送第一作业的停止运行原因,第一计算节点是集群计算系统中的当前停止运行第一作业的计算节点;管理节点基于停止运行原因,确定第一作业是否满足自恢复条件,若第一作业满足自恢复条件,将第一作业重新分配给集群计算系统中的计算节点,自恢复条件用于表示作业可恢复运行。自恢复条件用于表示作业可恢复运行。自恢复条件用于表示作业可恢复运行。

【技术实现步骤摘要】
作业恢复方法及计算设备


[0001]本申请涉及计算集群
,尤其涉及作业恢复方法及计算设备。

技术介绍

[0002]在高性能计算(High

performance computing,简称HPC)领域,许多科学问题的求解和仿真任务规模庞大,需要同时借助多台计算节点的资源来完成。在大规模HPC集群中,通常采用调度器统一进行资源分配和节点管理。为了提高集群计算系统的容错能力,调度器通常集成了检查点/恢复(Checkpoint/Restart,简称C/R)技术,可将故障退出的作业运行状态恢复,避免重新运行所带来的损失。
[0003]目前,用户可以通过调度器命令行工具进行提交作业、创建检查点、恢复作业等操作,在集群计算系统中的管理节点接收到用户提交的作业处理请求,并生成作业的资源调度结果后,可以发送给计算节点该资源调度结果,使得计算节点按照资源调度结果中指示的计算节点并行运行作业,计算节点自行运行作业直到作业退出后,用户可以选择是否恢复作业运行状态。
[0004]上述相关技术中,由于需要用户监控已经分配运行的作业是否停止运行,并且在用户监控到作业停止运行时人工判断是否需要恢复运行,在需要恢复运行的情况下由用户重新提交恢复运行的请求,对用户的操作要求较为繁琐,在一定程度上会影响恢复作业运行的效率。

技术实现思路

[0005]本申请实施例提供了一种作业恢复方法及计算设备,集群计算系统可以自行监控作业异常退出,并且无需用户介入,集群计算系统可以自动对作业进行恢复,缩短了作业恢复时间,从而提高了作业运行效率。
[0006]第一方面,本申请提供了一种作业恢复方法,应用于集群计算系统,该集群计算系统中包括管理节点和至少一个计算节点,集群计算系统的至少一个计算节点上运行有至少一个作业;该方法包括:在第一计算节点监控到第一作业停止运行的情况下,第一计算节点向管理节点发送第一作业的停止运行原因,第一计算节点是集群计算系统中的当前停止运行第一作业的计算节点;管理节点基于停止运行原因,确定第一作业是否满足自恢复条件,若第一作业满足自恢复条件,将第一作业重新分配给集群计算系统中的计算节点,自恢复条件用于表示作业可恢复运行。
[0007]可以理解的是,该方法中集群计算系统中的管理节点可以接收第一计算节点发送的第一作业退出运行的停止运行原因,与自恢复条件进行比较后,可以确定在第一作业的停止运行原因满足自恢复条件的情况下,管理节点可以重新分配计算节点运行第一作业,从而实现自恢复运行第一作业,由于集群计算系统可以自行监控作业异常退出,并且无需用户介入,集群计算系统可以自动对作业进行恢复,缩短了作业恢复时间,从而提高了作业运行效率。
[0008]在一种可能的实现方式中,管理节点基于停止运行原因,确定第一作业是否满足自恢复条件,包括:若自恢复条件是作业的停止运行原因是指定原因时支持恢复作业继续运行,管理节点比较第一作业的停止运行原因是否为指定原因。
[0009]可以理解的是,通过判断第一作业的停止运行原因是否为指定原因可以确定第一作业是否满足自恢复条件,便于判断第一作业是否需要进行自恢复,提高了自恢复判断的效率。在一种可能的实现方式中,停止运行原因通过退出码进行表征,退出码是停止运行原因对应的标识。
[0010]可以理解的是,管理节点为了快速确定停止运行原因是否满足自恢复条件,可以接收计算节点返回的退出码,提高自恢复判断的效率。
[0011]在一种可能的实现方式中,管理节点基于停止运行原因,确定第一作业是否满足自恢复条件,包括:若停止运行原因通过退出码表征,管理节点将退出码与退出白名单进行比较,确定第一作业是否满足自恢复条件;退出白名单存储在管理节点中,包括不支持恢复作业继续运行的作业的退出码。
[0012]可以理解的是,由于不需要自恢复的停止运行原因远远少于需要自恢复的停止运行原因,所以可以设置退出码白名单,在确定接收到的退出码不在退出码白名单上之后,可以快速确定该作业需要进行自恢复,提高了自恢复判断的效率。
[0013]在一种可能的实现方式中,若第一作业满足自恢复条件,将第一作业重新分配给集群计算系统中的计算节点,包括:若第一作业的退出码不在退出白名单中,将第一作业重新分配给集群计算系统中的计算节点。
[0014]可以理解的是,由于不需要自恢复的停止运行原因远远少于需要自恢复的停止运行原因,所以可以设置退出码白名单,在确定接收到的退出码不在退出码白名单上之后,可以快速确定该作业需要进行自恢复,将第一作业重新分配给集群计算系统中的计算节点,提高了自恢复判断的效率。
[0015]在一种可能的实现方式中,若第一作业满足自恢复条件,将第一作业重新分配给集群计算系统中的计算节点,包括:若第一作业的停止运行原因满足自恢复条件,且恢复第一作业继续运行的次数小于或等于指定次数的情况下,将第一作业重新分配给集群计算系统中的计算节点。
[0016]可以理解的是,限制作业进行自恢复的次数,可以避免同一作业,由于作业自身的问题频繁进行自恢复,所导致的计算节点资源的浪费,便于改变运行状态后人工检查作业自身是否存在故障。
[0017]在一种可能的实现方式中,指定次数是根据接收到的处理作业请求存储在管理节点中的参数,指定次数用于指示作业支持自恢复继续运行的最大次数,处理作业请求用于指示管理节点为第一作业分配计算节点。
[0018]可以理解的是,指定次数可以是由提交处理作业请求时存储在管理节点中的参数,便于后续确定第一作业自恢复次数是否超过指定次数,避免作业频繁进行自恢复所导致的计算节点资源的浪费。
[0019]在一种可能的实现方式中,方法还包括:若停止运行原因不满足自恢复条件,管理节点将第一作业的状态更新为完成状态,处于完成状态的作业不支持自恢复继续运行。
[0020]可以理解的是,将停止运行原因不满足自恢复条件的第一作业的状态可以更新为
完成状态,可以避免管理节点对作业再次进行是否满足自恢复条件的判断,在一定程度上避免了管理节点资源浪费。
[0021]在一种可能的实现方式中,将第一作业重新分配给集群计算系统中的计算节点,包括:向集群计算系统中的第二计算节点发送消息恢复请求,以使得第一作业在第二计算节点上继续运行,第二计算节点是管理节点重新调度的运行第一作业的计算节点,消息恢复请求用于恢复运行第一作业。
[0022]可以理解的是,在确定第一作业的停止原因满足自恢复条件的情况下,可以主动向第二计算节点发送消息恢复请求,以使得第一作业在第二计算节点上恢复继续运行,使得恢复作业运行无需用户接入,缩短了作业恢复时间。
[0023]在一种可能的实现方式中,第一计算节点监控第一作业的运行状态;若第一计算节点监控到第一作业停止运行,向集群计算系统中的管理节点发送第一作业的停止运行原因,在停止运行原因满足自恢复条件的情况下触发管理节点将第一作业重新分配给集群计算系统中的计算节点。
[0024]可以理解的是,运行第一作业的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种作业恢复方法,其特征在于,应用于集群计算系统,所述集群计算系统中包括管理节点和至少一个计算节点,所述集群计算系统的至少一个计算节点上运行有至少一个作业,所述方法包括:在第一计算节点监控到第一作业停止运行的情况下,所述第一计算节点向所述管理节点发送所述第一作业的停止运行原因,所述第一计算节点是所述集群计算系统中的当前停止运行所述第一作业的计算节点;所述管理节点基于所述停止运行原因,确定所述第一作业是否满足自恢复条件,若所述第一作业满足自恢复条件,将所述第一作业重新分配给所述集群计算系统中的计算节点,所述自恢复条件用于表示作业可恢复运行。2.根据权利要求1所述的方法,其特征在于,所述管理节点基于所述停止运行原因,确定所述第一作业是否满足自恢复条件,包括:若所述自恢复条件是作业的停止运行原因是指定原因时支持恢复作业继续运行,所述管理节点比较所述第一作业的停止运行原因是否为所述指定原因。3.根据权利要求1或2所述的方法,其特征在于,所述停止运行原因通过退出码进行表征,所述退出码是所述停止运行原因对应的标识。4.根据权利要求3所述的方法,其特征在于,所述管理节点基于所述停止运行原因,确定所述第一作业是否满足自恢复条件,包括:若所述停止运行原因通过所述退出码表征,所述管理节点将所述退出码与退出白名单进行比较,确定所述第一作业是否满足所述自恢复条件;所述退出白名单存储在所述管理节点中,包括不支持恢复作业继续运行的作业的退出码。5.根据权利要求4所述的方法,其特征在于,所述若所述第一作业满足自恢复条件,将所述第一作业重新分配给所述集群计算系统中的计算节点,包括:若所述第...

【专利技术属性】
技术研发人员:陆旭
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1