一种作业调度管理方法和装置制造方法及图纸

技术编号:24251261 阅读:95 留言:0更新日期:2020-05-22 23:25
本发明专利技术提供了一种作业调度管理方法以及装置,该方法包括:提交作业并将作业分配到计算节点上运行;采集在计算节点上发生的硬件故障内容;根据硬件故障内容得到计算节点的硬件健康度分数;当计算节点上的作业运行退出时,将硬件健康度分数反馈给提交作业的用户。在作业退出信息中,增加该作业所关联各节点的硬件健康度分数信息,可以帮助用户分析提升作业运行效率的方法,以及分析异常退出的原因。

A method and device of job scheduling management

【技术实现步骤摘要】
一种作业调度管理方法和装置
本专利技术涉及一种作业调度管理方法和装置。
技术介绍
集群计算系统具有低成本、高性能的特性,提供了强大的批处理和并行计算能力,代表了高性能计算机发展的主流方向。在该类系统中,通过提高硬件性能并不能完全满足用户复杂多样的要求,尤其是不能满足大规模科学计算和商业应用的要求,还需要对计算资源进行高效的管理。集群作业管理系统正是适应这种需求而出现并快速发展起来的。它可以根据用户的需求,统一管理和调度集群的软硬件资源,保证用户作业公平合理地共享集群资源,提高系统利用率和吞吐率。目前比较流行的作业管理系统有PBS、Slurm等。用户将自己的计算需求转换为一个个的作业,交付给作业调度系统进行调度。作业调度系统首先将新提交的作业放在某个作业队列,同时判断该用户的当前空闲资源是否满足该作业运行所需要的硬件资源。满足则将该作业分配到若干节点上运行,不满足则等待。作业处于运行状态后,会根据任务内容的大小在一定时间后退出运行(成功或失败)。现有作业调度管理系统,主要从软件资源方面对作业的各个状态(排队、运行、完成、挂起等)进行管理。当节点发生硬件故障(比如网络不通、突然断电、CPU温度过高等)时,节点上正在运行的作业会直接退出。在调度管理系统反馈给用户的错误信息中并不包含这些硬件故障。用户只能再次去检查其作业的编写逻辑,然后重新提交作业,尝试运行。现有技术存在如下缺陷:1.集群计算能力的用户感知不到节点是否发生故障,因而在作业异常退出的原因分析上存在盲区。2.节点故障的运维人员,仅仅能在基础设施层面对节点的故障跟踪原因、解决问题,不能精准地对上层应用的用户提供硬件故障提醒。
技术实现思路
针对相关技术中存在的问题,本专利技术的目的在于提供一种作业调度管理方法和装置方法和装置,在作业退出信息中,增加该作业所关联各节点的硬件健康度分数信息,可以帮助用户分析提升作业运行效率的方法,以及分析异常退出的原因。根据本专利技术的实施例,提供了一种作业调度管理方法,包括:提交作业并将作业分配到计算节点上运行;采集在计算节点上发生的硬件故障内容;根据硬件故障内容得到计算节点的硬件健康度分数;当计算节点上的作业运行退出时,将硬件健康度分数反馈给提交作业的用户。根据本专利技术的实施例,根据硬件故障内容得到计算节点的硬件健康度分数,包括,根据故障类型是否会影响作业运行,得到该节点的硬件健康度分数,其中,影响作业运行的故障类型对应的硬件健康度分数低于不影响作业运行的故障类型对应的硬件健康度分数。根据本专利技术的实施例,影响作业运行的故障类型包括第一故障类型和第二故障类型,其中,第一故障类型对应的硬件健康度分数高于第二故障类型对应的硬件健康度分数,第一故障类型对作业运行的影响程度小于第二故障类型对作业运行的影响程度。根据本专利技术的实施例,采集在计算节点上发生的硬件故障内容,包括:从电源、CPU、内存、硬盘、网络、风扇部件进行采集硬件故障内容。根据本专利技术的实施例,将硬件健康度分数反馈给提交作业的用户,包括,将作业运行过程中的最低健康度分数反馈给用户。根据本专利技术的实施例,作业调度管理方法,还包括:监测计算节点上发生的硬件故障内容;根据监测的结果调整分配的调度策略。根据本专利技术的实施例,提供了一种作业调度管理装置,包括:作业提交及分配模块,用于提交作业并将作业分配到计算节点上运行;硬件故障采集模块,用于采集在计算节点上发生的硬件故障内容;硬件健康度分数获得模块,用于根据硬件故障内容得到计算节点的硬件健康度分数;反馈模块,用于当计算节点上的作业运行退出时,将硬件健康度分数反馈给提交作业的用户。根据本专利技术的实施例,硬件健康度分数获得模块还用于根据故障类型是否会影响作业运行,得到该节点的硬件健康度分数,其中,影响作业运行的故障类型对应的硬件健康度分数低于不影响作业运行的故障类型对应的硬件健康度分数。根据本专利技术的实施例,影响作业运行的故障类型包括第一故障类型和第二故障类型,其中,第一故障类型对应的硬件健康度分数高于第二故障类型对应的硬件健康度分数,第一故障类型对作业运行的影响程度小于第二故障类型对作业运行的影响程度。根据本专利技术的实施例,硬件故障采集模块还用于从电源、CPU、内存、硬盘、网络、风扇部件进行采集硬件故障内容。本专利技术的有益技术效果在于:本专利技术在作业退出信息中,增加该作业所关联各节点的硬件健康度分数信息,可以帮助用户分析提升作业运行效率的方法,以及分析异常退出的原因。而且,在节点发生故障后,不仅为运维管理员的集群维护提供数据支撑,更为集群计算能力的用户在作业异常原因的分析上提供参考依据。另外,还可以增强节点发生故障曲线与作业运行异常曲线之间的知识点,对不同类型的节点、不同类型的作业的各自特征提升经验。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术一个实施例的作业调度管理方法的流程图;图2是根据本专利技术现有技术的典型作业调度管理平台结构的示意图;图3是根据本专利技术一个实施例的本方案在典型作业调度管理平台中的地位的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术提供了一种作业调度管理方法,包括:S11,提交作业并将作业分配到计算节点上运行;S12,采集在计算节点上发生的硬件故障内容;S13,根据硬件故障内容得到计算节点的硬件健康度分数;S14,当计算节点上的作业运行退出时,将硬件健康度分数反馈给提交作业的用户。本专利技术的上述技术方案,通过在作业退出信息中,增加该作业所关联各节点的硬件健康度分数信息,可以帮助用户分析提升作业运行效率的方法,以及分析异常退出的原因。而且,在节点发生故障后,不仅为运维管理员的集群维护提供数据支撑,更为集群计算能力的用户在作业异常原因的分析上提供参考依据。另外,还可以增强节点发生故障曲线与作业运行异常曲线之间的知识点,对不同类型的节点、不同类型的作业的各自特征提升经验。S12可以具体包括:从电源、CPU、内存、硬盘、网络、风扇部件进行采集硬件故障内容。S13可以具体包括,根据故障类型是否会影响作业运行,得到该节点的硬件健康度分数,其中,影响作业运行的故障类型对应的硬件健康度分数低于不影响作业运行的故障类型对应的硬件健康度分数。影响作业运行的故障类型包括第一故障类型和第二故障类型,其中,第一故障类型对应的硬件健康度分数高于第二故障类型对应的硬本文档来自技高网
...

【技术保护点】
1.一种作业调度管理方法,其特征在于,包括:/n提交作业并将所述作业分配到计算节点上运行;/n采集在所述计算节点上发生的硬件故障内容;/n根据所述硬件故障内容得到所述计算节点的硬件健康度分数;/n当所述计算节点上的所述作业运行退出时,将所述硬件健康度分数反馈给提交所述作业的用户。/n

【技术特征摘要】
1.一种作业调度管理方法,其特征在于,包括:
提交作业并将所述作业分配到计算节点上运行;
采集在所述计算节点上发生的硬件故障内容;
根据所述硬件故障内容得到所述计算节点的硬件健康度分数;
当所述计算节点上的所述作业运行退出时,将所述硬件健康度分数反馈给提交所述作业的用户。


2.根据权利要求1所述的作业调度管理方法,其特征在于,根据所述硬件故障内容得到所述计算节点的硬件健康度分数,包括,根据故障类型是否会影响作业运行,得到该节点的硬件健康度分数,其中,影响作业运行的故障类型对应的硬件健康度分数低于不影响作业运行的故障类型对应的硬件健康度分数。


3.根据权利要求2所述的作业调度管理方法,其特征在于,影响作业运行的所述故障类型包括第一故障类型和第二故障类型,其中,所述第一故障类型对应的硬件健康度分数高于所述第二故障类型对应的硬件健康度分数,所述第一故障类型对作业运行的影响程度小于所述第二故障类型对作业运行的影响程度。


4.根据权利要求1所述的作业调度管理方法,其特征在于,采集在所述计算节点上发生的硬件故障内容,包括:从电源、CPU、内存、硬盘、网络、风扇部件进行采集所述硬件故障内容。


5.根据权利要求1所述的作业调度管理方法,其特征在于,将所述硬件健康度分数反馈给提交所述作业的用户,包括,将所述作业运行过程中的最低健康度分数反馈给用户。


6.根据权...

【专利技术属性】
技术研发人员:王雄斌
申请(专利权)人:曙光信息产业北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1