【技术实现步骤摘要】
一种作业调度管理方法和装置
本专利技术涉及一种作业调度管理方法和装置。
技术介绍
集群计算系统具有低成本、高性能的特性,提供了强大的批处理和并行计算能力,代表了高性能计算机发展的主流方向。在该类系统中,通过提高硬件性能并不能完全满足用户复杂多样的要求,尤其是不能满足大规模科学计算和商业应用的要求,还需要对计算资源进行高效的管理。集群作业管理系统正是适应这种需求而出现并快速发展起来的。它可以根据用户的需求,统一管理和调度集群的软硬件资源,保证用户作业公平合理地共享集群资源,提高系统利用率和吞吐率。目前比较流行的作业管理系统有PBS、Slurm等。用户将自己的计算需求转换为一个个的作业,交付给作业调度系统进行调度。作业调度系统首先将新提交的作业放在某个作业队列,同时判断该用户的当前空闲资源是否满足该作业运行所需要的硬件资源。满足则将该作业分配到若干节点上运行,不满足则等待。作业处于运行状态后,会根据任务内容的大小在一定时间后退出运行(成功或失败)。现有作业调度管理系统,主要从软件资源方面对作业的各个状态( ...
【技术保护点】
1.一种作业调度管理方法,其特征在于,包括:/n提交作业并将所述作业分配到计算节点上运行;/n采集在所述计算节点上发生的硬件故障内容;/n根据所述硬件故障内容得到所述计算节点的硬件健康度分数;/n当所述计算节点上的所述作业运行退出时,将所述硬件健康度分数反馈给提交所述作业的用户。/n
【技术特征摘要】
1.一种作业调度管理方法,其特征在于,包括:
提交作业并将所述作业分配到计算节点上运行;
采集在所述计算节点上发生的硬件故障内容;
根据所述硬件故障内容得到所述计算节点的硬件健康度分数;
当所述计算节点上的所述作业运行退出时,将所述硬件健康度分数反馈给提交所述作业的用户。
2.根据权利要求1所述的作业调度管理方法,其特征在于,根据所述硬件故障内容得到所述计算节点的硬件健康度分数,包括,根据故障类型是否会影响作业运行,得到该节点的硬件健康度分数,其中,影响作业运行的故障类型对应的硬件健康度分数低于不影响作业运行的故障类型对应的硬件健康度分数。
3.根据权利要求2所述的作业调度管理方法,其特征在于,影响作业运行的所述故障类型包括第一故障类型和第二故障类型,其中,所述第一故障类型对应的硬件健康度分数高于所述第二故障类型对应的硬件健康度分数,所述第一故障类型对作业运行的影响程度小于所述第二故障类型对作业运行的影响程度。
4.根据权利要求1所述的作业调度管理方法,其特征在于,采集在所述计算节点上发生的硬件故障内容,包括:从电源、CPU、内存、硬盘、网络、风扇部件进行采集所述硬件故障内容。
5.根据权利要求1所述的作业调度管理方法,其特征在于,将所述硬件健康度分数反馈给提交所述作业的用户,包括,将所述作业运行过程中的最低健康度分数反馈给用户。
6.根据权...
【专利技术属性】
技术研发人员:王雄斌,
申请(专利权)人:曙光信息产业北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。