集群资源管理方法、系统、服务器、存储介质及程序产品技术方案

技术编号:36810443 阅读:60 留言:0更新日期:2023-03-09 00:41
本申请公开了一种集群资源管理方法、系统、服务器、存储介质及程序产品,涉及计算机技术领域,该方法包括:获取集群各集群计算节点运行作业所需的节点资源配置信息;获取从调度器采集的当前作业的作业信息和集群计算节点的节点资源实际信息;根据节点资源配置信息、作业信息与节点资源实际信息,判断作业运行异常的异常原因,并基于异常原因根据节点资源配置信息,控制资源管理器重新配置集群的所述集群计算节点或所述集群计算节点的资源。本申请通过采集作业信息和节点资源实际信息分析作业失败原因来做出资源调整,根据不同的异常原因采取不同的资源调整策略,从而更新节点,避免集群空闲,提升集群使用效率。提升集群使用效率。提升集群使用效率。

【技术实现步骤摘要】
集群资源管理方法、系统、服务器、存储介质及程序产品


[0001]本申请涉及到计算机
,具体而言,涉及一种集群资源管理方法、系统、服务器、存储介质及程序产品。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。不应以此处的描述包括在本部分中就承认是现有技术。
[0003]集群主要解决大规模科学问题的计算和海量数据的处理,如面向科研、生产、教育和行业大计算等数据计算处理场景,随着云计算和人工智能的发展,集群上云的需求越来越多,集群对计算规格也要求多样化,单个集群的规模也越来越大。如在高性能计算集群(High Performance Computing,简称为HPC)应用实践中,高性能计算集群遇到了和以往超算中心大不相同的IT基础设施,如何针对集群正在处理的作业的作业信息进行资源调整,作业信息为体现作业运行状态的信息,并实时采集集群自身具有的集群资源状态成为一个重要课题。
[0004]目前的高性能计算集群管理架构,主要由调度器接收用户提交的计算作业,调度器根据不同的调度策略将作业分配到集群计算本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种集群资源管理方法,其特征在于,包括:获取集群各集群计算节点运行作业所需的节点资源配置信息;获取从调度器(30)采集的当前作业的作业信息和所述集群计算节点的节点资源实际信息,所述节点资源实际信息为运行作业的所述集群计算节点实际具有的资源信息;根据所述节点资源配置信息、所述作业信息与所述节点资源实际信息,判断作业运行异常的异常原因,并基于所述异常原因根据所述节点资源配置信息,控制资源管理器(40)重新配置集群的所述集群计算节点或所述集群计算节点的资源。2.根据权利要求1所述的方法,其特征在于,从所述调度器(30)采集当前作业的作业信息和所述节点资源实际信息之前,所述方法还包括:获取作业的布防计划,所述布防计划包括作业的投递时间和投递重复次数;根据所述布防计划生成的定时器,定时将预选的作业投递至所述调度器(30),以在所述调度器(30)将作业分配至相应的所述集群计算节点计算运行后,获取所述作业信息和所述节点资源实际信息。3.根据权利要求1所述的方法,其特征在于,所述节点资源配置信息包括实例规格范围;所述作业信息包括作业所需内存;所述节点资源实际信息包括所述集群计算节点的节点内存;其中,根据所述节点资源配置信息、所述作业信息与所述节点资源实际信息,判断作业运行异常的异常原因,并基于所述异常原因根据所述节点资源配置信息,控制资源管理器(40)重新配置集群的所述集群计算节点或所述集群计算节点的资源的步骤包括:根据所述实例规格范围、所述作业所需内存和所述节点内存,判断所述异常原因是否为所述集群计算节点的所述节点内存不足,若是,则根据所述实例规格范围确定所述节点内存满足作业运行的目标集群计算节点后,控制所述资源管理器(40)向集群新增所述目标集群计算节点。4.根据权利要求3所述的方法,其特征在于,根据所述实例规格范围确定所述节点内存满足作业运行的目标集群计算节点后,控制所述资源管理器(40)向集群新增所述目标集群计算节点之前,所述方法还包括:控制所述资源管理器(40)删除所述节点内存不足的所述集群计算节点。5.根据权利要求1所述的方法,其特征在于,所述作业信息包括作业的应用程序的应用类型信息;所述节点资源实际信息包括所述集群计算节点具有的镜像的实际镜像类型,所述节点资源配置信息包括:所述应用类型信息与所述集群计算节点运行作业所需镜像的配置镜像类型之间的对照关系;其中,根据所述节点资源配置信息、所述作业信息与所述节点资源实际信息,判断作业运行异常的异常原因,并基于所述异常原因根据所述节点资源配置信息,控制资源管理器(40)重新配置集群的所述集群计算节点或所述集群计算节点的资源的步骤还包括:根据所述对照关系、所述应用类型信息和所述实际镜像类型,判断所述异常原因是否为由于所述实际镜像类型与所述配置镜像类型不一致导致的缺少应用,若是,则根据所述对照关系确定镜像类型与所述配置镜像类型一致的目标镜像,并控制所述资源管理器(40)将所述集群计算节点具有的所述镜像切换为所述目标镜像。6.根据权利要求1所述的方法,其特征在于,获取从调度器(30)采集的当前作业的作业信息和所述集群计算节点的节点资源实际信息之前,所述方法还包括:
将所述作业信息和所述节点资源实际信息的作业ID标识存入预先配置的日志服务存储单元(60),以基于所述作业ID标识从所述日志服务存储单元(60)获取所述作业信息与所述节点资源实际信息。7.根据权利要求1所述的方法,其特征在于,基于所述异常原因根据所述节点资源配置信息,控制资源管理器(40)重新配置集群的所述集群计算节点或所述集群计算节点的资源之后,所述方法还包括:将所述异常原因作为告警信息发送至作业客户端(90)。8.一种集群资源管理系统,其特征在...

【专利技术属性】
技术研发人员:王敏贺荣徽何万青
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1