一种云平台中集群的重启方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36119117 阅读:10 留言:0更新日期:2022-12-28 14:24
本发明专利技术实施例提供了一种云平台中集群的重启方法、装置、电子设备及存储介质,通过在所述集群重启的情况下,获取所述业务容器在重启前的业务信息,根据所述集群的剩余计算资源,预估所述集群中运行任务的并行数量,所述运行任务为系统服务、平台服务、以及业务容器对应的运行任务,基于预估结果,确定所述集群中准备执行的运行任务,从而实现将系统组件或平台服务和业务容器并行启动方式恢复业务;业务容器中任务具有优先级,根据资源占比情况实现任务的并发执行和集群资源的最大化利用,能够最快速地实现集群启动、平台服务以及业务容器的恢复。降低了运营维护的成本,减少了用户等待的时间。的时间。的时间。

【技术实现步骤摘要】
一种云平台中集群的重启方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,特别是涉及一种云平台中集群的重启方法、装置、电子设备及存储介质。

技术介绍

[0002]Kubernetes(K8s,容器编排管理组件)是一个全新的基于容器技术的分布式架构领先方案,在Docker(应用容器引擎)技术的基础上,为容器化的应用提供部署运行、资源调度、服务发现和动态伸缩等一系列功能,提高了大规模容器集群管理的便捷性和高可用性。其可以实现容器集群的自动化部署、自动扩缩容、维护等功能。具体来说,通过Kubernetes可以快速部署应用、快速扩展应用、无缝对接新的应用功能、节省资源并优化硬件资源的使用。随着kubernetes在人工智能平台中的广泛应用,越来越多的业务引入到人工智能平台中。伴随着人工智能带给人类的巨大便利,深度学习任务的需求呈爆发性指数增长,业务量的剧增给平台造成了极大的压力。这就要求平台能够提供可靠的压力稳定性,以及在出现故障时,能够有极强的自恢复能力,不给使用平台的用户造成困扰。
[0003]但实际应用中,许多不可控的因素常常发生,比如断电,服务器自重启等。如果用户有刚创建的pod(最小调度单元)正在进行深度学习任务拉取镜像,此时平台服务或K8s系统组件发生了重启,那么可能会出现系统优先拉取之前用户未完成的任务,只有等用户任务完成以后才会从镜像仓库中拉取平台服务镜像或系统集群服务镜像,导致平台长时间不可用,耽误用户的宝贵时间,降低了用户的可信任度。
[0004]现有的故障修复方法,采用串行恢复的方式,即一种服务启动完成以后,另外一种服务才可继续进行启动,优先执行业务容器中的任务,在业务容器中的任务数量较多的情况下,平台服务与系统组件服务需要等待较长时间才能恢复,导致用户体验差,甚至会给用户的利益造成极大的损失。

技术实现思路

[0005]鉴于上述问题,本专利技术实施例是提供一种云平台中集群的重启方法、装置、电子设备及存储介质,以解决上述故障修复时,平台服务与系统组件服务需要等待较长时间才能恢复的问题。
[0006]为了解决上述问题,本专利技术实施例公开了一种云平台中集群的重启方法,其应用于云平台,所述云平台包括至少一个集群;所述集群运行有系统服务、平台服务、以及业务容器;所述方法包括:
[0007]在所述集群重启的情况下,获取所述业务容器在重启前的业务信息;
[0008]根据所述集群的剩余计算资源,预估所述集群中运行任务的并行数量;所述运行任务为系统服务、平台服务、以及业务容器对应的运行任务;
[0009]基于预估结果,确定所述集群中准备执行的运行任务。
[0010]可选地,所述基于预估结果,确定所述集群中准备执行的运行任务的步骤,包括:
[0011]基于所述预估结果,确定所述集群执行运行任务的最大并行数;
[0012]根据所述最大并行数确定所述集群中准备执行的运行任务。
[0013]可选地,所述集群中还运行有所述系统服务对应的系统服务任务池、所述平台服务对应平台服务任务池、所述业务容器对应的业务任务池;
[0014]所述根据所述集群的剩余计算资源,预估所述集群中运行任务的并行数量的步骤,包括:
[0015]基于所述集群的剩余计算资源,以及所述系统服务任务池、所述平台服务任务池、以及所述业务任务池中的任务分别占用的计算资源,预估所述集群中运行任务的并行数量。
[0016]可选地,所述方法还包括:
[0017]所述云平台按照所述业务容器中用户的优先级获取来自业务容器的任务。
[0018]可选地,所述方法还包括:
[0019]所述业务容器包括至少一用户队列;
[0020]所述用户队列包括至少一个任务。
[0021]可选地,所述方法还包括:
[0022]所述运行任务执行完成后,释放所述集群中所述运行任务对应的计算资源。
[0023]可选地,所述方法还包括:
[0024]所述集群的剩余计算资源基于所述集群中总计算资源与所述集群中已占用的计算资源得到。
[0025]本专利技术实施例还公开了一种云平台中集群的重启装置,其应用于云平台,所述云平台包括至少一个集群;所述集群运行有系统服务、平台服务、以及业务容器;
[0026]所述装置包括:
[0027]获取模块,用于在所述集群重启的情况下,获取所述业务容器在重启前的业务信息;
[0028]预估模块,用于根据所述集群的剩余计算资源,预估所述集群中运行任务的并行数量;所述运行任务为系统服务、平台服务、以及业务容器对应的运行任务;
[0029]确定模块,用于基于所述预估结果,确定所述集群中准备执行的运行任务。
[0030]可选地,所述确定模块包括:
[0031]最大并行数确定子模块,用于基于所述预估结果,确定所述集群执行运行任务的最大并行数;
[0032]运行任务确定子模块,用于根据所述最大并行数确定所述集群中准备执行的运行任务。
[0033]可选地,所述集群中还运行有所述系统服务对应的系统服务任务池、所述平台服务对应平台服务任务池、所述业务容器对应的业务任务池;
[0034]所述预估模块包括:
[0035]并行数预估子模块,用于基于所述集群的剩余计算资源,以及所述系统服务任务池、所述平台服务任务池、以及所述业务任务池中的任务分别占用的计算资源,预估所述集群中运行任务的并行数量。
[0036]可选地,所述装置还包括:
[0037]优先级获取模块,用于所述云平台按照所述业务容器中用户的优先级获取来自业务容器的任务。
[0038]可选地,所述装置还包括:
[0039]释放模块,用于所述运行任务执行完成后,释放所述集群中所述运行任务对应的计算资源。
[0040]可选地,所述装置还包括:剩余计算资源模块,用于基于所述集群中总计算资源与所述集群中已占用的计算资源得到所述集群的剩余计算资源。
[0041]本专利技术实施例还公开了一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的一种云平台中集群的重启方法的步骤。
[0042]本专利技术实施例还公开了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的一种云平台中集群的重启方法的步骤。
[0043]本专利技术实施例包括以下优点:通过在所述集群重启的情况下,获取所述业务容器在重启前的业务信息,根据所述集群的剩余计算资源,预估所述集群中运行任务的并行数量,所述运行任务为系统服务、平台服务、以及业务容器对应的运行任务,基于预估结果,确定所述集群中准备执行的运行任务,从而实现将系统组件或平台服务和业务容器并行启动方式恢复业务;业务容器中任务具有优先级,根据资源占比情况实现任务的并发执行和集群资源的最大化利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种云平台中集群的重启方法,其特征在于,其应用于云平台,所述云平台包括至少一个集群;所述集群运行有系统服务、平台服务、以及业务容器;所述方法包括:在所述集群重启的情况下,获取所述业务容器在重启前的业务信息;根据所述集群的剩余计算资源,预估所述集群中运行任务的并行数量;所述运行任务为系统服务、平台服务、以及业务容器对应的运行任务;基于预估结果,确定所述集群中准备执行的运行任务。2.根据权利要求1所述的云平台中集群的重启方法,其特征在于,所述基于预估结果,确定所述集群中准备执行的运行任务的步骤,包括:基于所述预估结果,确定所述集群执行运行任务的最大并行数;根据所述最大并行数确定所述集群中准备执行的运行任务。3.根据权利要求1所述的云平台中集群的重启方法,其特征在于,所述集群中还运行有所述系统服务对应的系统服务任务池、所述平台服务对应平台服务任务池、所述业务容器对应的业务任务池;所述根据所述集群的剩余计算资源,预估所述集群中运行任务的并行数量的步骤,包括:基于所述集群的剩余计算资源,以及所述系统服务任务池、所述平台服务任务池、以及所述业务任务池中的任务分别占用的计算资源,预估所述集群中运行任务的并行数量。4.根据权利要求1所述的云平台中集群的重启方法,其特征在于,所述方法还包括:所述云平台按照所述业务容器中用户的优先级获取来自业务容器的任务。5.根据权利要求4所述的云平台中集群的重启方法,其特征在于,所述方法还包括:所述业务...

【专利技术属性】
技术研发人员:董建华
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1