集群管理方法、设备及计算系统技术方案

技术编号:38101663 阅读:8 留言:0更新日期:2023-07-06 09:20
公开了集群管理方法、设备及计算系统,涉及计算机领域。集群中计算设备上的网络设备根据集群管理系统的第一启动指示启动计算设备,包括启动网络设备的操作系统,并反馈操作系统的启动结果。由此,集群管理系统通过向计算设备发送启动指示,控制计算设备以及计算设备包含的网络设备的操作系统进行启动,并且计算设备反馈启动结果,从而解决了如何使集群管理系统与计算设备中网络设备进行通信的问题,使集群管理系统与网络设备之间能够相互感知,实现了集群管理系统对集群中网络设备的启动管理。了集群管理系统对集群中网络设备的启动管理。了集群管理系统对集群中网络设备的启动管理。

【技术实现步骤摘要】
集群管理方法、设备及计算系统
[0001]本申请要求于2021年12月27日提交国家知识产权局、申请号为202111611749.6、申请名称为“一种集群管理方法”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。


[0002]本申请涉及计算机领域,尤其涉及一种集群管理方法、设备及计算系统。

技术介绍

[0003]数据处理单元(data process unit,DPU)是一种具备高性能计算能力的多核处理器。DPU卸载计算设备中其他芯片(如:中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU))运行的与人工智能,存储等相关应用,提升计算设备的数据处理性能,降低计算设备负载。目前,将DPU应用于集群中的计算设备,集群管理系统对DPU中操作系统(operating system,OS)和业务不能直接通信,导致集群管理系统与DPU之间无法相互感知。

技术实现思路

[0004]本申请提供了集群管理方法、设备及计算系统,由此解决了如何使集群管理系统与计算设备中DPU进行通信的问题。
[0005]第一方面,提供了一种集群管理方法,集群中计算设备上的网络设备根据集群管理系统的第一启动指示启动计算设备,包括启动网络设备的操作系统,并反馈操作系统的启动结果。由此,集群管理系统通过向计算设备的网络设备发送启动指示,由网络设备控制计算设备以及网络设备的操作系统进行启动,并且向集群管理系统反馈启动结果,从而解决了集群管理系统与计算设备中网络设备无法直接通信的问题,使集群管理系统与网络设备之间能够相互感知,实现了集群管理系统对集群中网络设备的启动管理。
[0006]在一种可能的实现方式中,网络设备包含了两个存储区域。网络设备根据获取的第一启动指示确定网络设备的启动模式,当启动模式为双区启动模式时,启动两个存储区域中的第一存储区域存储的网络设备的操作系统。双区启动模式用于指示基于存储操作系统的两个存储区域启动操作系统的启动方式。从而,网络设备基于两个存储区域的操作系统进行启动,可以提高启动操作系统的可靠性。
[0007]在一种可能的实现方式中,启动模式还可以包括单区启动模式。单区启动模式用于指示基于存储操作系统的一个存储区域启动操作系统的启动方式。
[0008]网络设备可以采用以下可能的两种方式确定启动模式。
[0009]在一种可能的示例中,根据获取的第一启动指示确定网络设备的启动模式,包括:网络设备获取到第一启动指示,根据第一启动指示包括的启动标识确定启动模式,即网络设备根据启动标识可以确定启动模式为双区启动模式和单区启动模式。从而,通过启动指示直接指示网络设备的启动模式,实现网络设备根据集群管理系统的指示进行启动,提升
集群管理系统与网络设备之间感知程度。
[0010]在另一种可能的示例中,根据获取的第一启动指示确定网络设备的启动模式,包括:网络设备获取到第一启动指示,根据预设规则确定网络设备的启动模式。预设规则用于指示优先以双区启动模式启动网络设备所在计算设备。由于网络设备基于双区启动模式进行启动,可以提高启动操作系统的可靠性。使网络设备优先以双区启动模式启动网络设备所在计算设备,可以确保启动操作系统的可靠性,以及增强网络设备的启动灵活性。
[0011]在另一种可能的实现方式中,当启动模式为双区启动模式时,启动第一存储区域的操作系统,包括:网络设备根据轮询方式在两个存储区域中确定第一存储区域,启动第一存储区域的操作系统。轮询方式用于指示依据集群管理系统发送的多个启动指示分别交替启动不同存储区域的操作系统。
[0012]例如,在网络设备根据第一启动指示启动第一存储区域的操作系统后,网络设备还可以获取的第二启动指示。第二启动指示与第一启动指示是集群管理系统发送的时序相邻的启动指示。第二启动指示用于指示网络设备启动网络设备所在的计算设备。网络设备根据第二启动指示确定网络设备的启动模式,当启动模式为双区启动模式时,启动网络设备的第二存储区域存储的网络设备的操作系统。
[0013]如此,通过轮询方式交替启动每个存储区域的操作系统,可以提升存储设备的使用寿命。
[0014]在另一种可能的实现方式中,当启动结果为启动失败时,网络设备启动两个存储区域中除第一存储区域以外的第二存储区域的操作系统。从而确保操作系统尽可能快地恢复,提升整个网络设备的可靠性以及用户体验,降低网络设备中断的时长对业务的影响。
[0015]在另一种可能的实现方式中,反馈启动响应,包括:通过网络设备与集群管理系统直连的通信网络向集群管理系统反馈启动响应。
[0016]在另一种可能的实现方式中,反馈启动响应,包括:通过网络设备所在的计算设备的通信接口与集群管理系统连接的通信网络向集群管理系统反馈启动响应。例如,网络设备通过PCIe总线向计算设备发送反馈启动响应,计算设备通过通信网络向集群管理系统反馈启动响应。
[0017]相对通过网络设备与集群管理系统直连的通信网络向集群管理系统反馈启动响应,通过计算设备内部的总线接口传输启动响应,可以提高启动响应的传输速度。
[0018]在另一种可能的实现方式中,网络设备启动操作系统后,还可以对操作系统进行升级。方法还包括:网络设备根据集群管理系统的升级指示对网络设备执行升级操作,并反馈操作系统的升级结果。由此,集群管理系统通过向计算设备发送升级指示,控制计算设备以及计算设备包含的网络设备的操作系统进行升级,并且计算设备反馈升级结果,从而解决了如何使集群管理系统与计算设备中网络设备进行关于升级操作的通信的问题,使集群管理系统与网络设备之间能够相互感知,实现了集群管理系统对集群中网络设备的升级管理。
[0019]在另一种可能的实现方式中,网络设备根据获取的升级指示确定网络设备的启动模式,当启动模式为双区启动模式时,升级两个存储区域中除第一存储区域以外的第二存储区域存储的网络设备的操作系统。第二存储区域为备用存储区域,用于同步或镜像存储第一存储区域存储的操作系统的数据。从而,网络设备基于两个存储区域的操作系统进行
升级,可以提高升级操作系统的可靠性。
[0020]进而,当第二存储区域的操作系统升级成功时,对第一存储区域的操作系统执行升级操作。当第二存储区域的操作系统升级失败时,对第二存储区域的操作系统执行回滚操作。从而使两个存储区域存储的操作系统一致,确保操作系统数据同步,避免由于操作系统的数据误差导致发生应用程序的运行故障。
[0021]在另一种可能的实现方式中,网络设备包括微处理单元(Microprocessor Unit,MPU)、基本输入输出系统(Basic Input Output System,BIOS)和中央处理器(Central Processing unit,CPU)。微处理器,用于管理双区使能开关的状态,双区使能开关的状态指示了启动模式;基本输入输出系统,用于根据双区使能开关的状态确定网络设备的启动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集群管理方法,其特征在于,所述方法由连接集群管理系统的网络设备执行,所述方法包括:根据获取的第一启动指示确定所述网络设备的启动模式,所述第一启动指示用于指示所述网络设备启动所述网络设备所在的计算设备;当所述启动模式为双区启动模式时,启动第一存储区域存储的所述网络设备的操作系统,所述双区启动模式用于指示基于存储所述操作系统的两个存储区域启动所述操作系统的启动方式,所述第一存储区域为所述两个存储区域中一个存储区域;反馈启动响应,所述启动响应用于指示所述操作系统的启动结果。2.根据权利要求1所述的方法,其特征在于,根据获取的第一启动指示确定所述网络设备的启动模式,包括:获取所述第一启动指示,所述第一启动指示包括启动标识;根据所述启动标识确定所述启动模式,所述启动模式包含所述双区启动模式和单区启动模式,所述单区启动模式用于指示基于存储操作系统的一个存储区域启动所述操作系统的启动方式。3.根据权利要求1所述的方法,其特征在于,根据获取的第一启动指示确定所述网络设备的启动模式,包括:获取所述第一启动指示;根据预设规则确定所述网络设备的启动模式,所述预设规则用于指示优先以所述双区启动模式启动所述网络设备所在计算设备。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述当所述启动模式为双区启动模式时,启动第一存储区域的操作系统,包括:根据轮询方式在所述两个存储区域中确定所述第一存储区域,所述轮询方式用于指示依据所述集群管理系统发送的多个启动指示分别交替启动不同存储区域的操作系统;启动所述第一存储区域的操作系统。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:根据获取的第二启动指示确定所述网络设备的启动模式,所述第二启动指示用于指示所述网络设备启动所述网络设备所在的计算设备,且所述第二启动指示与所述第一启动指示是所述集群管理系统发送的时序相邻的启动指示;当所述启动模式为双区启动模式时,启动所述网络设备的第二存储区域存储的所述网络设备的所述操作系统。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:当所述启动结果为启动失败时,启动所述第二存储区域...

【专利技术属性】
技术研发人员:吴倚龙杜敏谢红
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1