异构系统启动同步的方法、系统、异构系统及计算机设备技术方案

技术编号:34966406 阅读:18 留言:0更新日期:2022-09-17 12:47
本发明专利技术公开了一种异构系统启动同步的方法,包括步骤:对主机系统进行上电处理,控制所述主机系统的主BMC和各子系统的子BMC均上电启动;根据当前启动依赖关系表,控制所述启动依赖关系表中不存在下级依赖关系的各子系统的子CPU开机启动;将已完成子CPU开机启动的子系统从所述启动依赖关系表中删除,继续控制更新后的启动依赖关系表中不存在下级依赖关系的子系统的子CPU开机启动;在所有子系统的子CPU完成开机启动后,控制主机系统的主CPU开机启动。本发明专利技术还公开了相应的异构系统启动同步的方法、系统、异构系统及计算机设备。实施本发明专利技术,可以提高启动效率以及成功率。可以提高启动效率以及成功率。可以提高启动效率以及成功率。

【技术实现步骤摘要】
异构系统启动同步的方法、系统、异构系统及计算机设备


[0001]本专利技术涉及数据处理
,特别是涉及一种异构系统启动同步的方法、系统、异构系统及计算机设备。

技术介绍

[0002]随着算力需求的不断提高,越来越多的计算平台开始引入中央处理单元(CPU)、图像处理单元(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等多种不同计算单元来进行加速计算。由此,异构计算应运而生,随之出现了很多利用智能网卡设备解决网络、存储基础设施虚拟化加速以及异构计算、存储资源池化的问题的方案。
[0003]但是,当前异构系统存在一个普遍问题,由于异构系统由不同厂家进行开发,其电源无法统一管理,但是其资源上又存在一定的依赖,导致异构系统的主机系统(例如,其中一种可能的物理形态是Host)无法兼容子系统(例如,其中一种可能的物理形态是Card,Card可以是Smart NIC(Network Interface Card,网络接口卡)),无法发现需要子系统启动完成后提供的资源或者虚拟设备。所以必须要实现电源统一管理,协调启动顺序,才能使异构系统稳定启动运行。
[0004]为此,在现有技术中,提出的解决方案有以下两种:其一、异构系统的子系统尽量做到快速启动,在主机系统使用或者扫描子系统资源前,使子系统完成启动并做好资源的模拟。
[0005]其二、在异构系统的子系统完成启动后,对主机系统进行一次重启操作,可以保证每次主机系统启动时,子系统是已经处于启动完成,资源准备好的状态。
[0006]但是这两种方案均存在不足之处:通过优化子系统的启动顺序,只能减少启动时间导致的主机系统无法识别子系统资源或模拟设备的概率,但无法做到百分百的准确率,因主机系统根据平台,厂商技术的差异,其启动时间存在很大差别,上述方案一无法保证适配到任何主机系统都能正常识别。
[0007]而在方案二中,通过子系统对主机系统进行一次重启操作,会影响主机系统启动完成时间,对云服务来说是产生很大的影响,且客户体验也不佳。

技术实现思路

[0008]本专利技术所要解决的技术问题在于,提供一种异构系统启动同步的方法、系统、异构系统及计算机设备,可以实现异构系统启动同步,缩短异构系统启动的时间,以提高启动成功率和效率。
[0009]为解决上述技术问题,作为本专利技术的一方面,提供一种异构系统启动同步的方法,应用于包含有主机系统与子系统的异构系统中,所述主机系统包含有主CPU以及主BMC,所述各子系统均包含有子CPU以及子BMC,所述方法至少包括如下步骤:对主机系统进行上电处理,控制所述主机系统的主BMC和各子系统的子BMC均上电启动;
根据主机系统以及各子系统中预先配置的一级依赖关系,获得当前启动依赖关系表;控制所述启动依赖关系表中不存在下级依赖关系的各子系统的子CPU开机启动;将已完成子CPU开机启动的子系统从所述启动依赖关系表中删除,继续控制更新后的启动依赖关系表中不存在下级依赖关系的子系统的子CPU开机启动;在所有子系统的子CPU完成开机启动后,控制主机系统的主CPU开机启动,以完成异构系统的启动。
[0010]其中,所述控制所述启动依赖关系表中不存在下级依赖关系的各子系统的子CPU开机启动的步骤包括:主机系统的主BMC向启动依赖关系表中不存在下级依赖关系的子系统的子BMC发送启动命令,所述各子系统的子BMC根据启动命令控制对应子CPU开机启动。
[0011]其中,进一步包括:各子系统的子CPU在开机启动完成后,向所在子系统的子BMC发送开机启动已完成的命令;所述子BMC在收到所述命令后,更新相应标志位的数值,通过所述数值表征对应子CPU已完成开机启动。
[0012]其中,进一步包括:主机系统的主BMC定时向子系统的子BMC发送检测标志位的请求,以轮询各子系统中各子BMC中标志位的数值,判断相应的子CPU是否已完成开机启动。
[0013]相应地,本专利技术的另一方面,还提供一种异构系统启动同步的系统,应用于包含有主机系统与子系统的异构系统中,所述主机系统包含有主CPU以及主BMC,所述各子系统均包含有子CPU以及子BMC,所述异构系统启动同步的系统至少包括:BMC上电处理模块,用于对主机系统进行上电处理,控制所述主机系统的主BMC和各子系统的子BMC均上电启动;启动依赖关系表获取模块,用于根据主机系统以及各子系统中预先配置的一级依赖关系,获得当前启动依赖关系表;子CPU开机控制模块,用于控制所述启动依赖关系表中不存在下级依赖关系的各子系统的子CPU开机启动;启动依赖关系表更新处理模块,用于将已完成子CPU开机启动的子系统从所述启动依赖关系表中删除,继续控制更新后的启动依赖关系表中不存在下级依赖关系的子系统的子CPU开机启动;主CPU开机控制模块,用于在所有子系统的子CPU完成开机启动后,控制主机系统的主CPU开机启动,以完成异构系统的启动。
[0014]其中,所述子CPU开机控制模块具体用于控制:主机系统的主BMC向启动依赖关系表中不存在下级依赖关系的子系统的子BMC发送启动命令,所述各子系统的子BMC根据启动命令控制对应子CPU开机启动。
[0015]其中,进一步包括:设置于所述子CPU中的开机启动完成反馈模块,用于各子系统的子CPU在开机启动完成后,向所在子系统的子BMC发送开机启动已完成的命令;
设置于所述子BMC中的标志位更新模块,用于所述子BMC在收到所述命令后,更新相应标志位的数值,通过所述数值表征对应子CPU已完成开机启动。
[0016]其中,进一步包括:轮询模块,用于主机系统的主BMC定时向子系统的子BMC发送检测标志位的请求,以轮询各子系统中各子BMC中标志位的数值,判断相应的子CPU是否已完成开机启动。
[0017]作为本专利技术的再一方面,还提供一种异构系统,其至少包括主机系统与子系统,所述主机系统包含有主CPU以及主BMC,所述各子系统均包含有子CPU以及子BMC,异构系统进一步包括前述的异构系统启动同步的系统。
[0018]作为本专利技术的又一方面,还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述的方法。
[0019]实施本专利技术实施例,具有如下的有益效果:本专利技术提供一种异构系统启动同步的方法、系统、异构系统及计算机设备,结合当前异构系统已有的硬件资源,通过常用的SMBus总线及IPMI协议,对异构计算系统进行统一的启动全流程进行管理,达到启动的唯一性和确定性,解决因异构计算系统各子系统启动时间不一致,导致相互依赖的功能出现异常的问题;同时,本专利技术中,通过规范异构系统的启动顺序流程,控制让不存在依赖关系的子系统先启动,从而可以避免因启动顺序导致的异常的出现,可以使各厂家子系统能快速的适配到主机系统上,提高系统稳定性的同时,也提高了基础设施的部署效率和适用性;另外,在使用统一的启动标准后,明确了优化的启动顺序,能在稳定的基础上减少整个异构系统的启动时间,提高了启动成功率和效率。...

【技术保护点】

【技术特征摘要】
1.一种异构系统启动同步的方法,应用于包含有主机系统与子系统的异构系统中,所述主机系统包含有主CPU以及主BMC,所述各子系统均包含有子CPU以及子BMC,其特征在于,所述方法至少包括如下步骤:对主机系统进行上电处理,控制所述主机系统的主BMC和各子系统的子BMC均上电启动;根据主机系统以及各子系统中预先配置的一级依赖关系,获得当前启动依赖关系表;控制所述启动依赖关系表中不存在下级依赖关系的各子系统的子CPU开机启动;将已完成子CPU开机启动的子系统从所述启动依赖关系表中删除,继续控制更新后的启动依赖关系表中不存在下级依赖关系的子系统的子CPU开机启动;在所有子系统的子CPU完成开机启动后,控制主机系统的主CPU开机启动,以完成异构系统的启动。2.如权利要求1所述的异构系统启动同步的方法,其特征在于,所述控制所述启动依赖关系表中不存在下级依赖关系的各子系统的子CPU开机启动的步骤包括:主机系统的主BMC向启动依赖关系表中不存在下级依赖关系的子系统的子BMC发送启动命令,所述各子系统的子BMC根据启动命令控制对应子CPU开机启动。3.如权利要求2所述的异构系统启动同步的方法,其特征在于,进一步包括:各子系统的子CPU在开机启动完成后,向所在子系统的子BMC发送开机启动已完成的命令;所述子BMC在收到所述命令后,更新相应标志位的数值,通过所述数值表征对应子CPU已完成开机启动。4.如权利要求3所述异构系统启动同步的方法,其特征在于,进一步包括:主机系统的主BMC定时向子系统的子BMC发送检测标志位的请求,以轮询各子系统中各子BMC中标志位的数值,判断相应的子CPU是否已完成开机启动。5.一种异构系统启动同步的系统,应用于包含有主机系统与子系统的异构系统中,所述主机系统包含有主CPU以及主BMC,所述各子系统均包含有子CPU以及子BMC,其特征在于,至少包括:BMC上电处理模块,用于对主机系统进行上电处理,控制所述主机系统的主BMC和各子系统的子BMC均上电启动;启动依赖关系表获取模块,用于根据主机系统以及各子系统中预先配置的一级依赖关系,获得当前启动依赖关系表;子CPU开机控制模块,用于控制所述启动依赖关系表中不存在下级依赖关系的各子系统的子CPU开机启动;启动依赖关系表更新处理模块,用于将已完成子CPU开机启动的子系统从所述启动依赖关系表中删除,继续控制更新后的启动依赖关系表中不存在下级依赖关系的子系统的子CPU开机启动;主CPU开机控制模块,用于在所有子系统的子CPU完成开机启动后,控制主机系统的主CPU开机启动,以完成异构系统的启动。6.如权利要求5的异构系统启动同步的系统,其特征在于,所述子CPU开机控制模块具体用于控制:<...

【专利技术属性】
技术研发人员:蔡诗鉴
申请(专利权)人:深圳云豹智能有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1