【技术实现步骤摘要】
一种带内外定位AI加速卡的方法、系统、设备及介质
本专利技术涉及定位领域,更具体地,特别是指一种带内外定位AI加速卡的方法、系统、计算机设备及可读介质。
技术介绍
随着大数据及人工智能的兴起,数据中心对AI(人工智能)算力的要求越来越高,从而对AI加速卡的需求也与日俱增;市面上开始出现各种各样的高密度AI算力服务器,例如,一机4卡,一机8卡,设置一机16卡的服务器,当数据中心同时维护几百台这样的服务器时,也意味着同时维护着几千张AI加速卡;如何实现对这些加速卡的快速定位,对于提高运维人员的工作效率显的尤为重要。现有的技术想要定位一张AI加速卡,需要先通过服务器的BMC(BaseboardManagerController,基板管理控制器)将插着此卡的服务器ID(identification,标识)灯点亮,然后运维人员进入现场,找到点亮的服务器,再根据服务器系统下AI加速卡的busID(PCIe设备的总线ID号)和实际物理槽位的关系进行定位;而确认busID和实际物理槽位的关系需要翻看服务器的硬件拓扑架构,或者咨询服务 ...
【技术保护点】
1.一种带内外定位AI加速卡的方法,其特征在于,包括以下步骤:/n根据点灯指令的来源判断是带内定位还是带外定位;/n响应于带内定位,将本地系统的点灯指令传输到AI计算芯片中,并通过所述AI计算芯片将所述点灯指令传输到片上管理芯片;/n响应于带外定位,将远程系统的点灯指令传输到服务器的BMC中,并通过所述BMC将所述点灯指令传输到片上管理芯片;以及/n使所述片上管理芯片根据所述点灯指令点亮对应AI加速卡的位置的指示灯。/n
【技术特征摘要】
1.一种带内外定位AI加速卡的方法,其特征在于,包括以下步骤:
根据点灯指令的来源判断是带内定位还是带外定位;
响应于带内定位,将本地系统的点灯指令传输到AI计算芯片中,并通过所述AI计算芯片将所述点灯指令传输到片上管理芯片;
响应于带外定位,将远程系统的点灯指令传输到服务器的BMC中,并通过所述BMC将所述点灯指令传输到片上管理芯片;以及
使所述片上管理芯片根据所述点灯指令点亮对应AI加速卡的位置的指示灯。
2.根据权利要求1所述的方法,其特征在于,所述通过所述AI计算芯片将所述点灯指令传输到片上管理芯片包括:
通过所述AI计算芯片将所述点灯指令转换成所述片上管理芯片能够识别的寄存器规范。
3.根据权利要求1所述的方法,其特征在于,所述通过所述BMC将所述点灯指令传输到片上管理芯片包括:
通过所述BMC将所述点灯指令转换成所述片上管理芯片能够识别的寄存器规范。
4.根据权利要求2或3所述的方法,其特征在于,使所述片上管理芯片根据所述点灯指令点亮对应AI加速卡的位置的指示灯包括:
从所述寄存器规范中读取点灯对应的基准数据以及所述基准数据写入的寄存器的地址。
5.根据权利要求4所述的方法,其特征在于,使所述片上管理芯片根据所述点灯指令点亮对应AI加速卡的位置的指示灯包括:
所述片上管理芯片的轮询进程循环检测每个寄存器的数据,并判断所述数据与所述基准数...
【专利技术属性】
技术研发人员:熊晓东,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。