人工智能加速卡系统及远程运维管理方法技术方案

技术编号:42421714 阅读:21 留言:0更新日期:2024-08-16 16:37
本发明专利技术涉及设备运维技术领域,公开了一种人工智能加速卡系统及远程运维管理方法,该系统包括:加速卡、宿主机、服务器以及运维管理设备;宿主机与加速卡电连接;服务器与宿主机通信连接,用于接收宿主机发送的加速卡的运行状态信息,并发送运行状态告警信息;运维管理设备与通信模组以及服务器通信连接,用于接收服务器发送的运行状态告警信息;运维管理设备还用于根据运行状态告警信息确定运维数据,通过通信模组发送运维数据至加速卡,并接收加速卡响应运维数据后反馈的运维数据回传包。本发明专利技术解决了以往宿主机宕机时,网络不通,程序无法运行,无法了解到芯片内部运行状态,对此类故障往往无从下手,只能靠重启宿主机这一难题。

【技术实现步骤摘要】

本专利技术涉及设备运维,具体涉及一种人工智能加速卡系统及远程运维管理方法


技术介绍

1、目前,人工智能处理器的主流产品形态为业界标准的pcie(peripheralcomponent interconnect express,高速串行计算机扩展总线标准)板卡,这种板卡一般不能独立存在,通常以寄宿的方式插在一台服务器上,我们称服务器为宿主机,由宿主机对其供电、软件管理,整体形成一个计算节点。

2、在整个计算节点正常运行场景下,开发和运维人员,通常是通过vpn(virtualprivate network,虚拟私有网络)结合安全协议来远程登录宿主机,以对pcie板卡进行各种操作。但是,一旦节点运算中遇到致命故障时,可能导致宿主机宕机、程序崩溃、网络中断的情况出现,这种场景下,原有的一切运维手段均无法使用,且看不到底层的现场数据,也无法确定故障的根本原因,解决起来将异常艰难和耗时。


技术实现思路

1、有鉴于此,本专利技术提供了一种人工智能加速卡系统及远程运维管理方法,以解决现有技术中在宿主机宕机时,无本文档来自技高网...

【技术保护点】

1.一种人工智能加速卡系统,其特征在于,所述系统包括:

2.根据权利要求1所述的系统,其特征在于,所述加速卡包括:

3.根据权利要求2所述的系统,其特征在于,所述加速卡还包括:

4.根据权利要求3所述的系统,其特征在于,所述故障运维信号包括以下至少之一:

5.根据权利要求2所述的系统,其特征在于,所述加速卡包括:

6.根据权利要求1所述的系统,其特征在于,所述宿主机包括:

7.根据权利要求1所述的系统,其特征在于,所述服务器包括:

8.根据权利要求5所述的系统,其特征在于,所述加速卡电路板上设置有邮票孔位...

【技术特征摘要】

1.一种人工智能加速卡系统,其特征在于,所述系统包括:

2.根据权利要求1所述的系统,其特征在于,所述加速卡包括:

3.根据权利要求2所述的系统,其特征在于,所述加速卡还包括:

4.根据权利要求3所述的系统,其特征在于,所述故障运维信号包括以下至少之一:

5.根据权利要求2所述的系统,其特征在于,所述加速卡包括:

6.根据权利要求1所述的系统,其特征在于,所述宿主机包括:

7.根据权利...

【专利技术属性】
技术研发人员:田松涛杨海健
申请(专利权)人:太初无锡电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1