【技术实现步骤摘要】
一种芯片监控方法、系统、存储介质及设备
[0001]本专利技术涉及服务器
,尤其涉及一种芯片监控方法、系统、存储介质及设备。
技术介绍
[0002]如今,AI(Artificial Intelligence,人工智能)芯片种类繁多,且由多种不同的厂商提供,因而多为异构芯片。同时,各厂商会提供相应的插件来使芯片托管在k8s(Kubernetes)集群内部,从而调度各芯片计算资源。寒武纪以及英伟达这些芯片厂商在提供相应的芯片之后,为接入k8s集群监控,芯片厂商各自定制了相关的组件对接到prometheus(一种监控系统),AI推理平台的开发人员需研究如何部署组件,如何获取监控指标,然后定制化将其加入到AI推理平台,进行异构芯片的监控。
[0003]不管是异构芯片厂商还是AI推理平台,在开发相应的监控工具的时候都有很大的开发量:对于异构芯片厂商,需要开发针对异构芯片的组件用于采集监控数据;对于AI推理平台,需要研究组件的部署,监控数据的对接,后台的数据处理,前端页面的适配。因而从异构芯片的使用到监控需要大量的时间。A ...
【技术保护点】
【技术特征摘要】
1.一种芯片监控方法,其特征在于,包括以下步骤:响应于解析模块检测到芯片接入至集群,对所述芯片对应的规范化配置文件进行解析,以生成最新监控查询语句;由所述解析模块将所述最新监控查询语句推送至推理平台的检测接口,并由所述检测接口检测所述推理平台的数据库中是否存在所述芯片的监控查询语句;响应于不存在所述芯片的监控查询语句,由所述解析模块将所述最新监控查询语句添加至所述数据库;由监控系统从所述数据库中加载所述最新监控查询语句;响应于加载成功,对所述芯片进行监控。2.根据权利要求1所述的方法,其特征在于,响应于不存在所述芯片的监控查询语句,由所述解析模块将所述最新监控查询语句添加至所述数据库包括:响应于不存在所述芯片的监控查询语句,向所述检测接口返回第一标志位;响应于所述解析模块检测到所述检测接口具有所述第一标志位,基于所述第一标志位将所述最新监控查询语句添加至所述数据库。3.根据权利要求1所述的方法,其特征在于,还包括:响应于存在所述芯片的监控查询语句,判断其内容与所述最新监控查询语句的内容是否相同;响应于二者的内容不同,将所述数据库中所述芯片的监控查询语句删除,并将所述最新监控查询语句添加至所述数据库。4.根据权利要求3所述的方法,其特征在于,响应于二者的内容不同,将所述数据库中所述芯片的监控查询语句删除,并将所述最新监控查询语句添加至所述数据库包括:响应于二者的内容不同,向所述检测接口返回第二标志位;响应于所述解析模块检测到所述检测接口具有所述第二标志位,基于所述第二标志位将所述数据库中所述芯片的监控查询语句删除,并将所述最新监控查询语句添加至所述数据库。5.根据权利要求3所述的方法,其特征在...
【专利技术属性】
技术研发人员:宋小妹,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。