一种异构芯片的监控方法、装置、设备和介质制造方法及图纸

技术编号:33031647 阅读:9 留言:0更新日期:2022-04-15 09:08
本申请实施例公开了一种异构芯片的监控方法、装置、设备和计算机可读存储介质,获取每个节点包含的异构芯片的芯片类型;不同芯片类型其对应的指标信息有所差异,为了实现对不同异构芯片的规范化管理,在配置文件中可以包含每种芯片类型对应的指标类型以及每个指标类型对应的生成方式。在确定出芯片类型之后,可以基于芯片类型,从设定的配置文件中确定出对应的指标类型;按照配置文件中记录的各所述指标类型的生成方式,可以得到各异构芯片对应的指标信息;调用设定的监控告警规则对指标信息进行分析,以得到监测结果。按照配置文件中包含的指标类型以及生成方式,可以实现对不同异构芯片的规范化处理,降低了异构芯片的管理难度。度。度。

【技术实现步骤摘要】
一种异构芯片的监控方法、装置、设备和介质


[0001]本申请涉及集群管理
,特别是涉及一种异构芯片的监控方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]随着Kubernetes的热度不断升高,越来越多的厂商开始基于Kubernetes做集群管理、应用部署以及不同维度的监控告警。云原生社区中也有各种各样的指标采集工具,方便使用者可以直接暴露指标以供Prometheus采集,但是对于异构芯片的监控如何对接到Prometheus Server中还是空白的。
[0003]目前主流的方式是由异构芯片厂商提供对应的exporter暴露指标,比如:NVIDIA DCGM

EXPORTER。但是这种方式对于研发人员来说学习以及开发成本较高,在多异构芯片的场景下,每个节点的异构芯片的种类都是不一样的,采用现有的技术方案就要求每个芯片厂商定制开发将需要暴露的指标写到prom文件中,增加了芯片厂商的开发量。并且随着接入的芯片越来越多,整个监控系统也会显得繁重。
[0004]可见,如何降低异构芯片的管理难度,是本领域技术人员需要解决的问题。

技术实现思路

[0005]本申请实施例的目的是提供一种异构芯片的监控方法、装置、设备和计算机可读存储介质,可以降低异构芯片的管理难度。
[0006]为解决上述技术问题,本申请实施例提供一种异构芯片的监控方法,包括:
[0007]获取每个节点包含的异构芯片的芯片类型;
[0008]基于所述芯片类型,从设定的配置文件中确定出对应的指标类型;
[0009]按照所述配置文件中记录的各所述指标类型的生成方式,得到各所述异构芯片对应的指标信息;
[0010]调用设定的监控告警规则对所述指标信息进行分析,以得到监测结果。
[0011]可选地,所述按照所述配置文件中记录的各所述指标类型的生成方式,得到各所述异构芯片对应的指标信息包括:
[0012]在所述指标类型为直接获取型指标的情况下,调用所述配置文件中与所述指标类型对应的指令,以获取指标信息;
[0013]在所述指标类型为计算型指标的情况下,按照所述配置文件中所述指标类型对应的处理规则,计算得到指标信息。
[0014]可选地,所述监控告警规则包括有各所述指标信息对应的正常范围以及告警方式;
[0015]所述调用设定的监控告警规则对所述指标信息进行分析,以得到监测结果包括:
[0016]判断各所述指标信息是否属于其对应的正常范围内;
[0017]当存在不属于正常范围的异常指标信息时,依据所述异常指标信息对应的告警方
式,通过推理平台进行告警提示。
[0018]可选地,在所述按照所述配置文件中记录的各所述指标类型的生成方式,得到各所述异构芯片对应的指标信息之后还包括:
[0019]将各所述异构芯片对应的指标信息存储至Prometheus服务器。
[0020]可选地,还包括:
[0021]将异构芯片厂商对应的指标标识发送至推理平台,以便于所述异构芯片厂商基于所述推理平台查询异构芯片对应的指标信息;
[0022]依据所述推理平台传输的携带有指标标识的信息获取指令,从所述Prometheus服务器读取对应的目标指标信息,将所述目标指标信息反馈至所述推理平台。
[0023]可选地,还包括:
[0024]接收配置文件修改指令,对所述配置文件中包含的指标类型和/或指标类型的生成方式进行修改。
[0025]可选地,所述异构芯片对应的指标信息包括所述异构芯片的状态信息、温度信息、功率信息、使用率信息和进程信息的任意一个或任意组合。
[0026]本申请实施例还提供了一种异构芯片的监控装置,包括获取单元、确定单元、生成单元和分析单元;
[0027]所述获取单元,用于获取每个节点包含的异构芯片的芯片类型;
[0028]所述确定单元,用于基于所述芯片类型,从设定的配置文件中确定出对应的指标类型;
[0029]所述生成单元,用于按照所述配置文件中记录的各所述指标类型的生成方式,得到各所述异构芯片对应的指标信息;
[0030]所述分析单元,用于调用设定的监控告警规则对所述指标信息进行分析,以得到监测结果。
[0031]可选地,所述生成单元包括调用子单元和计算子单元;
[0032]所述调用子单元,用于在所述指标类型为直接获取型指标的情况下,调用所述配置文件中与所述指标类型对应的指令,以获取指标信息;
[0033]所述计算子单元,用于在所述指标类型为计算型指标的情况下,按照所述配置文件中所述指标类型对应的处理规则,计算得到指标信息。
[0034]可选地,所述监控告警规则包括有各所述指标信息对应的正常范围以及告警方式;
[0035]所述分析单元用于判断各所述指标信息是否属于其对应的正常范围内;当存在不属于正常范围的异常指标信息时,依据所述异常指标信息对应的告警方式,通过推理平台进行告警提示。
[0036]可选地,还包括存储单元;
[0037]所述存储单元,用于将各所述异构芯片对应的指标信息存储至Prometheus服务器。
[0038]可选地,还包括发送单元、读取单元和反馈单元;
[0039]所述发送单元,用于将异构芯片厂商对应的指标标识发送至推理平台,以便于所述异构芯片厂商基于所述推理平台查询异构芯片对应的指标信息;
[0040]所述读取单元,用于依据所述推理平台传输的携带有指标标识的信息获取指令,从所述Prometheus服务器读取对应的目标指标信息;
[0041]所述反馈单元,用于将所述目标指标信息反馈至所述推理平台。
[0042]可选地,还包括修改单元;
[0043]所述修改单元,用于接收配置文件修改指令,对所述配置文件中包含的指标类型和/或指标类型的生成方式进行修改。
[0044]可选地,所述异构芯片对应的指标信息包括所述异构芯片的状态信息、温度信息、功率信息、使用率信息和进程信息的任意一个或任意组合。
[0045]本申请实施例还提供了一种异构芯片的监控设备,包括:
[0046]存储器,用于存储计算机程序;
[0047]处理器,用于执行所述计算机程序以实现如上述异构芯片的监控方法的步骤。
[0048]本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述异构芯片的监控方法的步骤。
[0049]由上述技术方案可以看出,获取每个节点包含的异构芯片的芯片类型;不同芯片类型其对应的指标信息有所差异,为了实现对不同异构芯片的规范化管理,在配置文件中可以包含每种芯片类型对应的指标类型以及每个指标类型对应的生成方式。在确定出芯片类型之后,可以基于芯片类型,从设定的配置文件中确定出对应的指标类型;按照配置文件中记录的各所述指标类型的生成方式,可以得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异构芯片的监控方法,其特征在于,包括:获取每个节点包含的异构芯片的芯片类型;基于所述芯片类型,从设定的配置文件中确定出对应的指标类型;按照所述配置文件中记录的各所述指标类型的生成方式,得到各所述异构芯片对应的指标信息;调用设定的监控告警规则对所述指标信息进行分析,以得到监测结果。2.根据权利要求1所述的异构芯片的监控方法,其特征在于,所述按照所述配置文件中记录的各所述指标类型的生成方式,得到各所述异构芯片对应的指标信息包括:在所述指标类型为直接获取型指标的情况下,调用所述配置文件中与所述指标类型对应的指令,以获取指标信息;在所述指标类型为计算型指标的情况下,按照所述配置文件中所述指标类型对应的处理规则,计算得到指标信息。3.根据权利要求1所述的异构芯片的监控方法,其特征在于,所述监控告警规则包括有各所述指标信息对应的正常范围以及告警方式;所述调用设定的监控告警规则对所述指标信息进行分析,以得到监测结果包括:判断各所述指标信息是否属于其对应的正常范围内;当存在不属于正常范围的异常指标信息时,依据所述异常指标信息对应的告警方式,通过推理平台进行告警提示。4.根据权利要求1所述的异构芯片的监控方法,其特征在于,在所述按照所述配置文件中记录的各所述指标类型的生成方式,得到各所述异构芯片对应的指标信息之后还包括:将各所述异构芯片对应的指标信息存储至Prometheus服务器。5.根据权利要求4所述的异构芯片的监控方法,其特征在于,还包括:将异构芯片厂商对应的指标标识发送至推理平台,以...

【专利技术属性】
技术研发人员:张家华
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1