当前位置: 首页 > 专利查询>之江实验室专利>正文

一种计算集群温度告警方法、装置、存储介质及电子设备制造方法及图纸

技术编号:42221015 阅读:25 留言:0更新日期:2024-07-30 19:01
本说明书公开了一种计算集群温度告警方法、装置、存储介质及电子设备,包括:获取各服务器的核心芯片的硬件温度,将各硬件温度输入各服务器对应的预先训练的服务器告警模型,确定各服务器分别对应的第一状态。确定通过各传感器采集到的环境温度,并将各第一状态和各环境温度输入预先训练的集群告警模型,确定计算集群对应的告警状态,并根据告警状态,对计算集群进行温度告警。通过具有可解释性的多规则的服务器告警模型,自动化判断服务器的状态,以及通过具有可解释性的多规则的集群告警模型,自动化判断计算集群的告警状态,从而自动化对计算集群的温度进行监测,以避免计算集群的温度出现异常,以防硬件受损或系统崩溃。

【技术实现步骤摘要】

本说明书涉及计算机,尤其涉及一种计算集群温度告警方法、装置、存储介质及电子设备


技术介绍

1、随着科技的不断发展,计算集群应用的越来越广泛,尤其是面向大型人工智能训练部署领域的基于gpu的大规模计算集群。

2、由于计算集群常常需要执行模型训练以及推理等高算力的任务,因此,计算集群所在的机房可能会出现温度异常的现象。为了监测计算集群的温度,及时察觉并解决温度异常的情况,以防硬件受损或系统崩溃,一般是通过在计算集群所在的机房放置的传感器获取温度,再判断温度是否达到设置的告警阈值,基于判断结果进行温度告警。

3、但是,传感器可能存在误差,导致监测的温度数据不够准确,并且,传感器的位置选择可能不够合理,导致部分区域的温度监测不到位,无法及时发现温度异常。因此,如何对计算集群进行温度告警是一个非常重要的问题。

4、基于此,本说明书提供一种计算集群温度告警方法。


技术实现思路

1、本说明书提供一种计算集群温度告警方法、装置、存储介质及电子设备,以部分的解决现有技术存在的上述问题。...

【技术保护点】

1.一种计算集群温度告警方法,其特征在于,所述方法应用于计算集群,所述计算集群包括若干服务器;所述计算集群所在的物理环境中部署有若干传感器,所述传感器用于采集所述计算集群所在的物理环境的温度,所述方法包括:

2.如权利要求1所述的方法,其特征在于,将各硬件温度输入所述各服务器对应的预先训练的服务器告警模型,确定所述各服务器分别对应的第一状态,具体包括:

3.如权利要求2所述的方法,其特征在于,所述第一规则还包括第一条件;

4.如权利要求1所述的方法,其特征在于,将各第一状态和各环境温度输入预先训练的集群告警模型,确定所述计算集群对应的告警状态,具体包括...

【技术特征摘要】

1.一种计算集群温度告警方法,其特征在于,所述方法应用于计算集群,所述计算集群包括若干服务器;所述计算集群所在的物理环境中部署有若干传感器,所述传感器用于采集所述计算集群所在的物理环境的温度,所述方法包括:

2.如权利要求1所述的方法,其特征在于,将各硬件温度输入所述各服务器对应的预先训练的服务器告警模型,确定所述各服务器分别对应的第一状态,具体包括:

3.如权利要求2所述的方法,其特征在于,所述第一规则还包括第一条件;

4.如权利要求1所述的方法,其特征在于,将各第一状态和各环境温度输入预先训练的集群告警模型,确定所述计算集群对应的告警状态,具体包括:

5.如权利要求4所述的方法,其特征在于,所述第二规则还包括第二条件;

6.如权利...

【专利技术属性】
技术研发人员:刘懿程稳梅飞曾令仿朱春节崔钰韩珂孔丽娟盛明凯
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1