【技术实现步骤摘要】
本说明书涉及计算机,尤其涉及一种计算集群温度告警方法、装置、存储介质及电子设备。
技术介绍
1、随着科技的不断发展,计算集群应用的越来越广泛,尤其是面向大型人工智能训练部署领域的基于gpu的大规模计算集群。
2、由于计算集群常常需要执行模型训练以及推理等高算力的任务,因此,计算集群所在的机房可能会出现温度异常的现象。为了监测计算集群的温度,及时察觉并解决温度异常的情况,以防硬件受损或系统崩溃,一般是通过在计算集群所在的机房放置的传感器获取温度,再判断温度是否达到设置的告警阈值,基于判断结果进行温度告警。
3、但是,传感器可能存在误差,导致监测的温度数据不够准确,并且,传感器的位置选择可能不够合理,导致部分区域的温度监测不到位,无法及时发现温度异常。因此,如何对计算集群进行温度告警是一个非常重要的问题。
4、基于此,本说明书提供一种计算集群温度告警方法。
技术实现思路
1、本说明书提供一种计算集群温度告警方法、装置、存储介质及电子设备,以部分的解决现有技术
...【技术保护点】
1.一种计算集群温度告警方法,其特征在于,所述方法应用于计算集群,所述计算集群包括若干服务器;所述计算集群所在的物理环境中部署有若干传感器,所述传感器用于采集所述计算集群所在的物理环境的温度,所述方法包括:
2.如权利要求1所述的方法,其特征在于,将各硬件温度输入所述各服务器对应的预先训练的服务器告警模型,确定所述各服务器分别对应的第一状态,具体包括:
3.如权利要求2所述的方法,其特征在于,所述第一规则还包括第一条件;
4.如权利要求1所述的方法,其特征在于,将各第一状态和各环境温度输入预先训练的集群告警模型,确定所述计算集群对应
...【技术特征摘要】
1.一种计算集群温度告警方法,其特征在于,所述方法应用于计算集群,所述计算集群包括若干服务器;所述计算集群所在的物理环境中部署有若干传感器,所述传感器用于采集所述计算集群所在的物理环境的温度,所述方法包括:
2.如权利要求1所述的方法,其特征在于,将各硬件温度输入所述各服务器对应的预先训练的服务器告警模型,确定所述各服务器分别对应的第一状态,具体包括:
3.如权利要求2所述的方法,其特征在于,所述第一规则还包括第一条件;
4.如权利要求1所述的方法,其特征在于,将各第一状态和各环境温度输入预先训练的集群告警模型,确定所述计算集群对应的告警状态,具体包括:
5.如权利要求4所述的方法,其特征在于,所述第二规则还包括第二条件;
6.如权利...
【专利技术属性】
技术研发人员:刘懿,程稳,梅飞,曾令仿,朱春节,崔钰,韩珂,孔丽娟,盛明凯,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。