【技术实现步骤摘要】
一种集群监控方法、系统、设备以及介质
[0001]本专利技术涉及服务器领域,具体涉及一种集群监控方法、系统、设备以及存储介质。
技术介绍
[0002]对于人工智能云平台来说,监控信息与告警机制是较为重要的。平台可以给用户提供训练深度学习模型的基础环境,算力,以及管理方法等服务,对于训练深度学习模型来说,资源的实时监控和合理分配就变得尤为重要,比如CPU(central processing unit,中央处理器),GPU(graphics processing unit,图像处理器),磁盘等。CPU,GPU,内存等的使用率,GPU的功耗,温度,是否存在掉卡现象等,这些指标如果异常,都将影响训练任务的进度,质量,能否训练成功,类似的情况比如由于CPU的使用率过高,CPU的数据读取跟不上,导致GPU没有得到充分利用,形成资源浪费;再比如GPU温度过高产生的潜在威胁,或者由于某些原因导致GPU掉卡等,都有可能导致训练直接停止或失败,甚至造成硬件损坏等情况。
[0003]目前应用于人工智能云平台的监控管理与告警管理模块,其工 ...
【技术保护点】
【技术特征摘要】
1.一种集群监控方法,其特征在于,包括以下步骤:获取第一采集间隔和第一存储间隔;根据所述第一采集间隔采集多个监控数据并根据所述第一存储间隔存储所述多个监控数据;根据所述多个监控数据预测下一周期的监控数据;响应于所述下一周期的监控数据大于阈值,将所述第一采集间隔更新为小于所述第一采集间隔的第二采集间隔以根据所述第二采集间隔采集多个监控数据,并将所述第一存储间隔更新为小于所述第一存储间隔的第二存储间隔以根据所述第二存储间隔存储多个监控数据。2.如权利要求1所述的方法,其特征在于,根据所述多个监控数据预测下一周期的监控数据,进一步包括:判断采集到的所述多个监控数据是否大于对应的阈值;响应于大于对应的阈值,直接将所述第一采集间隔更新为所述第二采集间隔,并将所述第一存储间隔更新为第二存储间隔;根据所述第二采集间隔再次采集多个监控数据以及根据所述第二存储间隔存储多个监控数据。3.如权利要求2所述的方法,其特征在于,还包括:响应于再次采集到的监控数据不大于对应的阈值,继续预测下一周期的监控数据;响应于预测结果也不大于对应的阈值,将所述第二采集间隔更新为所述基础第一采集间隔,并将第二存储间隔更新为第一存储间隔。4.如权利要求1所述的方法,其特征在于,根据所述多个监控数据预测下一周期的监控数据,进一步包括:构建并训练预测模型;根据预测得到的下一周期的监控数据和实际采集得到的下一周期的监控数据输入到卡尔曼滤波中以得到调优后的预测值;利用所述调优后的预测值和所述实际采集得到的下一周期的监控数据对所述预测模型进行调优。5.一种集群监控系统,其特征在于,包括:获取模块,配置为获取第一采集间隔和第一存储间隔;采集模块,配置为根据所述第一采集间隔采集多个监控数据并根据所述第一存储间隔存储所述多个监控数据;预测模块,配置为根据所述多...
【专利技术属性】
技术研发人员:张书博,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。