【技术实现步骤摘要】
一种云平台可自定义监控的GPU监控告警系统
本专利技术涉及云平台的监控告警
,具体地说是一种云平台可自定义监控的GPU监控告警系统。
技术介绍
三十年来,CPU性能的变化从未脱离摩尔定律。但是CPU性能的提升已经放缓。GPU计算定义了一种全新的超负荷定律。它始于高度专业化的并行处理器,通过系统设计、系统软件、算法以及优化应用程序的方式持续发展。尤其适用于日益增长的人工智能、HPC以及图形图像处理等应用场景的算力需求。裸金属形式的GPU云物理主机能提供“一机多卡”或“多机多卡”的算力。但是部分用户,多张GPU卡超出了用户的算力需求,用户需要更细颗粒度的GPU算力,例如1张GPU卡。所以,需要将宿主机中的GPU卡虚拟化后分配给用户。GPU云服务器的供应商,为了保证服务质量,需要掌握所有服务中的GPU的运行状态;在这种场景下,需要一个工具能够监控所有GPU的性能数据。故如何能够实现用户根据需求自定义监控配置,灵活的生成满足用户需求的监控数据是目前现有技术存在的问题。专利号为CN108733531A的专利文献公 ...
【技术保护点】
1.一种云平台可自定义监控的GPU监控告警系统,其特征在于,该系统包括,/n数据采集模块,用于周期性采集GPU的性能指标;/n监控配置管理模块,用于配置GPU监控维度、GPU监控指标、GPU监控周期和GPU监控统计方法;/n告警规则管理模块,用于配置告警规则;告警规则包括告警维度、告警指标、告警周期、频次、告警统计方法、条件、阈值、时间范围以及告警生成和告警清除通知的方式;/n数据处理模块,用于保存采集的数据,根据监控配置和采集的数据生产监控数据;同时用于定时遍历告警规则,根据采集的数据生成告警数据或者清除告警数据,并按照配置的通知方式转发。/n
【技术特征摘要】
1.一种云平台可自定义监控的GPU监控告警系统,其特征在于,该系统包括,
数据采集模块,用于周期性采集GPU的性能指标;
监控配置管理模块,用于配置GPU监控维度、GPU监控指标、GPU监控周期和GPU监控统计方法;
告警规则管理模块,用于配置告警规则;告警规则包括告警维度、告警指标、告警周期、频次、告警统计方法、条件、阈值、时间范围以及告警生成和告警清除通知的方式;
数据处理模块,用于保存采集的数据,根据监控配置和采集的数据生产监控数据;同时用于定时遍历告警规则,根据采集的数据生成告警数据或者清除告警数据,并按照配置的通知方式转发。
2.根据权利要求1所述的云平台可自定义监控的GPU监控告警系统,其特征在于,所述GPU的性能指标包括GPU利用率、GPU显存利用率、GPU内存占有率、GPU功率和GPU温度。
3.根据权利要求1或2所述的云平台可自定义监控的GPU监控告警系统,其特征在于,所述GPU监控维度包括GPU挂载云服务器的ID、GPU的ID以及用户名称或用户ID;
GPU监控指标包括GPU利用率、GPU显存利用率、GPU内存占有率、GPU功率以及GPU温度;
GPU监控周期的最小粒度为1分钟;
GPU监控统计方法包括最小值、最大值和平均值。
4.根据权利要求1或2所述的云平台可自定义监控的GPU监控告警系统,其特征在于,所述告警维度包括GPU挂载云服务器的ID、GPU的ID以及用户名称或用户ID;
告警指标包括GPU利用率、GPU显存利用率、GPU内存占有率、GPU功率以及GPU温度;
告警周期的最小粒度为1分钟;
告...
【专利技术属性】
技术研发人员:屈傲,高传集,于昊,张晓玉,
申请(专利权)人:浪潮云信息技术有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。