System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大规模多数据中心的GPU算力集群监控方法及系统技术方案_技高网

大规模多数据中心的GPU算力集群监控方法及系统技术方案

技术编号:40216495 阅读:6 留言:0更新日期:2024-02-02 22:24
本发明专利技术提供大规模多数据中心的GPU算力集群监控方法及系统,其中,方法包括:步骤1:采集大规模的服务器集群中多个数据中心的部署数据;步骤2:将部署数据推送至监控服务器,并存储;步骤3:调取监控数据;步骤4:根据监控数据进行GPU算力集群监控,确定监控结果,同时,提供数据获取接口;步骤5:可视化监控结果,获得可视化结果。本发明专利技术的大规模多数据中心的GPU算力集群监控方法及系统,将数据中心的部署数据推送至监控服务器并存储。构建Python SDK模块调取监控服务器中的监控数据,监控效率更高;对监控数据进行GPU算力集群监控,确定监控结果。另外,提供了数据获取接口,监控的拓展能力更强。

【技术实现步骤摘要】

本专利技术涉及电数字数据处理,特别涉及大规模多数据中心的gpu算力集群监控方法及系统。


技术介绍

1、大规模多数据中心是指由多个规模庞大的数据中心组成的复杂网络架构。这些数据中心可能分布在不同的地理位置,并通过高速网络互联,在大规模多数据中心中,负载均衡和容量规划是关键考虑因素。通过动态负载均衡和资源调度,可以实现资源的最优利用,避免单个数据中心过载或资源闲置。

2、gpu算力集群监控是指对一个由多个gpu节点组成的集群进行实时监测、数据收集和分析的过程,其目的是确保gpu集群的稳定运行、性能优化和资源管理。现有的gpu监控多为面向英伟达品牌的监控,且监控gpu的方法拓展性较差,无法兼容国产gpu的监控。

3、申请号为:cn202211701367.7的专利技术专利公开了算力服务器的算力监控方法、装置及存储介质,其中,方法包括:实时计算算力服务器四个维度的算力并生成算力运行历史数据;其中,所述四个维度分别是:整机级、算力板级、计算芯片级和计算单元级;根据所述算力运行历史数据判断所述算力服务器是否出现四个维度中至少一个维度的算力异常,是则查询对应维度的异常处理策略,根据查询到的异常处理策略进行对应维度的告警处理。上述专利技术的方案能够全方位监控算力服务器的算力,降低算力服务器整机运行异常的风险。

4、但是,上述算力的监控聚焦于本地及局域网范围内的监控,而在大规模多数据中心场景下存在监控网络互相独立且业务复杂多样的情形,监控拓展能力较差,监控效率也更低。

5、有鉴于此,亟需大规模多数据中心的gpu算力集群监控方法及系统,以至少解决上述不足。


技术实现思路

1、本专利技术目的之一在于提供了大规模多数据中心的gpu算力集群监控方法及系统,将采集的大规模的服务器集群中多个数据中心的部署数据推送至监控服务器并基于key/value存储。构建python sdk模块,调取监控服务器中的监控数据,监控效率更高;对监控数据进行gpu算力集群监控,确定监控结果。另外,提供了监控结果的数据获取接口,提升了算力监控的拓展能力。

2、本专利技术实施例提供的大规模多数据中心的gpu算力集群监控方法,包括:

3、步骤1:采集大规模的服务器集群中多个数据中心的部署数据;

4、步骤2:将部署数据推送至监控服务器,并基于key/value存储;

5、步骤3:基于python sdk模块,调取监控数据;

6、步骤4:根据监控数据进行gpu算力集群监控,确定监控结果,同时,提供数据获取接口;

7、步骤5:将监控结果进行可视化,获得可视化结果。

8、优选的,步骤1:采集大规模的服务器集群中多个数据中心的部署数据,包括:

9、根据预设的采集程序,确定显卡数据;

10、基于预设的规范性脚本,根据显卡数据,确定可识别格式数据;

11、将可识别格式数据推送给预设的监控工具,获得部署数据。

12、优选的,步骤2:将部署数据推送至监控服务器,并基于key/value存储,包括:

13、基于key/value,根据部署数据,确定存储数据;

14、基于时间序列数据存储方法,将存储数据在监控服务器的内存和预写日志中保存。

15、优选的,步骤3:基于python sdk模块,调取监控数据,包括:

16、获取预设的开源监控警报工具集的rest api;

17、确定python sdk的所需功能,所需功能包括:查询选择的节点的实时监控数据、查询选择的时间段内的历史监控数据、异步查询和查询失败处理;

18、根据所需功能和rest api,确定目标api;

19、根据目标api,确定url和身份验证参数;

20、根据url和身份验证参数,确定目标python函数;

21、根据目标python函数的返回参数,确定目标python类;

22、根据目标python函数和目标python类,构建python sdk模块;

23、获取监控指标;

24、根据监控指标,确定python sdk模块的调取接口;

25、基于调取接口,调取监控数据。

26、优选的,步骤4:根据监控数据进行gpu算力集群监控,确定监控结果,同时,提供数据获取接口,包括:

27、对监控数据进行数据汇聚,获得汇聚数据;

28、对汇聚数据进行数据清洗,获得清洗数据;

29、对清洗数据进行数据分析,获得监控结果;

30、获取前端调用需求,并根据前端调用需求封装需求api接口,将需求api接口作为数据获取接口;

31、其中,对监控数据进行数据汇聚,获得汇聚数据,包括:

32、基于业务需求,确定选择节点;

33、根据选择节点,确定监控数据中的待汇聚数据;

34、解析待汇聚数据,确定每一选择节点的数据项;

35、获取数据项的时间戳;

36、基于预设的数据结构,根据数据项和时间戳,确定汇聚数据;

37、其中,对汇聚数据进行数据清洗,获得清洗数据,包括:

38、对汇聚数据进行缺失值处理,获得补全数据;

39、基于预设的异常值处理规则,对补全数据进行异常值处理,获得清洗数据;

40、其中,异常值处理规则,包括:

41、计算补全数据的标准差,若标准差大于等于预设的第一阈值,则将对应补全数据作为第一异常值;

42、基于预设的业务规则,根据补全数据,确定第二异常值;

43、将第一异常值和第二异常值进行数据去重,并作为目标异常值;

44、对目标异常值进行异常归因,确定异常原因;

45、根据异常原因,进行数据修正。

46、优选的,对清洗数据进行数据分析,获得监控结果,包括:

47、根据清洗数据的数据指标,对清洗数据进行趋势分析,获得第一监控子结果,第一监控子结果为:未来系统需求;

48、根据清洗数据的来源节点的不同,分析来源节点之间的影响关系,根据影响关系,确定第二监控子结果,第二监控子结果为:资源分配优化方案;

49、根据清洗数据,进行系统性能评估,获得第三监控子结果,第三监控子结果为:性能优化方案;

50、将第一监控子结果、第二监控子结果以及第三监控子结果共同作为监控结果。

51、优选的,根据清洗数据的来源节点的不同,分析来源节点之间的影响关系,根据影响关系,确定第二监控子结果,包括:

52、获取来源节点的节点属性;

53、根据节点属性,判断来源节点是否可能存在资源抢占冲突;

54、若可能存在资源抢占冲突,将对应来源节点划分至同一数据集,并作为待分析节点集;

55、获取同一待分本文档来自技高网...

【技术保护点】

1.大规模多数据中心的GPU算力集群监控方法,其特征在于,包括:

2.如权利要求1所述的大规模多数据中心的GPU算力集群监控方法,其特征在于,步骤1:采集大规模的服务器集群中多个数据中心的部署数据,包括:

3.如权利要求1所述的大规模多数据中心的GPU算力集群监控方法,其特征在于,步骤2:将部署数据推送至监控服务器,并基于key/value存储,包括:

4.如权利要求1所述的大规模多数据中心的GPU算力集群监控方法,其特征在于,步骤3:基于Python SDK模块,调取监控数据,包括:

5.如权利要求1所述的大规模多数据中心的GPU算力集群监控方法,其特征在于,步骤4:根据监控数据进行GPU算力集群监控,确定监控结果,同时,提供数据获取接口,包括:

6.如权利要求5所述的大规模多数据中心的GPU算力集群监控方法,其特征在于,对清洗数据进行数据分析,获得监控结果,包括:

7.如权利要求6所述的大规模多数据中心的GPU算力集群监控方法,其特征在于,根据清洗数据的来源节点的不同,分析来源节点之间的影响关系,根据影响关系,确定第二监控子结果,包括:

8.如权利要求7所述的大规模多数据中心的GPU算力集群监控方法,其特征在于,若不满足,确定资源分配结果后再继续遍历需求时间点,包括:

9.如权利要求1所述的大规模多数据中心的GPU算力集群监控方法,其特征在于,步骤5:将监控结果进行可视化,获得可视化结果,包括:

10.大规模多数据中心的GPU算力集群监控系统,其特征在于,包括:

...

【技术特征摘要】

1.大规模多数据中心的gpu算力集群监控方法,其特征在于,包括:

2.如权利要求1所述的大规模多数据中心的gpu算力集群监控方法,其特征在于,步骤1:采集大规模的服务器集群中多个数据中心的部署数据,包括:

3.如权利要求1所述的大规模多数据中心的gpu算力集群监控方法,其特征在于,步骤2:将部署数据推送至监控服务器,并基于key/value存储,包括:

4.如权利要求1所述的大规模多数据中心的gpu算力集群监控方法,其特征在于,步骤3:基于python sdk模块,调取监控数据,包括:

5.如权利要求1所述的大规模多数据中心的gpu算力集群监控方法,其特征在于,步骤4:根据监控数据进行gpu算力集群监控,确定监控结果,同时,提供数据获取接口,...

【专利技术属性】
技术研发人员:闫鹏飞夏浩刘丁洋宫文策
申请(专利权)人:山东爱特云翔信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1