计算集群内部连线状态的识别方法、装置、设备及介质制造方法及图纸

技术编号:44577268 阅读:32 留言:0更新日期:2025-03-14 12:40
本申请提供一种计算集群内部连线状态的识别方法、装置、设备及介质,方法包括:根据每个计算服务器和交换机的属性信息,确定计算集群的标准拓扑连接状态;获取连接到每个所述交换机的各个计算节点的标识信息;根据各个计算节点的所述标识信息,确定所述计算集群的实际拓扑连接状态;将所述实际拓扑连接状态与所述标准拓扑连接状态进行比较,根据比较结果确定所述计算集群内部的连线状态。本申请的技术方案,通过对计算集群的实际拓扑连接状态和标准拓扑连接状态进行比较,可以准确识别计算集群内部各端口的连线状态,从准确、便捷的角度出发,当出现连线异常的情况时,可以精准、快速地定位到问题根因,从而提升计算集群运维管理的便利性。

【技术实现步骤摘要】

本申请涉及计算集群,具体涉及一种计算集群内部连线状态的识别方法、装置、设备及介质


技术介绍

1、随着现代计算需求的不断增长,尤其是在科学计算、机器学习和数据分析等领域,单一gpu(graphics processing unit,图形处理单元)服务器的计算能力逐渐无法满足场景需求,将多个gpu服务器进行互联,形成一个强大的计算集群成为一种趋势,例如:通过多台pcie(peripheral component interconnect express,高速串行计算机扩展总线标准)交换机连接多台gpu服务器,使其能够互相通信的大容量、高密度互联方案,图1所示为一种由多台gpu服务器和多台pcie交换机组成的计算集群的互联示意图。

2、图1所示计算集群中,可能会引入不同厂家的gpu,而不同的gpu厂商对于整个集群的拓扑连线需求也不尽相同,但是几乎都对集群内部的连线有着比较严苛的要求,一旦连错则会导致集群的功能受影响甚至完全无法正常运行。尽管集群的连线可以通过对线缆进行标识进而获知连线方式,但是仍然无法排除连错的可能,且连错后的影响很大,甚至会导致集本文档来自技高网...

【技术保护点】

1.一种计算集群内部连线状态的识别方法,其特征在于,所述计算集群包括管理服务器、多个计算服务器和至少一个交换机,每个计算服务器包括多个计算节点,所述计算集群中的所有计算节点通过所述至少一个交换机互联,所述方法由所述管理服务器执行,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述计算服务器的属性信息包括:该计算服务器中各计算节点的节点标识、每个计算节点的用于内部连接的端口号和用于外部连接的端口号、每个计算节点对应的分组信息;所述交换机的属性信息包括:该交换机的端口数量;

3.根据权利要求2所述的方法,其特征在于,所述标识信息包括该计算节点所属计算服务器...

【技术特征摘要】

1.一种计算集群内部连线状态的识别方法,其特征在于,所述计算集群包括管理服务器、多个计算服务器和至少一个交换机,每个计算服务器包括多个计算节点,所述计算集群中的所有计算节点通过所述至少一个交换机互联,所述方法由所述管理服务器执行,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述计算服务器的属性信息包括:该计算服务器中各计算节点的节点标识、每个计算节点的用于内部连接的端口号和用于外部连接的端口号、每个计算节点对应的分组信息;所述交换机的属性信息包括:该交换机的端口数量;

3.根据权利要求2所述的方法,其特征在于,所述标识信息包括该计算节点所属计算服务器的服务器标识、该计算节点的节点标识、该计算节点与交换机连接的端口号;

4.根据权利要求3所述的方法,其特征在于,所述将所述实际拓扑连接状态与所述标准拓扑连接状态进行比较,根据比较结果确定所述计算集群内部的连线状态,包括:

5.根据权利要求3所述的方法,其特征在于,所述将所述实际拓扑连接状态与所述标准拓扑连接状态进行比较,根据比较结果确定所述计算集群内部的连线状态,包括:

6.根...

【专利技术属性】
技术研发人员:张达傅先刚
申请(专利权)人:新华三技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1