【技术实现步骤摘要】
本申请涉及计算集群,具体涉及一种计算集群内部连线状态的识别方法、装置、设备及介质。
技术介绍
1、随着现代计算需求的不断增长,尤其是在科学计算、机器学习和数据分析等领域,单一gpu(graphics processing unit,图形处理单元)服务器的计算能力逐渐无法满足场景需求,将多个gpu服务器进行互联,形成一个强大的计算集群成为一种趋势,例如:通过多台pcie(peripheral component interconnect express,高速串行计算机扩展总线标准)交换机连接多台gpu服务器,使其能够互相通信的大容量、高密度互联方案,图1所示为一种由多台gpu服务器和多台pcie交换机组成的计算集群的互联示意图。
2、图1所示计算集群中,可能会引入不同厂家的gpu,而不同的gpu厂商对于整个集群的拓扑连线需求也不尽相同,但是几乎都对集群内部的连线有着比较严苛的要求,一旦连错则会导致集群的功能受影响甚至完全无法正常运行。尽管集群的连线可以通过对线缆进行标识进而获知连线方式,但是仍然无法排除连错的可能,且连错后的影
...【技术保护点】
1.一种计算集群内部连线状态的识别方法,其特征在于,所述计算集群包括管理服务器、多个计算服务器和至少一个交换机,每个计算服务器包括多个计算节点,所述计算集群中的所有计算节点通过所述至少一个交换机互联,所述方法由所述管理服务器执行,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述计算服务器的属性信息包括:该计算服务器中各计算节点的节点标识、每个计算节点的用于内部连接的端口号和用于外部连接的端口号、每个计算节点对应的分组信息;所述交换机的属性信息包括:该交换机的端口数量;
3.根据权利要求2所述的方法,其特征在于,所述标识信息包括该计
...【技术特征摘要】
1.一种计算集群内部连线状态的识别方法,其特征在于,所述计算集群包括管理服务器、多个计算服务器和至少一个交换机,每个计算服务器包括多个计算节点,所述计算集群中的所有计算节点通过所述至少一个交换机互联,所述方法由所述管理服务器执行,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述计算服务器的属性信息包括:该计算服务器中各计算节点的节点标识、每个计算节点的用于内部连接的端口号和用于外部连接的端口号、每个计算节点对应的分组信息;所述交换机的属性信息包括:该交换机的端口数量;
3.根据权利要求2所述的方法,其特征在于,所述标识信息包括该计算节点所属计算服务器的服务器标识、该计算节点的节点标识、该计算节点与交换机连接的端口号;
4.根据权利要求3所述的方法,其特征在于,所述将所述实际拓扑连接状态与所述标准拓扑连接状态进行比较,根据比较结果确定所述计算集群内部的连线状态,包括:
5.根据权利要求3所述的方法,其特征在于,所述将所述实际拓扑连接状态与所述标准拓扑连接状态进行比较,根据比较结果确定所述计算集群内部的连线状态,包括:
6.根...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。