System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术实施例涉及人工智能,尤其涉及一种分布式集群及分布式集群确定方法。
技术介绍
1、随着人工智能技术的快速发展,大语言模型(large language models,llm)在自然语言处理、计算机视觉、语音识别等领域被广泛使用。目前,一般采用服务器集群训练大语言模型,为了便于服务器集群中各个服务器在模型训练过程中进行通信,采用胖树(fat-tree)无阻塞网络架构实现服务器集群中服务器的连接,然而,胖树无阻塞网络架构需要大量的交换机资源,这将会增加经济成本。在采用服务器集群训练大语言模型时,如何在不影响模型训练效率的情况下,降低交换机资源的数量是目前亟需解决的技术问题。
技术实现思路
1、本申请实施例提供了一种分布式集群及分布式集群确定方法,用于在不影响模型训练效率的情况下,降低交换机资源的数量。
2、一方面,本申请实施例提供了一种分布式集群,所述分布式集群用于模型训练,所述分布式集群的组网拓扑结构包括多个资源池,第一资源池中具有leaf交换设备和spine交换设备相连接的两层组网以及处理单元,所述第一资源池为所述多个资源池中任一资源池;其中,
3、所述第一资源池中任一leaf交换设备的下联接口与所述第一资源池中的处理单元连接,所述第一资源池中的任一处理单元与所述第一资源池中leaf交换设备具有直连链路;
4、所述第一资源池中任一leaf交换设备的上联接口与spine交换设备的下联接口连接;所述spine交换设备位于第一资源池或第二资源池
5、所述第一资源池中任一leaf交换设备的下联接口的数量多于上联接口的数量。
6、可选地,所述第一资源池包括多个节点,每个节点包括多个处理单元,所述分布式集群通过调度策略执行模型训练,所述调度策略包括以下至少一项:
7、同一节点内的各处理单元用于执行张量并行;
8、同一资源池内的各处理单元用于优先执行流水线并行;
9、不同资源池内的各处理单元用于在同一资源池内的各处理单元无法执行数据并行时,进行数据并行。
10、可选地,所述调度策略是根据所述分布式集群的组网拓扑结构和并行训练策略确定的,所述并行训练策略包括张量并行、流水线并行、数据并行中至少一项。
11、可选地,所述调度策略所需的资源池的数量是根据用于模型训练的处理单元的数量和一个资源池包括的处理单元的数量确定的,所述用于模型训练的处理单元的数量是根据并行训练策略确定的。
12、可选地,所述第一资源池中leaf交换设备的数量m是根据所述第一资源池中leaf交换设备的组网方式确定的;
13、所述第一资源池中spine交换设备的数量n和处理单元的数量s是根据所述第一资源池中m个leaf交换设备的下联接口的总数量以及所述m个leaf交换设备的上联接口的总数量确定的。
14、可选地,所述第一资源池中spine交换设备的数量n是根据所述第一资源池中m个leaf交换设备的上联接口的总数量以及所述spine交换设备的网络接口的数量确定的。
15、可选地,所述第一资源池中处理单元的数量s是根据所述第一资源池中m个leaf交换设备的下联接口的总数量以及处理单元连接方式确定的。
16、可选地,所述分布式集群所包括的资源池的最大数量是根据所述第一资源池中任一leaf交换设备的上联接口的数量与所述第一资源池中spine交换设备的数量的比值确定的。
17、一方面,本申请实施例提供了一种分布式集群确定方法,该方法用于确定分布式集群,所述分布式集群的组网拓扑结构包括多个资源池,所述多个资源池包括第一资源池和第二资源池,所述第一资源池为所述多个资源池中任一资源池,所述第二资源池为所述多个资源池中除所述第一资源池之外的其他资源池,第一资源池中具有leaf交换设备和spine交换设备相连接的两层组网以及处理单元,该方法包括:
18、将所述第一资源池中任一leaf交换设备的下联接口与所述第一资源池中的处理单元连接,所述第一资源池中的任一处理单元与所述第一资源池中leaf交换设备具有直连链路;
19、将所述第一资源池中任一leaf交换设备的上联接口与所述spine交换设备的下联接口连接;所述spine交换设备位于第一资源池或第二资源池,所述第一资源池中任一leaf交换设备与所述第一资源池和所述第二资源池中各spine交换设备均具有直连链路;所述第一资源池中任一leaf交换设备的下联接口的数量多于上联接口的数量。
20、可选地,所述方法还包括:
21、获取所述第一资源池中leaf交换设备的组网方式,并根据所述leaf交换设备的组网方式确定所述第一资源池中leaf交换设备的数量m;
22、根据所述第一资源池中m个leaf交换设备的下联接口的总数量以及所述m个leaf交换设备的上联接口的总数量,确定所述第一资源池中所述spine交换设备的数量n和所述处理单元的数量s。
23、可选地,所述根据所述第一资源池中m个leaf交换设备的下联接口的总数量以及所述m个leaf交换设备的上联接口的总数量,确定所述第一资源池中所述spine交换设备的数量n和所述处理单元的数量s,包括:
24、根据所述第一资源池中m个leaf交换设备的上联接口的总数量以及所述spine交换设备的网络接口的数量,确定所述第一资源池中所述spine交换设备的数量n;
25、根据所述第一资源池中m个leaf交换设备的下联接口的总数量以及处理单元连接方式,确定所述第一资源池中处理单元的数量s。
26、可选地,所述根据所述第一资源池中m个leaf交换设备的上联接口的总数量以及所述spine交换设备的网络接口的数量,确定所述第一资源池中所述spine交换设备的数量n,包括:
27、根据所述第一资源池中m个leaf交换设备的上联接口的总数量与所述spine交换设备的网络接口的数量的比值,确定第一参考值;
28、将所述第一参考值向上取整,获得所述第一资源池中中所述spine交换设备的数量n。
29、可选地,所述根据所述第一资源池中m个leaf交换设备的下联接口的总数量以及处理单元连接方式,确定所述第一资源池中处理单元的数量s,包括:
30、根据所述处理单元连接方式,确定第二参考值,所述第二参考值是所述leaf交换设备的一个下联端口连接的所述处理单元的数量;
31、根据所述第一资源池中m个leaf交换设备的下联接口的总数量与所述第二参考值的乘积,确定所述第一资源池中处理单元的数量s。
32、可选地,所述分布式集群所包括的资源池的最大数量是根据所述第一资源池中任一leaf交换设备的本文档来自技高网...
【技术保护点】
1.一种分布式集群,其特征在于,所述分布式集群用于模型训练,所述分布式集群的组网拓扑结构包括多个资源池,第一资源池中具有leaf交换设备和spine交换设备相连接的两层组网以及处理单元,所述第一资源池为所述多个资源池中任一资源池;其中,
2.如权利要求1所述的分布式集群,其特征在于,所述第一资源池包括多个节点,每个节点包括多个处理单元,所述分布式集群通过调度策略执行模型训练,所述调度策略包括以下至少一项:
3.如权利要求2所述的分布式集群,其特征在于,所述调度策略是根据所述分布式集群的组网拓扑结构和并行训练策略确定的,所述并行训练策略包括张量并行、流水线并行、数据并行中至少一项。
4.如权利要求3所述的分布式集群,其特征在于,所述调度策略所需的资源池的数量是根据用于模型训练的处理单元的数量和一个资源池包括的处理单元的数量确定的,所述用于模型训练的处理单元的数量是根据并行训练策略确定的。
5.如权利要求1-4任一所述的分布式集群,其特征在于,所述第一资源池中leaf交换设备的数量M是根据所述第一资源池中leaf交换设备的组网方式确定的
6.如权利要求5所述的分布式集群,其特征在于,所述第一资源池中spine交换设备的数量N是根据所述第一资源池中M个leaf交换设备的上联接口的总数量以及所述spine交换设备的网络接口的数量确定的。
7.如权利要求5所述的分布式集群,其特征在于,所述第一资源池中处理单元的数量S是根据所述第一资源池中M个leaf交换设备的下联接口的总数量以及处理单元连接方式确定的。
8.如权利要求5所述的分布式集群,其特征在于,所述分布式集群所包括的资源池的最大数量是根据所述第一资源池中任一leaf交换设备的上联接口的数量与所述第一资源池中spine交换设备的数量的比值确定的。
9.一种分布式集群确定方法,其特征在于,所述方法用于确定分布式集群,所述分布式集群的组网拓扑结构包括多个资源池,所述多个资源池包括第一资源池和第二资源池,所述第一资源池为所述多个资源池中任一资源池,所述第二资源池为所述多个资源池中除所述第一资源池之外的其他资源池,第一资源池中具有leaf交换设备和spine交换设备相连接的两层组网以及处理单元,所述方法包括:
10.如权利要求9所述的方法,其特征在于,所述方法还包括:
11.如权利要求10所述的方法,其特征在于,所述根据所述第一资源池中M个leaf交换设备的下联接口的总数量以及所述M个leaf交换设备的上联接口的总数量,确定所述第一资源池中所述spine交换设备的数量N和所述处理单元的数量S,包括:
12.如权利要求11所述的方法,其特征在于,所述根据所述第一资源池中M个leaf交换设备的上联接口的总数量以及所述spine交换设备的网络接口的数量,确定所述第一资源池中所述spine交换设备的数量N,包括:
13.如权利要求11所述的方法,其特征在于,所述根据所述第一资源池中M个leaf交换设备的下联接口的总数量以及处理单元连接方式,确定所述第一资源池中处理单元的数量S,包括:
14.如权利要求9-13任一所述的方法,其特征在于,所述分布式集群所包括的资源池的最大数量是根据所述第一资源池中任一leaf交换设备的上联接口的数量与所述第一资源池中spine交换设备的数量的比值确定的。
15.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求9-14中任意一项所述的方法。
16.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行如权利要求9-14中任意一项所述的方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机设备执行时,使所述计算机设备执行如权利要求9-14中任意一项所述的方法。
...【技术特征摘要】
1.一种分布式集群,其特征在于,所述分布式集群用于模型训练,所述分布式集群的组网拓扑结构包括多个资源池,第一资源池中具有leaf交换设备和spine交换设备相连接的两层组网以及处理单元,所述第一资源池为所述多个资源池中任一资源池;其中,
2.如权利要求1所述的分布式集群,其特征在于,所述第一资源池包括多个节点,每个节点包括多个处理单元,所述分布式集群通过调度策略执行模型训练,所述调度策略包括以下至少一项:
3.如权利要求2所述的分布式集群,其特征在于,所述调度策略是根据所述分布式集群的组网拓扑结构和并行训练策略确定的,所述并行训练策略包括张量并行、流水线并行、数据并行中至少一项。
4.如权利要求3所述的分布式集群,其特征在于,所述调度策略所需的资源池的数量是根据用于模型训练的处理单元的数量和一个资源池包括的处理单元的数量确定的,所述用于模型训练的处理单元的数量是根据并行训练策略确定的。
5.如权利要求1-4任一所述的分布式集群,其特征在于,所述第一资源池中leaf交换设备的数量m是根据所述第一资源池中leaf交换设备的组网方式确定的;
6.如权利要求5所述的分布式集群,其特征在于,所述第一资源池中spine交换设备的数量n是根据所述第一资源池中m个leaf交换设备的上联接口的总数量以及所述spine交换设备的网络接口的数量确定的。
7.如权利要求5所述的分布式集群,其特征在于,所述第一资源池中处理单元的数量s是根据所述第一资源池中m个leaf交换设备的下联接口的总数量以及处理单元连接方式确定的。
8.如权利要求5所述的分布式集群,其特征在于,所述分布式集群所包括的资源池的最大数量是根据所述第一资源池中任一leaf交换设备的上联接口的数量与所述第一资源池中spine交换设备的数量的比值确定的。
9.一种分布式集群确定方法,其特征在于,所述方法用于确定分布式集群,所述分布式集群的组网拓扑结构包括多个资源池,所述多个资源池包括第一资源池和第二资源池,...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:上海壁仞科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。