System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本说明书涉及计算机,尤其涉及一种基于异构通信的全归约通信方法及装置。
技术介绍
1、随着大数据和人工智能的快速发展,分布式技术也被广泛应用,用于通过计算集群中多个计算节点的协作,共同处理大规模的数据或执行复杂的计算任务,例如,用于对大模型进行训练。其中,计算集群由多个计算服务器构成,计算服务器由多个计算节点构成。这里的“计算节点”指的是在计算服务器上运行的一个或多个独立的计算单元。这些计算节点可以是物理服务器上的处理器核心(cpu core)、线程、虚拟机或者容器等。在多核处理器上,每个核心都可以被视为一个独立的计算节点,操作系统可以将不同的任务分配给不同的核心,以实现并行处理。当然,也可以将服务器连接的多核处理器作为一个计算节点。每个计算节点都能够独立地执行计算任务,并且它们之间可以相互协作以完成更复杂的计算工作。
2、进一步的,在进行分布式计算时,需要通过计算节点间的通信链路进行数据同步或参数更新。其中,全归约(allreduce)通信是一种在分布式系统中实现数据同步的关键技术,通常可以用于大模型训练过程中计算节点间的梯度同步。具体的,全归约通信将分布式系统中的所有计算节点各自持有的数据进行归约运算,并将归约运算的结果通过通信链路广播至所有节点,确保节点间的信息一致性。例如,若归约运算是求和,有三个计算节点,分别拥有数据a、b、c,通过全归约通信,三个计算节点上的数据均为a+b+c。其中,所述归约运算指对数据进行数学运算,如求和或寻找最大值等数学操作。
3、进一步的,全归约通信通常需要节点间具有对等的
4、进一步的,在本说明书中,计算集群由多个计算服务器构成,计算服务器由多个计算节点构成,且各服务器中包含的计算节点数量相同。其中,位于相同计算服务器内的计算节点之间通过节点通信链路进行数据传输,位于不同计算服务器内的计算节点之间通过服务器通信链路进行数据传输。
5、基于此,为了便于描述,本说明书将计算集群中同一个服务器中的全部计算节点构成的通信架构作为第一层对等通信架构。例如,如图1所示,该图中的计算集群包含三个服务器,第一个服务器由计算节点a、b、c构成,第二个服务器由计算节点d、e、f构成,第三个服务器由计算节点g、h、i构成,可以根据通信链路,将该计算集群分为3个第一层对等通信架构,计算节点a、b、c构成第一个第一层对等通信架构,计算节点d、e、f构成第二个第一层对等通信架构,计算节点g、h、i构成第三个第一层对等通信架构。
6、进一步的,将计算集群中位于不同服务器中的计算节点构成的通信架构作为第二层对等通信架构。沿用上例,如图2所示,可以根据通信链路,将该计算集群分为3个第二层给对等通信架构,计算节点a、d、g构成第一个第二层对等通信架构,计算节点b、e、h构成第二个第二层对等通信架构,计算节点c、f、i构成第三个第二层对等通信架构。
7、在分层后的各层对等通信架构建立之后,现有的全归约通信会按顺序在每一层对等通信架构上执行,每一层完成归约通信后,将结果传递给下一层。由于这种分层方法是顺序执行的,因此存在层间的依赖关系,每一层的通信必须等待上一层完成,这可能导致某些链路在等待时处于空闲状态,不能充分利用通信资源,增加了通信延时。
8、此外,随着分布式系统规模和通信数量的增加,全归约通信在分布式训练中带来的开销也随之增加,通信效率进一步降低,尤其在大模型分布式训练中,巨大的参数数量带来了更高的通信延时,使得训练时间显著增加。
9、因此,如何实现基于异构通信链路的高效的全归约通信,成为亟待解决的问题。
技术实现思路
1、本说明书实施例提供一种基于异构通信的全归约通信方法及装置,以部分解决上述现有技术存在的问题。
2、本说明书实施例采用下述技术方案:
3、本说明书提供的一种基于异构通信的全归约通信方法,所述方法包括:
4、计算节点确定待传输的待归约数据;
5、通过与所述计算节点所在计算集群中其他节点间的通信链路,与所述其他节点进行通信,以获得所述计算节点的待归约数据和所述其他节点的待归约数据进行归约运算并均匀分配后的归约散射数据;其中,将所述其他节点包含中和与所述计算节点同属于第一层对等通信架构的各计算节点作为各第一其他节点,以及将和与所述计算节点同属于第二层对等通信架构的各计算节点作为各第二其他节点;
6、根据所述计算节点的归约散射数据,同步执行第一通信过程和第二通信过程,直至所述计算节点获得将所述计算节点与所述其他节点的待归约数据进行全归约通信后的最终数据;
7、所述第一通信包括:根据所述计算节点的归约散射数据,所述计算节点与所述各第一其他节点进行第一收集通信;
8、所述第二通信包括:根据所述计算节点的归约散射数据,所述计算节点与所述各第二其他节点进行第二收集通信。
9、可选地,通过与所述计算节点所在计算集群中其他节点间的通信链路,与所述其他节点进行通信,具体包括:
10、根据所述计算节点的待归约数据,通过第一通信链路与所述各第一其他节点进行通信,以获得所述计算节点的待归约数据和所述各第一其他节点的待归约数据进行归约运算并均匀分配的初始数据;
11、根据所述计算节点的初始数据,通过第二通信链路与所述各第二其他节点进行通信,以获得所述计算节点的初始数据和所述各第二其他节点的初始数据进行归约运算并均匀分配的归约散射数据。
12、可选地,根据所述计算节点的待归约数据,通过第一通信链路与所述各第一其他节点进行通信,具体包括:
13、根据所述第一层对等通信架构中计算节点的数量,将所述计算节点的待归约数据均匀划分为若干份第一通信数据,并确定所述各第一通信数据对应的各第一存储位置;
14、在第一层对等通信架构中,将所述各第一存储位置的第一通信数据和所述各第一其他节点中相应存储位置的第一通信数据进行归约运算,直至所述计算节点的至少一个第一存储位置中获得所述计算节点的待归约数据和所述各第一其他节点的待归约数据进行归约运算并均匀分配后的初始数据。
15、可选地,将所述各第一存储位置的第一通信数据和所述各第一其他节点中相应存储位置的第一通信数据进行归约运算,具体包括:
16、在所述各第一其他节本文档来自技高网...
【技术保护点】
1.一种基于异构通信的全归约通信方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,通过与所述计算节点所在计算集群中其他节点间的通信链路,与所述其他节点进行通信,具体包括:
3.如权利要求2所述的方法,其特征在于,根据所述计算节点的待归约数据,通过第一通信链路与所述各第一其他节点进行通信,具体包括:
4.如权利要求3所述的方法,其特征在于,将所述各第一存储位置的第一通信数据和所述各第一其他节点中相应存储位置的第一通信数据进行归约运算,具体包括:
5.如权利要求4所述的方法,其特征在于,根据所述计算节点的初始数据,通过第二通信链路与所述各第二其他节点进行通信,具体包括:
6.如权利要求5所述的方法,其特征在于,将所述各第二存储位置的第二通信数据和所述各第二其他节点中相应存储位置的第二通信数据进行归约运算,具体包括:
7.如权利要求6所述的方法,其特征在于,根据所述计算节点的归约散射数据,所述计算节点与所述各第一其他节点进行第一收集通信,具体包括:
8.如权利要求7所述的方法,其
9.如权利要求8所述的方法,其特征在于,同步执行第一通信过程和第二通信过程,具体包括:
10.如权利要求9所述的方法,其特征在于,将所述第四待接收数据重新作为所述计算节点的归约散射数据,继续同步执行第一通信过程和第二通信过程,直至所述计算节点获得将所述计算节点与所述其他节点的待归约数据进行全归约通信后的最终数据,具体包括:
11.如权利要求7所述的方法,其特征在于,根据所述计算节点的归约散射数据,所述计算节点与所述各第二其他节点进行第二收集通信,具体包括:
12.如权利要求11所述的方法,其特征在于,同步执行第一通信过程和第二通信过程,具体包括:
13.如权利要求12所述的方法,其特征在于,根据所述第二通信过程,从所述第一最终数据中重新确定所述计算节点的归约散射数据,具体包括:
14.一种基于异构通信的全归约通信装置,其特征在于,所述装置包括:
15.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-13任一项所述的方法。
16.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1-13任一项所述的方法。
...【技术特征摘要】
1.一种基于异构通信的全归约通信方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,通过与所述计算节点所在计算集群中其他节点间的通信链路,与所述其他节点进行通信,具体包括:
3.如权利要求2所述的方法,其特征在于,根据所述计算节点的待归约数据,通过第一通信链路与所述各第一其他节点进行通信,具体包括:
4.如权利要求3所述的方法,其特征在于,将所述各第一存储位置的第一通信数据和所述各第一其他节点中相应存储位置的第一通信数据进行归约运算,具体包括:
5.如权利要求4所述的方法,其特征在于,根据所述计算节点的初始数据,通过第二通信链路与所述各第二其他节点进行通信,具体包括:
6.如权利要求5所述的方法,其特征在于,将所述各第二存储位置的第二通信数据和所述各第二其他节点中相应存储位置的第二通信数据进行归约运算,具体包括:
7.如权利要求6所述的方法,其特征在于,根据所述计算节点的归约散射数据,所述计算节点与所述各第一其他节点进行第一收集通信,具体包括:
8.如权利要求7所述的方法,其特征在于,根据所述计算节点的归约散射数据,所述计算节点与所述各第二其他节点进行第二收集通信,具体包括:
9.如权利要求8所述...
【专利技术属性】
技术研发人员:朱向明,刘善赟,常璟飞,邹乔莎,陈红阳,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。