【技术实现步骤摘要】
集合通信的方法及通信装置
[0001]本申请涉及通信
,尤其涉及一种集合通信的方法及通信装置。
技术介绍
[0002]集合通信是指一个特定组内所有进程都参与的通信方式。在Fat
‑
tree组网架构下,以第二网络设备(如核心(spine)交换机)的子节点包括第一网络设备(如接入(leaf)交换机)和第三网络设备(如接入交换机),且第一网络设备和第三网络设备的子节点均包括四个终端设备为例,每个终端设备上部署一个进程,且不同终端设备上部署不同进程。其中,不同进程对应不同的编号(rank)。为了完成一次全局规约(allreduce),某些集合通信算法(如递推倍增(recursive doubling)算法)要求每个终端设备与其他终端设备之间执行三次通信,且每次通信涉及的源终端设备和目的终端设备是基于进程的编号确定的。
[0003]但是,源终端设备无法感知目的终端设备在网络拓扑中的位置,可能存在多次跨第二网络设备通信的现象。此种情况下,两个终端设备之间的通信路径长,资源开销大。
技术实现思路
[0004]本申请实施例提供一种集合通信的方法及通信装置,能够确定减少长通信路径的数量,节省资源开销。
[0005]为达到上述目的,本申请实施例采用如下技术方案:
[0006]第一方面,本申请实施例提供一种集合通信的方法,该方法的执行主体可以是第一终端设备,也可以是应用于第一终端设备中的芯片。下面以执行主体是第一终端设备为例进行描述。该方法包括:第一终端设备接收来自第一网络设 ...
【技术保护点】
【技术特征摘要】
1.一种集合通信的方法,其特征在于,包括:第一终端设备接收来自第一网络设备的至少一个第二报文,其中,所述第二报文包括第一进程的信息和所述第一进程对应的网络设备的信息,所述第一进程用于执行第一任务,所述第一进程对应的网络设备的信息为所述第一进程所在的终端设备所归属的网络设备的信息;所述第一终端设备根据所述至少一个第二报文,确定第三报文,其中,所述第三报文包括目标网络设备的信息以及所述目标网络设备对应的所有执行所述第一任务的第一进程的信息,所述目标网络设备为所述第一任务对应的网络设备中的至少一个;所述第一终端设备向所述第一网络设备发送所述第三报文。2.根据权利要求1所述的方法,其特征在于,所述目标网络设备为所述第一任务对应的所有网络设备;所述第一终端设备根据所述至少一个第二报文,确定第三报文,包括:在所述至少一个第二报文的数量为目标数值的情况下,所述第一终端设备根据所述至少一个第二报文,确定所述第三报文,其中,所述目标数值指示执行所述第一任务的第一进程所在的所有终端设备的数量。3.根据权利要求1所述的方法,其特征在于,所述目标网络设备为所述第一任务对应的网络设备中的一个;所述第一终端设备根据所述至少一个第二报文,确定第三报文,包括:在所述至少一个第二报文的数量为目标数值的情况下,所述第一终端设备根据所述至少一个第二报文中的目标报文,确定所述第三报文,其中,所述目标数值指示执行所述第一任务的第一进程所在的所有终端设备的数量,所述目标报文属于所述至少一个第二报文,且携带同一目标网络设备的信息。4.根据权利要求1至3任一项所述的方法,其特征在于,所述第三报文还包括第一信息,所述第一信息包括至少一个数量值,所述数量值的个数和所述目标网络设备的数量一致,且一一对应;其中,第一数量值指示在终端设备集中,部署有执行所述第一任务的第一进程的终端设备的数量,所述第一数量值是所述至少一个数量值中的一个,所述终端设备集中的终端设备归属于所述第一数量值对应的目标网络设备。5.根据权利要求1至4任一项所述的方法,其特征在于,所述第三报文还包括第二信息,所述第二信息指示所述第三报文的类型为通知报文。6.根据权利要求5所述的方法,其特征在于,所述第二信息包括所述第三报文中的第一字段,且所述第三报文中的第一字段的取值为第一预设值。7.根据权利要求1至6任一项所述的方法,其特征在于,所述第二报文还包括第三信息,所述第三信息指示所述第二报文包括所述第一进程对应的网络设备的信息。8.根据权利要求7所述的方法,其特征在于,所述第三信息包括所述第二报文中的第二字段,且所述第二报文中的第二字段的取值为第二预设值。9.根据权利要求1至8任一项所述的方法,其特征在于,所述第二报文还包括第四信息,所述第四信息指示所述第二报文的类型为查询报文。10.根据权利要求9所述的方法,其特征在于,所述第四信息包括所述第二报文中的第一字段,且所述第二报文中的第一字段的取值为第三预设值。11.根据权利要求1至10任一项所述的方法,其特征在于,所述第三报文满足融合以太
网的远程直接内存访问RoCE的协议格式;和/或,所述第二报文满足所述RoCE的协议格式。12.一种集合通信的方法,其特征在于,包括:第四终端设备向第四网络设备发送第一报文,其中,所述第一报文至少包括第一进程的信息,所述第一进程部署于所述第四终端设备,所述第一进程用于执行第一任务;所述第四终端设备接收来自所述第四网络设备的第三报文,所述第三报文至少包括所述第四网络设备的信息和所述第四网络设备对应的所有执行所述第一任务的第一进程的信息。13.根据权利要求12所述的方法,其特征在于,所述第三报文还包括第五网络设备的信息以及所述第五网络设备对应的所有执行所述第一任务的第一进程的信息;其中,所述第五网络设备为所述第一任务对应的网络设备中除所述第四网络设备之外的所有网络设备。14.根据权利要求12或13所述的方法,其特征在于,所述第三报文还包括第一信息,所述第一信息包括至少一个数量值,所述数量值的个数和所述...
【专利技术属性】
技术研发人员:吴涛,郑合文,韩磊,闫健,蒋有军,龚翔宇,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。