集合通信的方法及通信装置制造方法及图纸

技术编号:35242505 阅读:22 留言:0更新日期:2022-10-19 09:48
本申请提供了集合通信的方法及通信装置,涉及通信技术领域,能够实现近距离通信,节省通信资源。该方法包括:第一终端设备接收来自第一网络设备的至少一个第二报文。其中,第二报文包括第一进程的信息和第一进程对应的网络设备的信息,第一进程用于执行第一任务,第一进程对应的网络设备的信息为第一进程所在的终端设备所归属的网络设备的信息。第一终端设备根据至少一个第二报文,确定第三报文。其中,第三报文包括目标网络设备的信息以及目标网络设备对应的所有执行第一任务的第一进程的信息,目标网络设备为第一任务对应的网络设备中的至少一个。第一终端设备向第一网络设备发送第三报文。发送第三报文。发送第三报文。

【技术实现步骤摘要】
集合通信的方法及通信装置


[0001]本申请涉及通信
,尤其涉及一种集合通信的方法及通信装置。

技术介绍

[0002]集合通信是指一个特定组内所有进程都参与的通信方式。在Fat

tree组网架构下,以第二网络设备(如核心(spine)交换机)的子节点包括第一网络设备(如接入(leaf)交换机)和第三网络设备(如接入交换机),且第一网络设备和第三网络设备的子节点均包括四个终端设备为例,每个终端设备上部署一个进程,且不同终端设备上部署不同进程。其中,不同进程对应不同的编号(rank)。为了完成一次全局规约(allreduce),某些集合通信算法(如递推倍增(recursive doubling)算法)要求每个终端设备与其他终端设备之间执行三次通信,且每次通信涉及的源终端设备和目的终端设备是基于进程的编号确定的。
[0003]但是,源终端设备无法感知目的终端设备在网络拓扑中的位置,可能存在多次跨第二网络设备通信的现象。此种情况下,两个终端设备之间的通信路径长,资源开销大。

技术实现思路

[0004]本申请实施例提供一种集合通信的方法及通信装置,能够确定减少长通信路径的数量,节省资源开销。
[0005]为达到上述目的,本申请实施例采用如下技术方案:
[0006]第一方面,本申请实施例提供一种集合通信的方法,该方法的执行主体可以是第一终端设备,也可以是应用于第一终端设备中的芯片。下面以执行主体是第一终端设备为例进行描述。该方法包括:第一终端设备接收来自第一网络设备的至少一个第二报文。其中,第二报文包括第一进程的信息和第一进程对应的网络设备的信息,第一进程用于执行第一任务,第一进程对应的网络设备的信息为第一进程所在的终端设备所归属的网络设备的信息。然后,第一终端设备根据至少一个第二报文,确定第三报文。其中,第三报文包括目标网络设备的信息以及目标网络设备对应的所有执行第一任务的第一进程的信息,目标网络设备为第一任务对应的网络设备中的至少一个。之后,第一终端设备向第一网络设备发送第三报文。
[0007]也就是说,第一终端设备接收的第二报文中既携带了第一进程的信息,又携带了第一进程对应的网络设备的信息。第一终端设备汇总第二报文,以得到第三报文。然后,第一终端设备发出第三报文。由于第三报文至少包括一个目标网络设备的信息和该目标网络设备对应的所有执行第一任务的第一进程的信息,所以,对于归属于同一网络设备的终端设备而言,各个终端设备即可获知目标网络设备对应的所有执行第一任务的第一进程,从而规划通信路径,实现近距离通信,尽量减少跨第二网络设备通信的路径,节省资源开销。另外,上述第一网络设备和第一终端设备均无需支持其他的协议,第一终端设备也无需部署Netloc库,不引入额外的Netloc库部署工作。
[0008]在一种可能的设计中,目标网络设备为第一任务对应的所有网络设备。第一终端
设备根据至少一个第二报文,确定第三报文,包括:在至少一个第二报文的数量为目标数值的情况下,第一终端设备根据至少一个第二报文,确定第三报文。其中,目标数值指示执行第一任务的第一进程所在的所有终端设备的数量。
[0009]也就是说,第一终端设备在确定第二报文到齐的情况下,才生成第三报文,以使第三报文携带执行第一任务的所有第一进程的信息。
[0010]在一种可能的设计中,目标网络设备为第一任务对应的网络设备中的一个;第一终端设备根据至少一个第二报文,确定第三报文,包括:在至少一个第二报文的数量为目标数值的情况下,第一终端设备根据至少一个第二报文中的目标报文,确定第三报文。其中,目标数值指示执行第一任务的第一进程所在的所有终端设备的数量,目标报文属于至少一个第二报文,且携带同一目标网络设备的信息。
[0011]也就是说,第一终端设备在确定第二报文到齐的情况下,根据第二报文中携带同一目标网络设备的信息的目标报文,生成第三报文。此种情况下,一个第三报文携带了归属于某一目标网络设备的终端设备上部署的所有执行第一任务的第一进程的信息。
[0012]在一种可能的设计中,第三报文还包括第一信息,第一信息包括至少一个数量值,数量值的个数和目标网络设备的数量一致,且一一对应。其中,第一数量值指示在终端设备集中,部署有执行第一任务的第一进程的终端设备的数量,第一数量值是至少一个数量值中的一个,终端设备集中的终端设备归属于第一数量值对应的目标网络设备。
[0013]也就是说,在第三报文中,第一数量值指示了在归属于某一目标网络设备的终端设备中,部署有第一进程的终端设备的数量。
[0014]在一种可能的设计中,第三报文还包括第二信息,第二信息指示第三报文的类型为通知报文,从而指示第三报文的报文类型。
[0015]在一种可能的设计中,第二信息包括第三报文中的第一字段,且第三报文中的第一字段的取值为第一预设值。
[0016]在一种可能的设计中,第二报文还包括第三信息,第三信息指示第二报文包括第一进程对应的网络设备的信息,从而使得第一终端设备获知第二报文携带了第一进程对应的网络设备的信息。
[0017]在一种可能的设计中,第三信息包括第二报文中的第二字段,且第二报文中的第二字段的取值为第二预设值。
[0018]在一种可能的设计中,第二报文还包括第四信息,第四信息指示第二报文的类型为查询报文,从而指示第二报文的报文类型。
[0019]在一种可能的设计中,第四信息包括第二报文中的第一字段,且第二报文中的第一字段的取值为第三预设值。
[0020]在一种可能的设计中,第三报文满足融合以太网的远程直接内存访问RoCE的协议格式。也就是说,第三报文可以采用RoCE的协议格式传输。
[0021]在一种可能的设计中,第二报文满足RoCE的协议格式。也就是说,第二报文可以采用RoCE的协议格式传输。
[0022]第二方面,本申请实施例提供一种集合通信的方法,该方法的执行主体可以是第一网络设备,也可以是应用于第一网络设备中的芯片。下面以执行主体是第一网络设备为例进行描述。该方法包括:第一网络设备向第一终端设备发送至少一个第二报文。其中,第
二报文包括第一进程的信息和第一进程对应的网络设备的信息,第一进程用于执行第一任务,第一进程对应的网络设备的信息为第一进程所在的终端设备所归属的网络设备的信息。第一网络设备接收来自第一终端设备的第三报文。其中,第三报文包括目标网络设备的信息以及目标网络设备对应的所有执行第一任务的第一进程的信息,目标网络设备为第一任务对应的网络设备中的至少一个。第一网络设备向目标终端设备发送第三报文。其中,目标终端设备部署有执行第一任务的第一进程,且目标终端设备归属于目标网络设备。
[0023]也就是说,第一网络设备向第一终端设备提供的第二报文中既携带了第一进程的信息,又携带了第一进程对应的网络设备的信息,以使第一终端设备生成第三报文。然后,第一网络设备从第一终端设备接收第三报文,再转发给相应的目标终端设备。由于第三报文至少本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集合通信的方法,其特征在于,包括:第一终端设备接收来自第一网络设备的至少一个第二报文,其中,所述第二报文包括第一进程的信息和所述第一进程对应的网络设备的信息,所述第一进程用于执行第一任务,所述第一进程对应的网络设备的信息为所述第一进程所在的终端设备所归属的网络设备的信息;所述第一终端设备根据所述至少一个第二报文,确定第三报文,其中,所述第三报文包括目标网络设备的信息以及所述目标网络设备对应的所有执行所述第一任务的第一进程的信息,所述目标网络设备为所述第一任务对应的网络设备中的至少一个;所述第一终端设备向所述第一网络设备发送所述第三报文。2.根据权利要求1所述的方法,其特征在于,所述目标网络设备为所述第一任务对应的所有网络设备;所述第一终端设备根据所述至少一个第二报文,确定第三报文,包括:在所述至少一个第二报文的数量为目标数值的情况下,所述第一终端设备根据所述至少一个第二报文,确定所述第三报文,其中,所述目标数值指示执行所述第一任务的第一进程所在的所有终端设备的数量。3.根据权利要求1所述的方法,其特征在于,所述目标网络设备为所述第一任务对应的网络设备中的一个;所述第一终端设备根据所述至少一个第二报文,确定第三报文,包括:在所述至少一个第二报文的数量为目标数值的情况下,所述第一终端设备根据所述至少一个第二报文中的目标报文,确定所述第三报文,其中,所述目标数值指示执行所述第一任务的第一进程所在的所有终端设备的数量,所述目标报文属于所述至少一个第二报文,且携带同一目标网络设备的信息。4.根据权利要求1至3任一项所述的方法,其特征在于,所述第三报文还包括第一信息,所述第一信息包括至少一个数量值,所述数量值的个数和所述目标网络设备的数量一致,且一一对应;其中,第一数量值指示在终端设备集中,部署有执行所述第一任务的第一进程的终端设备的数量,所述第一数量值是所述至少一个数量值中的一个,所述终端设备集中的终端设备归属于所述第一数量值对应的目标网络设备。5.根据权利要求1至4任一项所述的方法,其特征在于,所述第三报文还包括第二信息,所述第二信息指示所述第三报文的类型为通知报文。6.根据权利要求5所述的方法,其特征在于,所述第二信息包括所述第三报文中的第一字段,且所述第三报文中的第一字段的取值为第一预设值。7.根据权利要求1至6任一项所述的方法,其特征在于,所述第二报文还包括第三信息,所述第三信息指示所述第二报文包括所述第一进程对应的网络设备的信息。8.根据权利要求7所述的方法,其特征在于,所述第三信息包括所述第二报文中的第二字段,且所述第二报文中的第二字段的取值为第二预设值。9.根据权利要求1至8任一项所述的方法,其特征在于,所述第二报文还包括第四信息,所述第四信息指示所述第二报文的类型为查询报文。10.根据权利要求9所述的方法,其特征在于,所述第四信息包括所述第二报文中的第一字段,且所述第二报文中的第一字段的取值为第三预设值。11.根据权利要求1至10任一项所述的方法,其特征在于,所述第三报文满足融合以太
网的远程直接内存访问RoCE的协议格式;和/或,所述第二报文满足所述RoCE的协议格式。12.一种集合通信的方法,其特征在于,包括:第四终端设备向第四网络设备发送第一报文,其中,所述第一报文至少包括第一进程的信息,所述第一进程部署于所述第四终端设备,所述第一进程用于执行第一任务;所述第四终端设备接收来自所述第四网络设备的第三报文,所述第三报文至少包括所述第四网络设备的信息和所述第四网络设备对应的所有执行所述第一任务的第一进程的信息。13.根据权利要求12所述的方法,其特征在于,所述第三报文还包括第五网络设备的信息以及所述第五网络设备对应的所有执行所述第一任务的第一进程的信息;其中,所述第五网络设备为所述第一任务对应的网络设备中除所述第四网络设备之外的所有网络设备。14.根据权利要求12或13所述的方法,其特征在于,所述第三报文还包括第一信息,所述第一信息包括至少一个数量值,所述数量值的个数和所述...

【专利技术属性】
技术研发人员:吴涛郑合文韩磊闫健蒋有军龚翔宇
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1