【技术实现步骤摘要】
消息传输方法和消息传输装置
[0001]本申请涉及分布式计算领域,更具体地,涉及一种消息传输方法和消息传输装置。
技术介绍
[0002]越来越多的网络应用依赖于大规模计算,例如,人工智能、物联网和云计算等等。而想要实现大规模计算,依靠单个节点是不可行的,唯有分布式计算,能够通过多个节点协同处理,节约整体计算时间,提高计算效率,从而实现高性能计算。
[0003]由于分布式计算涉及多个计算节点,当分布式应用涉及大量数据传输时,网络传输成为了性能瓶颈。以人工智能(artificial intelligence,AI)分布式训练为例,模型训练的时候,计算节点需要对输入数据进行大量重复的训练计算(百万级、甚至更多次数的迭代计算),而每次训练计算涉及的数据传输量高达500M(不同的训练模型数据量不同),这会导致模型训练过程中的网络通信时间远远超过了实际训练时间。由此看来,通过压缩网络传输时间,将分布式计算的部分计算过程转移至网络设备(例如,路由器或者交换机等)来完成,可以给分布式计算带来性能提升。这种方式称为网内计算。
...
【技术保护点】
【技术特征摘要】
1.一种消息传输方法,其特征在于,应用于包括N个计算节点和交换机的网内计算网络,所述方法包括:所述N个计算节点中的第一计算节点通过所述交换机向所述N个计算节点中的第二计算节点发送第一消息,所述第一消息的标识为第一标识;所述第一计算节点接收来自所述交换机的第二消息,所述第二消息的标识为所述第一标识,所述第二消息是所述N个计算节点所发送的标识为所述第一标识的消息的聚合结果;所述第一计算节点基于所述第二消息,通过所述交换机向所述第二计算节点发送第三消息,所述第三消息为所述第一计算节点下一个待发送的消息。2.根据权利要求1所述的方法,其特征在于,在所述N个计算节点中的第一计算节点通过所述交换机向所述N个计算节点中的第二计算节点发送第一消息之前,所述方法还包括:所述第一计算节点设置滑动发送窗口,所述滑动发送窗口用于标识所述第一计算节点的待发送消息;在所述第一计算节点接收来自所述交换机的第二消息之后,所述方法还包括:所述第一计算节点将所述滑动发送窗口向前移动第一长度,所述第一长度等于所述第一消息的长度。3.根据权利要求2所述的方法,其特征在于,所述滑动发送窗口的长度小于或等于所述交换机的缓冲区大小。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述N个计算节点形成一个环网。5.一种消息传输装置,其特征在于,应用于包括N个计算节点和交换机的网内计算网络,所述装置包括:发送单元,用于通过所述交换机向所述N个计算节点中的第二计算节点发送第一消息,所述第一消息的标识为...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。