一种面向机器学习的分布式计算互连网络系统及通信方法技术方案

技术编号:24254519 阅读:59 留言:0更新日期:2020-05-23 01:13
本发明专利技术提出了一种面向机器学习的分布式计算互连网络系统及通信方法,旨在提高互连网络的通信效率,同时更好地平衡分布式计算互连网络中的流量负载,其中分布式计算互连网络的光交换子系统包括2N台光交换机,计算子系统包括N个计算单元,每个计算单元包括N个子计算单元,每个子计算单元包括1台光电混合交换机和N个计算节点;通信过程为:在同一计算单元内通信的计算节点对仅依靠光电混合交换机的转发即可完成通信任务,不在同一计算单元内通信的计算节点对则需要光电混合交换机和光交换机的协作完成通信任务。本发明专利技术不仅使系统具备良好的可扩展性,减少了网络直径,降低了系统的通信时延,而且提升了系统应对复杂网络环境的能力。

A machine learning oriented distributed computing interconnection network system and communication method

【技术实现步骤摘要】
一种面向机器学习的分布式计算互连网络系统及通信方法
本专利技术属于通信
,更进一步涉及互连网络通信
中的一种面向机器学习的分布式计算互连网络系统及通信方法,本专利技术利用光交换机、光电混合交换机和计算节点组成的互连网络系统,实现分布式计算互连网络系统中各个计算节点之间的高效通信。
技术介绍
随着计算技术的发展,许多新兴应用需要非常巨大的计算能力才能完成,尤其是以大数据和大模型为基础的机器学习应用。集中式计算完全依赖于一台大型的中心计算机的处理能力。与集中式计算相反,分布式计算中,多个通过网络互连的计算节点都具有较高的计算能力,它们之间相互传递数据,实现信息共享,共同协作完成一个处理任务。如果采用集中式计算,需要耗费相当长的时间来完成复杂的处理任务。分布式计算将该任务分解成许多小的部分,分配给多个计算节点进行处理。这样可以节约整体计算时间,大幅提高计算效率。互连网络系统作为分布式计算中连接各个计算节点的重要组成部分,它的性能主要依赖于网络直径、可扩展性和可靠性等参数。另一方面,面对网络中复杂多变的流量环境,具备识别网络状态能力的通信方法可以根据网络中的流量变化做出及时的应对,避免网络拥塞导致的通信性能下降。在大规模分布式机器学习场景中,计算节点之间需要同步本地参数以更新训练模型,但是在网络规模扩大之后,参数同步的通信开销随之增大。具备较低网络直径和较小扩展复杂度的互连网络系统对于提升机器学习训练任务的执行效率有着重要的影响。同时,对于机器学习训练任务之间的差异性,具备一定自主调节能力的通信方法可以更好地平衡网络中的流量负载以应对复杂的网络环境。如何设计一个合理高效的分布式计算互连网络系统和通信方法对降低机器学习训练任务的执行时间至关重要。现有的互连网络系统具有良好扩展性,互连网络的通信效率较高,但互连网络中流量负载的平衡能力较差,例如西安电子科技大学在其授权公告号为CN106789750B,名称为“一种高性能计算互连网络系统及通信方法”的专利技术中,公开了一种高性能计算互连网络系统及通信方法,该专利技术的互连网络系统包括电分组交换机组成的一级单元、光电混合交换机组成的二级单元和二级单元通过组内光交换机组成的三级单元,三级单元通过组间光交换机互连成整个系统;通信方法是利用电分组交换机制和光电混合的交换机制实现系统的多级通信,其中电分组交换机与光电混合交换机之间通过电分组交换机制实现一级单元与二级单元之间的通信,光电混合交换机与组间光交换机利用光电混合的交换机制实现三级单元之间的通信。该专利技术在网络下层通过多级单元组成模块化的结构,降低网络的扩展复杂度;网络上层的树形结构通过提供一定的设备冗余增强了网络的容错率,进而提高了系统的可靠性。但是其存在的不足之处在于:1、互连网络系统的网络直径较大,增加了机器学习任务的执行时间;2、通信方法仅能完成数据分组在通信节点对之间的传输,不具备自主调节的能力。
技术实现思路
本专利技术的目的在于克服上述已有技术的不足,提出了一种面向机器学习的分布式计算互连网络系统及通信方法,旨在提高互连网络的通信效率,同时更好地平衡分布式计算互连网络中的流量负载。为实现上述目的,本专利技术采取的技术方案为:一种面向机器学习的分布式计算互连网络系统,包括光交换子系统和计算子系统。所述光交换子系统包括编号为A0,A1,…,Ai,…,A2N-1的2N台光交换机,每台光交换机包括N个交换端口,其中N≥1,Ai表示第i台光交换机;所述计算子系统包括N个计算单元,每个计算单元包括N个子计算单元,每个子计算单元包括1台光电混合交换机和N个计算节点,每个光电混合交换机包括2个上行端口、N个下行端口和N-1个交换端口,每个计算节点包括1个上行端口;每个子计算单元所包含的光电混合交换机的N个下行端口分别与N个计算节点的上行端口连接,每个计算单元所包含的每一个光电混合交换机的N-1个交换端口分别与同一计算单元内的其他N-1个光电混合交换机的1个交换端口连接;所述计算子系统所包含的N2个光电混合交换机的编号为M(0,0),M(0,1),…,M(0,N-1);M(1,0),M(1,1),…,M(1,N-1);…;M(x,y);…;M(N-1,0),M(N-1,1),…,M(N-1,N-1);其中M(x,y)表示第x个计算单元中第y台光电混合交换机,0≤x≤N-1,0≤y≤N-1;所述光交换子系统中光交换机Ai的每个交换端口与计算子系统中光电混合交换机M(x,y)的1个上行端口连接,其中i%N=y,%表示i对N取模。上述一种面向机器学习的分布式计算互连网络系统中,所述计算节点,采用CPU或者GPU。一种面向机器学习的分布式计算互连网络的通信方法,包括如下步骤:(1)每个计算节点产生数据分组并发送:每个计算节点Sr根据自身的地址和与Sr进行通信的每个计算节点Sd的地址产生数据分组,并将所有数据分组发送至与计算节点Sr相连的光电混合交换机Rs;(2)每个光电混合交换机Rs对每个数据分组进行解析:每个光电混合交换机Rs对每个Sr产生的数据分组进行解析,得到Sr的地址和所有与Sr进行通信的计算节点Sd的地址;(3)每个光电混合交换机Rs判断计算节点Sr与Sd是否在同一个计算单元内:每个光电混合交换机Rs通过解析得到的Sr的地址和所有与Sr进行通信的计算节点Sd的地址,判断计算节点Sr与Sd是否在同一个计算单元内,若是,执行步骤(4),否则,执行步骤(7);(4)每个光电混合交换机Rs判断计算节点Sr与Sd是否在同一个子计算单元内:每个光电混合交换机Rs通过解析得到的Sr的地址和所有与Sr进行通信的计算节点Sd的地址,判断计算节点Sr与Sd是否在同一个子计算单元内,若是,将Sr产生的数据分组发送至与Sr进行通信的计算节点Sd;否则,执行步骤(5);(5)每个光电混合交换机Rs向光电混合交换机Rd发送数据分组:每个光电混合交换机Rs将Sr产生的数据分组发送至与计算节点Sd相连的目的光电混合交换机Rd;(6)每个光电混合交换机Rd对每个数据分组进行解析,并发送数据分组:每个光电混合交换机Rd对每个数据分组进行解析,得到Sr的地址和所有与Sr进行通信的计算节点Sd的地址,并向Sd发送Sr产生的数据分组;(7)每个光电混合交换机Rs判断自身与和计算节点Sd相连的光电混合交换机Rd之间是否存在光交换机:每个光电混合交换机Rs判断自身的编号M(x1,y1)与和计算节点Sd相连的光电混合交换机Rd的编号M(x2,y2)是否满足y1=y2,若是,执行步骤(8);否则,执行步骤(10);(8)每个光电混合交换机Rs发送数据分组至光交换机Ro:(8a)每个光电混合交换机Rs检查所有与自身相连的光交换机需要发送的数据分组数目,并选择需要发送数据分组数目最小的光交换机Ro;(8b)每个光电混合交换机Rs根据自身和光电混合交换机Rd的设备编号计算通信波长W,并使用该通信波长将数据本文档来自技高网
...

【技术保护点】
1.一种面向机器学习的分布式计算互连网络系统,包括光交换子系统和计算子系统,其特征在于:/n所述光交换子系统包括编号为A

【技术特征摘要】
20191115 CN 20191111758881.一种面向机器学习的分布式计算互连网络系统,包括光交换子系统和计算子系统,其特征在于:
所述光交换子系统包括编号为A0,A1,…,Ai,…,A2N-1的2N台光交换机,每台光交换机包括N个交换端口,其中N≥1,Ai表示第i台光交换机;
所述计算子系统包括N个计算单元,每个计算单元包括N个子计算单元,每个子计算单元包括1台光电混合交换机和N个计算节点,每个光电混合交换机包括2个上行端口、N个下行端口和N-1个交换端口,每个计算节点包括1个上行端口;每个子计算单元所包含的光电混合交换机的N个下行端口分别与N个计算节点的上行端口连接,每个计算单元所包含的每一个光电混合交换机的N-1个交换端口分别与同一计算单元内的其他N-1个光电混合交换机的1个交换端口连接;
所述计算子系统所包含的N2个光电混合交换机的编号为M(0,0),M(0,1),…,M(0,N-1);M(1,0),M(1,1),…,M(1,N-1);…;M(x,y);…;M(N-1,0),M(N-1,1),…,M(N-1,N-1);其中M(x,y)表示第x个计算单元中第y台光电混合交换机,0≤x≤N-1,0≤y≤N-1;
所述光交换子系统中光交换机Ai的每个交换端口与计算子系统中光电混合交换机M(x,y)的1个上行端口连接,其中i%N=y,%表示i对N取模。


2.根据权利要求1所述的一种面向机器学习的分布式计算互连网络系统,其特征在于,所述计算节点,采用CPU或者GPU。


3.一种面向机器学习的分布式计算互连网络的通信方法,其特征在于,包括如下步骤:
(1)每个计算节点产生数据分组并发送:
每个计算节点Sr根据自身的地址和与Sr进行通信的每个计算节点Sd的地址产生数据分组,并将所有数据分组发送至与计算节点Sr相连的光电混合交换机Rs;
(2)每个光电混合交换机Rs对每个数据分组进行解析:
每个光电混合交换机Rs对每个Sr产生的数据分组进行解析,得到Sr的地址和所有与Sr进行通信的计算节点Sd的地址;
(3)每个光电混合交换机Rs判断计算节点Sr与Sd是否在同一个计算单元内:
每个光电混合交换机Rs通过解析得到的Sr的地址和所有与Sr进行通信的计算节点Sd的地址,判断计算节点Sr与Sd是否在同一个计算单元内,若是,执行步骤(4),否则,执行步骤(7);
(4)每个光电混合交换机Rs判断计算节点Sr与Sd是否在同一个子计算单元内:
每个光电混合交换机Rs通过解析得到...

【专利技术属性】
技术研发人员:顾华玺鹿云峰余晓杉王琨任泽昂
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1