一种通过交换芯片构建的交换系统及其路由算法技术方案

技术编号:17798336 阅读:56 留言:0更新日期:2018-04-25 21:51
本发明专利技术公开了一种通过交换芯片构建的交换系统及其路由算法,该交换系统包括:3个交换单元,并且3个交换单元作Z维连接,以及每个交换单元包括:3个交换主板,并且3个交换主板作Y维连接;以及每个交换主板上均设置有3个交换芯片,并且在每个交换主板上,3个交换芯片作X维连接。本发明专利技术通过3个交换单元,并且3个交换单元作Z维连接,以及每个交换单元包括3个交换主板,并且3个交换主板作Y维连接,以及每个交换主板上均设置有3个交换芯片,并且在每个交换主板上,3个交换芯片作X维连接,从而基于商用交换芯片(或交换芯片)构建3D Torus架构的大端口交换机(或交换系统),以及还提出了路由算法,从而具有低延迟,高性能、低成本、低功耗的特点。

【技术实现步骤摘要】
一种通过交换芯片构建的交换系统及其路由算法
本专利技术涉及通信领域,具体来说,涉及一种通过交换芯片构建的交换系统及其路由算法。
技术介绍
随着技术进步和工艺发展,大数据、人工智能等高技术应用的迅猛发展,对高性能计算机的计算能力需求越来越强烈。目前,增强计算能力的方式如下:一种方式则是增强节点的计算能力,采用多核甚至众核处理器来提升单个节点的计算能力;一种方法是扩展系统规模,将大量的处理器互连起来,通过大量并行计算来提升系统的计算能力。同时,如何保证大量处理器间的高效通信对互连网络提出了严峻挑战,该高效通信的要求为:超高带宽、超低延迟、超大规模。随着规模的不断增长,系统成本和能耗问题越发突出高性能互连网络该如何发展来应对这些挑战呢?互连网络的拓扑结构和路由算法从宏观上决定了网络的可扩展性和通信性能。网络可扩展性不仅受拓扑性质的限制,而且受到物理技术和管理需求,如封装工艺、系统冷却、电源功耗和传输管理等限制。此外,对于系统设计来说:1、数据搬移的能量消耗是与数据传输的位率(bitrate)成正比的,链路带宽越高,能量消耗也越严重;2、信号传输的能量消耗与传输距离成正比,因此随着能耗问题越来越难以解决带宽倾向于变得愈加局部化。大端口交换机可有效应对这种局部通信特征,大量的通信集中在交换机内部进行,可有效降低对全局网络的通信压力,有利于提升系统性能,但是,大端口交换机的设计难度受限于芯片的晶体管数量,管脚数量,布局布线等众多因素,难以通过单一芯片直接构建,因此大端口交换机通常是通过内部互连多个交换芯片,对外形成一个“虚拟的”大端口交换机。例如,国际上老牌高性能互连网络设备厂商Mellanox以及现在大举进军高性能互连网络市场的处理器巨头Intel的大端口交换机都是内部集成多个交换机芯片构建大端口交换机,拓扑结构普遍采用胖树结构。二层胖树拓扑网络直径只有2跳,具有低延迟,高性能的优势,而且可提供无阻塞通信,但其代价是需要大量的冗余部件来保证高性能,因而其成本很高,功耗较大,而且大端口交换机价格昂贵。此外,高性能计算的应用负载普遍具有局部性特征,例如,空间局部性和(或)时间局部性。基于应用的局部通信特征能够有效利用网络带宽,缩短消息延迟,提高网络吞吐率,通信局部性对计算效率有着重要影响,因此,应用的通信模式是网络设计的重要依据。另外,Agrawal认为如果不同节点间的通信概率随着物理距离而减少则并行应用具有通信局部性,应用的通信局部性有助于提高直接网络的吞吐率并降低延迟,以及Johnson认为并行应用通常可利用通信局部性来实现性能增益,通信局部性依赖算法和数据与处理器的映射和分配,因此,通信局部性使得低维网络更具有竞争力。另外,IBM(InternationalBusinessMachinesCorporation,国际商业机器公司)的研究人员分析了11种典型高性能应用的通信模式,发现两个主导通信性能的规律:一是应用通信对象是有限的,而且通常很小;二是通信对象集通常不变或者变化缓慢。上面这两条规律说明高性能应用具有很好的空间局部性和时间局部性,此外,大部分高性能计算应用通信模式具有明显的局部性,通信度较低,通信对象通常是4到8个。此外,伯克利的Vetter和Mueller指出大规模应用可扩展性效率最高的通信模式是处理器的平均通信拓扑度为3到7个通信目标或邻居。应用的通信矩阵分析显示大部分应用都具有邻居通信的特征,特别是像3DStencil这类应用,每个节点至多和6个邻居通信,这是由其代码的计算结构所决定的,其通信矩阵呈现斜带状分布。另外,Kenneth研究发现处理器间的通信模式由两种因素决定:算法天然的通信结构和应用软件进程被映射到处理器的方法,有些应用由于结构特性,天然地导致特殊的通信模式,如果并行计算应用存在大量通信局部性,自然的应该对此加以利用以提高系统效率,例如,有些流体动态计算应用对应的计算被分配在二维或三维空间,这导致物理拓扑的排列符合二维或三维Mesh(无线网格网络)结构(或Torus结构)。同时,Torus网络在Mesh网络的基础上增加环回链路来压缩网络直径,进一步提升性能,而且结构对称,具有较好的可扩展性。3DTorus(3维环绕)网络曾经在高性能互连领域占据主导地位,例如,Cray的T3D/T3E系列。针对高性能应用的这种通信局部性特征构建互连网络拓扑可有效降低通信延迟,提升系统性能。此外,路由算法主要负责消息的有效传输,对于网络通信性能有着重要影响,该路由算法包括经典的Torus路由算法有维序路由算法、转向控制算法和自适应路由等。另外,维序路由算法按照各维上偏移量之和计算出当前节点与目的节点之间的距离,数据包严格按维度增加或减少的次序依次通过所有维度,在当前维上的偏移量减为0后再转入下一维度。同时,维序路由算法是最短路径路由算法,路由效率最高,对于Mesh网络是无死锁的,但对于Torus网络是存在死锁的,不足之处是受网络拥塞影响比较大。此外,自适应路由算法是根据通道的拥塞情况动态选择路由,好处是路由灵活,链路利用率高,具有容错能力,不足之处是非最短路径、算法复杂、容易死锁且存在乱序的问题。另外,网络交换机需要一定的缓冲器用来存储数据包,但是缓冲器的容量是有限的。对于那些数据包头还没有到达目的节点的报文,一方面要请求缓冲器资源,同时又要占用当前缓冲报文的缓冲器,这种通道资源的循环占用就可能产生死锁。目前通过如下方式避免死锁:增加虚通道构建虚拟子网,通过分离流量可有效避免死锁,但是这种方法的缺点是所需资源比较多,对于采用高维度拓扑的超大规模网络会极大增加系统成本;采用逃逸虚通道也可以避免死锁,当发生拥塞时数据包进入逃逸虚通道路由,可化解拥塞情况,其不足之处在于逃逸通道的利用率比较低。此外,国际、国内没有这种基于3DTorus拓扑结构构建大端口交换机的方法。国际上大端口高性能交换机主要是Mellanox、Intel等几个大厂家有能力生产,基于低端口交换芯片通过胖树拓扑构建大端口交换机,但是所需交换芯片数量和内部端口数量较多,而且胖树拓扑的交换机端口利用率低:设Pe为该网络中交换机用于连接终端处理节点的总端口数,Pt为该网络中交换机的总端口数,则该网络的交换机端口利用率为Pe/Pt×100%。如下表1所示,h表示胖树网络的高度;n表示mesh/torus网络的维度;m表示每个维度中交换机的数量;p表示每台交换机的端口数。表1另外,根据表1的内容,不难发现,胖树网络的交换机端口利用率始终低于33%,3层胖树只有20%。交换机端口利用率低就意味着需要更多的交换芯片,相应的需要更多的端口,现有技术条件下,端口数据传输所需的高速SERDES(它是一种主流的时分多路复用、点对点的串行通信技术),传输每bit数据功耗20-40PJ(皮焦耳),对于现在的主流高性能交换机带宽的100Gbps/端口,每个端口功耗2-4瓦,从而使得整个系统的构建成本随之升高和更高的功耗。此外,Mesh网络/Torus网络的端口利用率几乎总超过50%,这意味着更低的系统成本和功耗,并且对于具有显著局部通信特征的高性能应用,Mesh/Torus拓扑更是天然的契合应用对局部通信的需求,因而,如何通过Torus拓扑构建大端口交换本文档来自技高网...
一种通过交换芯片构建的交换系统及其路由算法

【技术保护点】
一种通过交换芯片构建的交换系统,其特征在于,包括:3个交换单元,并且3个所述交换单元作Z维连接,以及每个所述交换单元包括:3个交换主板,并且3个所述交换主板作Y维连接;以及每个所述交换主板上均设置有3个所述交换芯片,并且在每个所述交换主板上,3个所述交换芯片作X维连接。

【技术特征摘要】
1.一种通过交换芯片构建的交换系统,其特征在于,包括:3个交换单元,并且3个所述交换单元作Z维连接,以及每个所述交换单元包括:3个交换主板,并且3个所述交换主板作Y维连接;以及每个所述交换主板上均设置有3个所述交换芯片,并且在每个所述交换主板上,3个所述交换芯片作X维连接。2.根据权利要求1所述的交换系统,其特征在于,在每个所述交换主板上,3个所述交换芯片作X维连接包括:在每个所述交换主板上,任意1个所述交换芯片均与其他的2个所述交换芯片连接。3.根据权利要求2所述的交换系统,其特征在于,3个所述交换单元均设置在背板上,以及3个所述交换主板作Y维连接包括:在每个所述交换单元中,任意1个所述交换主板均通过所述背板与其他的2个所述交换主板连接。4.根据权利要求3所述的交换系统,其特征在于,每个所述交换单元均包括:第一交换主板、第二交换主板和第三交换主板,以及3个所述交换单元作Z维连接包括:任意1个所述交换单元中的所述第一交换主板均通过所述背板与其他的2个交换单元中的所述第一交换主板连接;任意1个所述交换单元中的所述第二交换主板均通过所述背板与其他的2个交换单元中的所述第二交换主板连接;以及任意1个所述交换单元中的所述第三交换主板均通过所述背板与其他的2个交换单元中的所述第三交换主板连接。5.一种应用于权利要求1-4任一项所述的通过交换芯片构建的交换系统的路由算法,其特征在于,包括:根据当前节点的位置坐标和目标节点的位置坐标,确定最短路径,并...

【专利技术属性】
技术研发人员:苏勇
申请(专利权)人:曙光信息产业北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1