当前位置: 首页 > 专利查询>复旦大学专利>正文

适用于大规模并行计算的节点间容错通信系统及通信方法技术方案

技术编号:30018878 阅读:27 留言:0更新日期:2021-09-11 06:33
本发明专利技术公开了一种适用于大规模并行计算的节点间容错通信系统及通信方法,通信系统包括若干相互连接的AET簇、若干交叉开关组和交叉开关控制器,所述AET簇内包括若干个节点,所述节点包括通信模块和计算模块,分别用于进行数据通讯交互和数据计算处理;所述交叉开关组包括若干组输入信号端和输出信号端,分别用于连接不同节点的信号输出端和信号输出端以建立不同节点之间的信号连接,所有节点和所有交叉开关组均与交叉开关控制器相连接,所述交叉开关控制器用于接收每个节点的状态参数信息并向交叉开关组发送指令信息以改变节点之间的连接关系。本发明专利技术的通信系统通过设置交叉开关组和交叉开关控制器,减少了数据的冗余,改善了网络堵塞情况。善了网络堵塞情况。善了网络堵塞情况。

【技术实现步骤摘要】
适用于大规模并行计算的节点间容错通信系统及通信方法


[0001]本专利技术涉及容错架构
,具体为一种适用于大规模并行计算的节点间容错通信系统及通信方法。

技术介绍

[0002]随着集成电路技术的发展,多核系统中计算核心数量的增加,基于总线的片上系统(System

On

Chip)难以满足生产需求。取而代之的是片上网络(Network

On

Chip),它一方面继承了片上系统的优点,另一方面借鉴了计算机的通信,用路由器作为通信中的基本单元。对于一个片上网络而言,最重要的就是它的拓扑结构、路由算法和容错机制。如附图1所示为一个具有2D

Mesh结构的片上网络,其中,对于规模较小的片上网络而言,其发生故障的链路数量也比较小,可以采用一些传统的容错机制,比如双机备份、三模冗余,并不会向系统中注入过多的冗余。但是随着制造工艺的发展,大规模的片上网络也已经实现。对于芯片这种极其精密的产品,更换或者维修某个出现故障的部件是不现实的,但也不能因为一个部件的故障就弃用整块芯片,所以对于这种超大型的冰心计算系统而言,需要有可以保障系统在有多个故障出现时仍然可以正常工作的机制。
[0003]自主容错架构(以下简称AET)是一个具有Torus结构的片上网络,每个节点会和它邻近的三个节点组成一个AET簇,簇里面有个单元以120
°
的夹角方向和其他三个单元连接,边缘的三个单元也将以120
°
的夹角方向和其他簇的单元连接。许多个这样的簇向二维平面无限拓展,就形成了一个由六边形无缝填充的平面。图2描述的是一个具有64个节点的AET网络,形成了一个由32个六边形组成的全连接蜂窝网络。可以看出其所构成的全连接拓扑结构具有封闭性,并且该结构的网络连接是均匀的。
[0004]AET架构是通过模拟人脑神经元间的连接形成的结构,其容错性和功耗相比于传统的容错机制有很大的提升。但是AET架构的本质还是一个片上网络,其实现容错的手段还是依赖于节点之间的通信,这是一个隐患。因为当AET网络中的节点数量非常大时,网络中节点的通信变得频繁,可能会有很多不被需要的数据包,大大影响了网络的拥塞情况;除此之外,如果通信协议过于繁琐,还会导致系统在通信上开销的比重增加。

技术实现思路

[0005]本专利技术的目的在于提供了一种适用于大规模并行计算的节点间容错通信系统及通信方法,通过设置交叉开关组和交叉开关控制器,减少了数据的冗余,改善了网络堵塞情况。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种适用于大规模并行计算的节点间容错通信系统,包括若干相互连接的AET簇、若干交叉开关组和交叉开关控制器,所述AET簇内包括若干个节点,所述节点包括通信模块和计算模块,分别用于进行数据通讯交互和数据计算处理;所述交叉开关组包括若干组输入信号端和输出信号端,分别用于连接不同节点的信号输出端和信号输出端以建立不同节点之间的信号连接,所有节点和所有交叉开
关组均与交叉开关控制器相连接,所述交叉开关控制器用于接收每个节点的状态参数信息并根据节点的当前状态进行分析计算后向交叉开关组发送指令信息以改变节点之间的连接关系。
[0007]优选的,所述节点包括四个通讯端口,其中三个所述通讯端口分别与邻近的三个节点相连接,另一个为备份端口。
[0008]优选的,所述AET簇包括四个节点,所述交叉开关组包括与所述AET 簇相匹配的四组输入信号端和输出信号端,其中每一组输入信号端和输出信号端分别包括四个接入端,用于连接两个不同节点的四个通讯端口。
[0009]优选的,所述节点还包括与所述交叉开关控制器相连接的contrl端口,所述节点的状态参数用于表示节点的忙闲状态以及是否出现故障,包括用于表示节点处于故障状态的故障参数、表示节点处于正常状态的正常参数和表示节点处于空闲状态的空闲参数,所述节点通过所述contrl端口向所述交叉开关控制器发送状态参数。
[0010]一种适用于大规模并行计算的节点间容错通信方法,所述通信方法包括通信策略,所述通信策略包括每个节点的通讯端口均设置为12位宽度的传输端口,其中,数据的0

7位用于存放需要传输的数据,8

12位为jump 参数,所述jump参数代表数据在AET网络中传输的次数,每当节点将数据进行发送时,jump参数将加1;所述通信策略配置为当节点的多个输入端口同时接收到数据信号时,只对jump参数最小的输入信号做出响应。
[0011]优选的,所述通信方法还包括所述节点将计算所得数据包从所有可用的通信端口发送至交叉开关组,所述交叉开关组根据交叉开关控制器接收到的每个邻近节点的状态参数将数据包传送至其他节点。
[0012]优选的,所述节点配置有故障上报策略,所述故障上报策略包括当识别节点处于故障状态时,所述节点通过Control端口向交叉开关控制器发送其地址信息,并通过四个输出端口同时发送错误代码信息。
[0013]优选的,所述交叉开关控制器配置有故障识别策略,所述故障识别策略包括若干节点均通过control端口按照固定时间周期向交叉开关控制器发送心跳信号,所述心跳信号包括所述节点的状态参数信息,所述故障识别策略配置为当交叉开关控制器超过固定时间周期未接收到来自所述节点的心跳信号时,认定所述节点处于故障状态;所述节点配置有休眠策略,所述休眠策略包括当所述节点的任一通讯端口输入错误代码信息时,所述节点的所有通讯端口均处于空闲状态,等待交叉开关组重新分配连接。
[0014]优选的,所述AET簇中的四个节点包括一个中间节点和三个边缘节点,三个所述边缘节点均以120度的夹角与所述中间节点相连接,所述交叉开关组配置有接线转换策略,所述接线转换策略包括当中间节点首先发生故障时,启动三个边缘节点的备份端口,并将边缘节点中连接中间节点的通讯端口和备份端口分别与其余两个边缘节点相连接;当一个边缘节点首先发生故障时,启动其余三个节点的备份端口,其中两个边缘节点的备份端口相互连接,中间节点的备份端口和连接故障节点的通讯端口分别和与故障节点相连接的其他AET簇中的节点相连。
[0015]优选的,当中间节点和一个边缘节点均发生故障时,启动其余两个边缘节点的备份端口,两个边缘节点的备份端口相互连接,并将两个边缘节点分别与中间节点相连的通讯端口与故障边缘节点相连接的其他AET簇中的节点相连;当中间节点和两个边缘节点均
发生故障时,启动其余一个边缘节点的备份端口,所述边缘节点的两个剩余通讯端口分别与故障边缘节点相连接的其他两个AET簇中的两个节点相连;当两个边缘节点均发生故障时,启动其余节点的备份端口,其中一个边缘节点的备份端口和中间节点连接故障边缘节点的通讯端口分别和故障边缘节点相连接的其他两个 AET簇中的两个节点相连,中间节点的备份端口和中间节点连接故障边缘节点的通讯端口分别和故障边缘节点相连接的其他两个AET簇中的两个节点相连本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于大规模并行计算的节点间容错通信系统,其特征在于,包括若干相互连接的AET簇、若干交叉开关组和交叉开关控制器,所述AET簇内包括若干个节点,所述节点包括通信模块和计算模块,分别用于进行数据通讯交互和数据计算处理;所述交叉开关组包括若干组输入信号端和输出信号端,分别用于连接不同节点的信号输出端和信号输出端以建立不同节点之间的信号连接,所有节点和所有交叉开关组均与交叉开关控制器相连接,所述交叉开关控制器用于接收每个节点的状态参数信息并根据节点的当前状态进行分析计算后向交叉开关组发送指令信息以改变节点之间的连接关系。2.根据权利要求1所述的一种适用于大规模并行计算的节点间容错通信系统,其特征在于:所述节点包括四个通讯端口,其中三个所述通讯端口分别与邻近的三个节点相连接,另一个为备份端口。3.根据权利要求2所述的一种适用于大规模并行计算的节点间容错通信系统,其特征在于:所述AET簇包括四个节点,所述交叉开关组包括与所述AET簇相匹配的四组输入信号端和输出信号端,其中每一组输入信号端和输出信号端分别包括四个接入端,用于连接两个不同节点的四个通讯端口。4.根据权利要求3所述的一种适用于大规模并行计算的节点间容错通信系统,其特征在于:所述节点还包括与所述交叉开关控制器相连接的contrl端口,所述节点的状态参数用于表示节点的忙闲状态以及是否出现故障,包括用于表示节点处于故障状态的故障参数、表示节点处于正常状态的正常参数和表示节点处于空闲状态的空闲参数,所述节点通过所述contrl端口向所述交叉开关控制器发送状态参数。5.一种基于权利要求4所述的容错通信系统的容错通信方法,其特征在于,所述通信方法包括通信策略,所述通信策略包括每个节点的通讯端口均设置为12位宽度的传输端口,其中,数据的0

7位用于存放需要传输的数据,8

12位为jump参数,所述jump参数代表数据在AET网络中传输的次数,每当节点将数据进行发送时,jump参数将加1;所述通信策略配置为当节点的多个输入端口同时接收到数据信号时,只对jump参数最小的输入信号做出响应。6.根据权利要求5所述的一种适用于大规模并行计算的节点间容错通信方法,其特征在于:所述通信方法还包括所述节点将计算所得数据包从所有可用的通信端口发送至交叉开关组,所述交叉开关组根据交叉开关控制器接收到的每个邻近节点的状态参数将数据包传送至其他节点。7.根据权利要求6所述的一种适用于大规模并行计算的节点间容错通信方法,其特征在于:所述节点配置有故障上报策略,所述故障上报策略包括当识别节点处于故障状态时,所述节点通过Control端口向交叉开...

【专利技术属性】
技术研发人员:郭勇良刘力政何璇邹卓胡晓明郑立荣
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1