当前位置: 首页 > 专利查询>博普斯公司专利>正文

多重阵列处理器制造技术

技术编号:2886570 阅读:231 留言:0更新日期:2012-04-11 18:40
一个阵列处理器,所包括的处理元件被安排成丛,这些丛又被组合成一个矩形阵列。每个丛由这样一些处理单元构成,它们最佳地与至少两个其他丛的处理元件通信。此外,每个丛间通信路径是互不相交的,就是说,每个路径承担或者北和西,南和东,北和东,或者南和西通信。由于数据路径的互不相交性,所以每个丛的处理元件之间的通信可以被组合成单一的丛间路径。就是说,来自向北和东与另一丛通信的丛的那些通信可以被组合成一条路径,从而去掉了一半为此路径所需连线。此外,最长通信路径不像传统环形阵列那样直接取决于该阵列的总尺度。相反,最长通信路径只受丛间间距的限制。在一个实施例中,一个NxN环形的转置元件被组合在丛中并通过丛内通信路径彼此通信。由于转置元件彼此间有直接连接,因而以这种途径消除了转置操作延迟。另外,每个PE可以有单一发送端口和单一接收端口。结果,PE个体从阵列拓扑结构中解耦出来。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】
一般而言,本专利技术涉及处理系统,更具体地说,是涉及并行处理结构。能开发出许多对数据并行操作的计算任务。并行处理器的有效性取决于并行处理器的体系结构、被编成代码的算法、以及在各并行部件中的数据放置。例如,图像处理、模式识别、以及计算机图形都是对自然安排成2维或3维栅格的数据进行操作的应用。数据可以代表范围很广的信号,例如音频、视频、声纳或雷达信号。因为通常对这类数据进行的操作,诸如离散余弦变换(DCT)、离散余弦反变换(IDCT)、卷积等可以同时对不同的栅格元素来完成,所以已经发展出多处理器阵列系统,它们通过允许在一个时刻有不只一个处理器进行该任务,从而可以显著地加速这类操作。并行处理是大量专利的主题,包括,美国专利5,065,339号;5,146,543号;5,146,420号;5,148,515号;5,546,336号;5,542,026号;5,612,908号;以及5,577,262号;欧洲公布申请0,726,529号和0,726,532号,这里把它们列入作为参考。实现并行处理结构的一种传统途径是最近邻网格连接计算机,它在以下文献中讨论过R.Cypher和J.L.C.Sanz的“用于图像处理和计算机视图的SIMD结构和算法,IEEE声学、语音和信号处理汇报,第37卷,第12期,2158-2174页,1989年12月;K.E.Batcher的“大型并行处理器设计”IEEE计算机汇报,C-29卷,第9期,836-840页,1980年9月;以及L.Uhr的“人工智能用多计算机结构,New York,N.Y.,John Wiley & Sons,第8章第97页,1987。在附图说明图1A的最近邻环形连接计算机中,多个处理元件(PE)通过环形连接路径MP连接到它们的北、南、东、西近邻,而且所有PE都以同步信号指令多重数据(SIMD)方式进行操作。由于可以对一个网格连接的计算机增加卷绕连接来得到环形连接的计算机,所以一个没有卷绕连接的网格连接计算机可以看作是环形连接计算机的子集合。如图1B所示,每个路径MP可以包括T条发送线和R条接收线,或者如图1C所示,每个路径MP可以包括B条双向线。虽然单向和双向通信两者都由本专利技术予以考虑了,但在一个路径上的总线总数(不包括控制信号)在下文中将统称为K条线,这里在双向总线设计中K=B,而在单向总线设计中K=T+R。假定一个PE能向它的近邻PE的任何一个发送数据,但一次只能一个。例如,在一个通信周期中,每个PE能向它的东邻发送数据。还假定,存在一种广播机制,例如,在一个广播分发周期中,数据和指令能从一个控制器同时分发到所有PEs。虽然位串行PE间通信通常用于减少连线复杂性,但环形连接阵列的连线复杂性表现出在实现上的问题。图1A的传统环形连接阵列包括16个处理元件连接到PE的4×4阵列10中。每个处理元件PEij分别以其行号i和列号j来作标签。每个PE以点对点连接与其最近的北(N)、南(S)、东(E)、西(W)近邻通信。例如,图1A中所示的PE0,0和PE3,0之间的连接是PE0,0和N界面和PE3,0的南界面之间的一个卷绕连接,代表了使阵列成为一个环形构形的卷绕界面之一。在这种构形中,每行包含一组N个互连线,以N行计,共有N2个水平连接。类似地,以N列计,每列有N个垂直互连,则共有N2个垂直互连。对于图1A中的举例,N=4。所以,总的连线数,例如在一个包含卷绕连接的NXN环形连接计算机中实现的集成电路里的金属线,便是2kN2条,这里k是每个互连中的连线数。在一个位串行互连中数k可以等于1。例如,对于图1A所示4×4阵列10,以k=1,则2kN2=32。对于N较少的许多应用,最好是整个PE阵列结合到单一的集成电路中。本专利技术不排除例如每个PE能是一个单独微处理器芯片的那些实现。由于在环形连接计算机中连线总数会很大,所以这些互连会消耗大量的有价值的集成电路“不动产,或者所占用的芯片面积。此外,PE互连路径相当频繁地彼此交叉,使IC布线过程复杂化,而且还可能通过串扰向通信线引入噪声。再有,连接阵列最北和最南处PE及最东和最西处PE的卷绕链路的长度随着阵列的尺寸增大而增大。这增加了的长度增加了每个通信线的电容,从而降低了线上的最大位速率并向线上引入附加的噪声。转置阵列的另一个缺点是在转置操作方面产生的。由于在通信路径中一个处理元件与其转置被一个或多个位于中间的处理元件分离开,所以在利用转置的操作中引入了延迟。例如,如果PE2,1需要从它的转置PE1,2中得到数据,该数据必须穿过中间的PE1,1或PE2,2。自然,即使PE1,1和PE2,2没有被占用,这也会给操作带进延迟。然而,在一般情况下,那里PE是作为微处理器元件实现的,这时没有可能PE1,1和PE2,2在完成其他操作,而为了从PE1,2向PE2,1传送数据或命令,它们不得不按顺序把这些操作放在一边。所以,可能要用几个操作才即使是开始从PE1,2向PE2,1传送数据或命令,而PE1,1为了传送转置数据被迫放到一边的那些操作也将被延迟。这种延迟随着每个中间的PE介入而滚雪球似地增大,对于最远的转置对,将引入显著的延迟。例如,图1A中的转置对PE3,1/PE1,3有最少3个中间PE,一般情况下,需要4个通信步骤的延迟,而且为了在PE3,1和PE1,3之间传送数据,还必须使所有那些PE中的任务放到一边,这又会额外地使所有这些任务造成延迟。认识到环形连接阵列的这种局限性,已经在下列文献中公开了新的实现阵列的途径美国专利5,612,908号;G.G.Pechanek等的“大规模并行对角线褶叠阵列处理器,1993年应用特殊阵列处理器国际会议,140-143页,1993年10月25-27,Venice,意大利,以及G.G.Pechanek等的“多重褶叠丛集处理器环形阵列,VLSI设计第5次NASA研讨会汇报,8,4.1-11页,1993年11月4-5,新墨西哥州大学,Albuquerque,新墨西哥,这些文献全文引入作为参考。这些环形阵列组织的操作技术是使用传统的最近邻环形的对角线PE作为褶叠边缘对PE阵列进行褶叠。如图2的阵列20中所示,这些技术可以用于显著地(substantially)减小PE间连线,减少卷绕连接的个数和长度,并把PE放置在与其转置紧密靠近的位置。这种处理器阵列结构公布在例如美国专利5,577,262,5,612,908和EP 0,726,532和EP0,726,529中,这些是由本专利技术的同一专利技术者专利技术的,并整体纳入这里作为参考。尽管这种阵列提供了对传统环形结构的实质性优点,但由于PE组合的不规则性,例如在单个褶叠的对角线褶叠缝,某些PE丛集“成行,而其他则是单个的,在一个3褶叠的对角线褶叠网格中有4个PE和8个PE的丛集。由于这些阵列在总体上的三角形形状,这种对角线褶叠形阵列呈现出对实现有效、便宜地集成电路造成基本的障碍。再有,在如EP 0,726,532和EP 0,726,529中的对角线褶叠网格和在其他传统的网格结构中,互连拓扑结构是PE定义中的固有部分。这便固定了在拓扑结构中的PE位置,结果把PE的拓扑结构和它们的连接都限制于要实现的固定构形。于是,需要对处理器阵列结构的处理器互连作进本文档来自技高网...

【技术保护点】
多个处理元件(PE)的互连系统,每个PE有一通信端口用于发送和接收数据和命令,该互连系统包含: PE间连接路径;以及 连到所述PE的丛开关,从而把互不相交的PE间连接路径组合起来,从而基本上减少了为提供等效于传统环形连接PE阵列的PE间连接所需的通信路径数。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:杰拉尔德G皮查尼克小查尔斯W克拉克
申请(专利权)人:博普斯公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1