单指令多数据处理器结构中的互连制造技术

技术编号:2946676 阅读:157 留言:0更新日期:2012-04-11 18:40
一种单指令多数据(SIMD)处理器(1),包括:处理元件阵列(10),包括多个处理元件(PE↓[0]…PE↓[N]);存储器阵列(14),可操作地分为存储器部分(14↓[1]…14↓[N]),将一个存储器部分分配给具体的处理元件。第一处理元件(PE↓[N])可操作用于存取分配给第一处理元件的一部分存储器阵列(14),以及用于存取分配给第二处理元件的一部分存储器阵列,使用表示分配给将要进行存取的存储器位置的处理元件的标识值进行所述存取。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及SIMD(单指令多数据)处理器结构中的互连。
技术介绍
多媒体应用正在增长的复杂性不断地导致需要更大的计算性能。在这点上,已经开发了通用的CPU和DSP(中央处理单元和数字信号处理器),通过使用媒体加速器和任务级别的并行性来使用并行处理。然而,此种媒体加速器仅努力增加了对于与在实现高性能的传统CPU结构的限制的克服。因此,该解决方案导致每单位运算较高的能量消耗。一种潜在地更成功的方法开发了可以用来提出功率有效结构的全数据并行性。一种此种结构是Xetal(例如,参见比利时根特的ACIVS 2002会议的“Smart CamerasArchitectural Challenges”),基于单指令多数据(SIMD)处理范例。该范例由于高度并行性而保持数据的局域性,并且允许共享诸如指令和地址解码器之类的资源,这两者对于减小功率消耗都是重要的。图1是示出了SIMD结构的方框图。结构1包括处理元件阵列10,包括多个处理元件PE-0、…、PE-N。处理元件PE-0至PE-N从输入线路存储器12接收数据,所述输入线路存储器12本身经由输入预处理单元40接收数据3。SIMD结构1还包括工作存储器阵列14,可操作地分为存储器部分。每一个存储器部分与处理元件阵列10中的处理元件的具体的一个相关联。阵列10中的处理元件也能够向工作存储器阵列14传输数据以及从工作存储器阵列14接收数据,以便根据由处理元件接收到的指令来处理所述数据。将输出线路存储器单元16配置用于经由输出后处理单元50来输出数据。阵列10由根据在程序存储器30中存储的程序操作的全局控制处理器20控制。控制处理器20操作以根据检索到的程序向处理元件提供指令。输入线路存储器单元12提供输入数据的串行-并行转换,同时输出线路存储器单元14提供输出数据的并行-串行转换。在视频处理应用中,输出通道可以配置有串行处理器(50)以从视频帧中感兴趣的预定区域中提取统计信息。该信息可以用于诸如自动白平衡和曝光时间控制之类的自适应视频处理。SIMD结构(和类似的并行处理机构)中的一个重点在于处理元件之间的互相通信的程度。通信通道的数目越多,确定信号处理算法的执行效率越高。象滤波一样的算法包含在相邻数据元件的范围内的基本卷积操作,并且受益于处理器-处理器通信通道。假设每个PEN个数据元件的互连级别,(针对大多数图像处理内核N≥3),那么为了以最小等待时间存取所有N个数据元件,PE要求N个通信通道。然后将需要N到1开关(多路复用器)将N个通道之一与PE输入相连。图2示出了从6个相邻数据点存取数据的PE的逻辑通信路径。应该易于理解的是,这将导致PE和存储器之间互连的非常复杂的网络。实际上,通信的程度越大,设计中的处理元件的数目越高,物理设计按照设计时间变得越复杂,所述设计时间用于找到相对于硅面积和性能的最佳互连拓扑。减小互连网络的复杂度是SIMD结构中的一个重要难题。无法成功地处理该难题,一般阻止大规模并行系统有效。因此,需要使能够进行PE到PE通信以及节省成本和使用的PE到存储器通信的方法。
技术实现思路
根据本专利技术的一个方面,提出了一种单指令多数据(SIMD)处理器,包括处理元件阵列,包括多个处理元件;存储器阵列,可操作地分为存储器部分,每一个存储器部分分配给具体的处理元件,其特征在于第一处理元件可操作用于存取分配给第一处理元件的一部分存储器阵列,以及用于存取分配给第二处理元件的一部分存储器阵列,使用表示分配给将要进行存取的存储器位置的处理元件的标识值进行所述存取。附图说明图1是示出了SIMD处理结构的方框图。图2是示出了在图1的结构中内部的存储器传送部分的方框图。图3和图4示出了具体实现本专利技术的一个方面的交错存取技术。图5示出了用于具体实现本专利技术的交叉存取技术的PE数字存储器和控制值。图6示出了图3至图5技术的具体实现;以及图7示出了具体实现本专利技术的另一种技术。具体实施例方式本专利技术的实施例可以提供一种SIMD结构和技术,可以减轻在前考虑的结构和技术的缺点。具体地,本专利技术的实施例涉及经由工作线路存储器阵列14使能够进行PE至PE的数据内部通信。本专利技术的实施例将参考图1描述,并且还参考视频处理,其中将处理元件用于产生针对显示设备上的像素的颜色和其他视频值。应该易于理解的是,在该公开中描述的处理技术可以应用于不同于视频数据的数据。存在用于限制PE的数目小于每条线路的像素数目的原因,例如为了硅效率,或当输入数据实体为2×2像素或更大时。类似的情况也可以由利用比全并行SIMD结构中PE更少的PE实现计算命令的应用中引起。本专利技术的实施例使用“存储器交错存取”技术,可以减小n至1开关以及相关互连复杂性到简单的3至1开关。此种3至1开关可以使用诸如在WO2002/093905中公开的交错布局技术来具体实现。图3和图4示出了具体实现本专利技术的交错存取像素存储技术,分别针对当PE的数目是每线路(line)像素的一半和四分之一的情况。用于PE的阵列的接口由输入和输出数据线路示出。在两个图中,颜色(红色(R)、绿色(G)、和蓝色(B))是完整的图像线路,其像素已经被适当地放置为以PE的数目进行分割的列。为了能够进行PE至PE相邻通信,工作线路存储器阵列14使用现有的地址机制,而无需任何外部的互连成本。如从图3所见,最简单的情况是当处理元件的数目是像素数目的一半,可以看出存储器阵列部分140、...、149分配有两组三个像素值。每一个像素具有红色、绿色和蓝色值(用R、G和B表示)。在图3中,在存储器阵列中表示像素数目。因此,针对像素0的值由R0、G0和B0给出,并且针对像素1的值由R1、G1和B1给出,等等。将针对像素0和1的像素值分配给第一存储器阵列部分140。类似地,将剩余的工作线路存储器阵列部分分配给各对像素值。图4示出了当处理元件的数据是将要显示的像素的四分之一时的情况。因此,将每一个工作线路存储器阵列部分140、...、149针对四个像素的每一个来分配红色、绿色和蓝色值。图4示出了可以实现的方式。针对能够对在分配给相邻(第二)处理元件的存储器部分中存储的数据进行存取的第一处理元件,相对于从其中检索数据的、分配给第一处理元件的存储器部分,使用表示存储器部分的标识值来实现存储器存取。图5示出了如何通过适当的标识在工作存储器阵列14之内实现PE至PE的通信。使用简单的PE任务,将存储器位置复制到PE数字存储器作为示例。在两个像素交错存取的情况下,如(a)所示,将标识(0,1)用于存取分配给PE的像素,而将(-2,-1)和(2,3)用于存取分别为左边和右边PE而分配的像素。可以将相同的步骤延伸到与(b)中用于4个像素交错存取所示的较高的交错存取程度。图6示出了在图3、图4和图5中所述技术的一种可能的实现。每一个PE(PEN-1、PEN和PEN+1)具有关联的多路复用器MN-1、MN和MN+1。多路复用器相连以从分配给相关处理元件的存储器阵列部分接收数据,并且还从相邻的(左边和右边)的处理元件存储器阵列部分接收数据。在图6中,可以看出,PEN能够从其自己的存储器部分14N、并且从分别分配给左边PE(PEN-1)和右边PE(PEN+1)的存储器部分14N-1和14N+1接收数据。使用如本文档来自技高网
...

【技术保护点】
一种单指令多数据(SIMD)处理器(1),包括:处理元件阵列(10),包括多个处理元件(PE↓[0]…PE↓[N]);存储器阵列(14),可操作地划分为多个存储器部分(14↓[1]…14↓[N]),将每一个存储器部分分配给特定的处理元件,其特征在于:第一处理元件(PE↓[N])用于存取分配给第一处理元件的一部分存储器阵列(14),以及用于存取分配给第二处理元件的一部分存储器阵列,使用表示分配给将要进行存取的存储器位置的处理元件的标识值进行所述存取。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:安特内A艾博雷塞韦特理查德P克莱霍斯特
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利