处理系统技术方案

技术编号:2855787 阅读:199 留言:0更新日期:2012-04-11 18:40
一种处理系统,其包括多个处理元件,这些处理元件包括控制器和计算装置,多个处理元件可动态地被重新配置为相互独立进行操作的任务单元,这些任务单元包括一个处理元件或者两个或多个处理元件的集群,集群内的处理元件能够被安排来在程序的公共线程的控制下执行指令。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】超长指令字处理器(VLIW处理器)能够在一个时钟周期内执行许多操作。通常,编译器降低程序指令为处理器能同时执行的基本操作。要同时执行的操作被合并成超长指令字(VLIW)。VLIW处理器的指令解码器将包括在VLIW内的基本操作的每一个解码并发布到相应处理器的数据路径元件。可替换地,VLIW处理器不具有指令解码器,并且包括在VLIW中的每个操作被直接发布到相应的处理器数据路径元件。接着,这些处理器数据路径元件并行地执行VLIW中的操作。这种被称为指令级并行技术(ILP)的并行技术特别适合于涉及大量相同计算的应用,这类应用可以在例如媒体处理中找到。包括较多面向控制的操作、例如伺服控制目的的其他应用不适合于作为VLIW程序来编程。但是,这类程序通常可以被降低成多个相互独立执行的程序线程。并行执行这些线程还被能被表示为线程级并行技术(TLP)。但是,VLIW处理器不适合于执行使用线程级并行处理的程序。应用后一类型的并行技术要求不同的处理器数据路径元件子集具有独立的控制流,即它们以相互独立的顺序访问它们自己的程序,例如能够独立地执行条件转移。但是,VLIW处理器中的数据路径元件以锁步模式进行操作,即它们都以相同的顺序执行指令序列。VLIW处理器因此只能执行一个线程。本专利技术的一个目的是提供能够根据应用使用相同的数据路径的子集来利用指令级并行技术或任务级并行技术或其组合的处理器。为此目的,根据本专利技术的处理器包括多个处理元件,这些处理元件包括控制器和计算装置,多个处理元件可动态地被重新配置为相互独立进行操作的任务单元,这些任务单元包括一个处理元件或两个或多个处理元件的集群(cluster),集群内的处理元件能够被安排为在程序的公共线程的控制下执行指令。集群中的处理元件被认为以锁步模式运行。计算装置可包括加法器、乘法器、用于执行诸如AND、OR、XOR等逻辑操作、查找表操作、存储器访问等的装置等等。注意到,由Colwell等在Proc.Of Supercomputing’90的第910-919页中的“Architecture and Implementation of a VLIWSupercomputer”描述了一种VLIW处理器,其能够被配置为两个14操作宽(14-operations-wide)的处理器,其每一个独立地受相应的控制器控制,或一个28操作宽的由一个控制器控制的处理器。但是,所述文献没有公开能够被重新配置成任意数目的包括任意数目的处理元件的独立操作集群的处理器阵列的原理,也没有公开如何实现这样的处理器阵列。在根据本专利技术的处理器阵列中,处理元件可都独立地操作或都以锁步模式操作。与现有技术相反,本专利技术还允许处理元件的集群相互独立地操作,同时每个集群内的处理元件能使用指令级并行技术执行任务。通过这种方式,处理器能动态地根据任务使它的配置适应于最合适的形式。在具有在指令级利用并行技术的低可能性的任务中,处理器可被配置为相对大数目的小集群(例如包括仅一个、或一些处理元件)。这使得在线程级利用并行技术成为可能。如果任务非常适合于利用指令级并行技术,就如通常在媒体处理的情况下那样,处理器能被重新配置为较小数目的大集群。每个集群的大小可适应于处理速度的要求。这使得控制流的多个线程并行成为可能,每个线程具有多个匹配可在线程中利用的ILP的功能单元。将处理器配置成集群可是静态或动态的。在静态的情况下,配置在应用的执行期间保持相同。在动态的情况下,可以在应用执行期间运行时改变。静态情况可以被当作动态情的特殊情况。US6,266,760描述一种包括多个基本功能单元的可重新配置的处理器,它能够被配置为执行特定的功能,例如被配置为ALU、指令存储器、功能存储器、程序计数器。这样,可以若干方式使用处理器,例如微控制器、VLIW处理器、或MIMD处理器。然而,该文献没有公开包括不同的处理元件的处理器,不同的处理元件的每一个包括控制器,其中处理元件可被配置到一个或多个集群中,并且在同一集群内的处理元件即使具有它们自己的控制器也在公共线程的控制下进行操作,并且其中彼此不同的集群中的处理器相互独立地操作,即根据不同控制线程而进行操作。US6,298,430描述一种用户可配置的超等级(ultra-scalar)多处理器,该多处理器包括预定的多个分布式可配置的信号处理器(DCSP),该分布式可配置的信号处理器是每一个具有作为一个单元群的至少两个子微处理器(SM)和一个数据包总线控制器(PBC)的计算集群。DCSP、SM和PBC通过本地网络总线被连接。PBC具有连接PBC与每一个SM的通信总线。连接PBC与每一个SM的PBC的通信总线具有一个硬布线连接和一个可编程可切换连接器的串行链。在SM之间的每条通信总线具有至少一个硬布线连接和两个可编程可切换连接器。多个SM可通过编程被合并成单独的SM组。当根据集群中的一个用作主机的SM的时钟频率进行计时时,所有集群的SM都以异步模式或同步模式工作。该已知的多处理器不允许在任意大小的集群中配置。优选地,处理元件的每一个具有它们自己的指令存储器,例如高速缓存形式的指令存储器。这有利于处理元件的独立操作。可替换地或除了自身的局部指令存储器,处理元件可共享全局存储器。参考附图更详细地描述这些或其他方面。其中附图说明图1示意地显示了根据本专利技术的处理器系统,图2更详细地显示了处理元件的例子,图3显示了耦合到通道CH的4个处理的集群的例子,图4显示了在处理系统的第一实施例中的可重新配置的通道基本结构,图5显示了在处理系统的第二实施例中的可重新配置的通道基本结构,图6显示了图5的处理系统的更具体的实现,图7显示了在处理系统的第三实施例中的可重新配置的通道基本结构,图8显示了根据本专利技术的处理系统的多种配置。图1示意地显示了根据本专利技术的处理器系统。处理器系统包括多个处理元件PE1,1、...、PE1,n;PE2,1、...、PE2,n;PEm,1、...、PEm,n。处理元件能经由数据路径连接DPC交换数据。在图1所示的优选实施例中,处理元件被排列在矩形网格上,并且数据路径连接提供相邻处理元件之间的数据交换。非相邻处理元件可通过经由相互相邻的处理元件的链来传递数据从而交换数据。可替换地或附加地,处理器系统可包括一个或多个横跨处理元件的子集的全局总线,或任意处理元件对之间的点到点连接。图2更详细地显示了处理元件的例子。每个处理元件包括一个或多个操作发布槽(IS),每个发布槽包括一个或多个功能单元(FU)。图2中的处理元件包括五个发布槽IS1-IS5,以及六个FU两个算术和逻辑单元(ALU)、两个累积乘法单元(MAC)、特定应用单元(ASU)、和与数据存储器(RAM)关联的加载/存储单元(LD/ST)。发布槽IS1包括两个FUALU和MAC。在公共的发布槽中的FU共享来自寄存器文件的读端口和到互连网络IN的写端口。在可替换的实施例中,可在寄存器文件和操作发布槽之间使用第二互连网络。在发布槽中的功能单元访问至少一个与所述发布槽关联的寄存器文件。在图2中,存在一个与每个发布槽关联的寄存器文件。可替换地,多于一个的发布槽可与单个寄存器文件连接。但多个独立的寄存器文件连接到单个发布槽(例如,在发布槽中的FU的每个单独的读本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:O·M·皮雷斯多斯雷斯莫雷拉A·奥古斯泰恩B·德奥里维拉卡斯特鲁普佩W·F·D·耶德马P·F·霍根迪克W·C·马尔伦
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1