粗粒度可重配置计算结构中数据输入输出结构制造技术

技术编号:2918995 阅读:144 留言:0更新日期:2012-04-11 18:40
粗粒度可重配置计算结构中数据输入输出结构包括:分散功能DEMUX模块、合并功能MERGE模块、RAM功能控制器、地址发生器、RAM和交叉条C1、C2、C3,交叉条C1为DEMUX模块选择输入的数据总线,被C1选中后的数据输入到DEMUX模块,经DEMUX模块分散控制后的数据输入处理单元阵列PEA进行处理;从处理单元阵列PEA输出的多路数据总线经MERGE合并为一条数据总线输出,此数据通过交叉条C2控制后输出,或通过交叉条C3控制,输入到RAM或者输出数据到相邻PEA;地址发生器和RAM功能控制器为正确执行写入及读出RAM中数据操作产生必须的地址信息和控制信号;从RAM中读出的数据允许通过交叉条C3的控制,反馈到交叉条C1或者输出数据到相邻PEA。本发明专利技术利于映射算法中数据的输入输出,同时又减少了输入输出端口。

【技术实现步骤摘要】

本专利技术涉及一种数据输入输出结构,特别是粗粒度可重配置计算结构中数据输入输出端口的设计结构。
技术介绍
可配置计算又称为自适应计算,是由多个具有可重配置功能的处理单元(PE)和可以配置不同数据传递方向的连接线路一起构成的数据处理结构。目前,可配置计算主要分为两类细粒度配置和粗粒度配置。细粒度配置计算主要是指现场可编程逻辑门阵列FPGA,它在数字芯片开发和系统设计等方面应用非常广泛,但由于细粒度的原因,其实际逻辑单元仅占到实际芯片面积的10%,其余被开关、RAM、布线网络所占有,功耗和工作频率都不是非常理想,在处理一些规则运算,如乘法时效率不高。相对的,粗粒度可配置计算的粒度一般为8,16,32位等,非常适合进行算法级操作。进入上世纪90年代,随着超大规模集成电路VLSI技术的发展,以可编程开关(program switch)为基础的粗粒度可配置计算结构不断被开发出来,并在图像滤波、特征提取、目标识别与跟踪、通讯算法等方面展示出了非凡的性能与潜力。表1列出的是国外大学中部分粗粒度可配置计算项目技术总结。表1 现有项目技术总结 在这些项目中,虽然内部涉及的可重配置处理单元结构和功能各不相同,但由相应处理单元构成阵列的数据输入/输出结构却可大致分为两类(1)通过全局总线控制器或者交叉条(crossbar)实现可重配置处理单元阵列与外部的输入输出端口连接。在这种方式下,结构允许根据不同的配置需要,将某个处理单元中数据总线与外部端口相连。采用这种方式的结构主要有PADDI-1,PADDI-2,REMARC,COLT,KressArray,PipeRench。(2)可重配置处理单元自身的数据输入/输出总线直接与外部接口相连。采用这种方式的结构主要有GarP,RAW,MorphoSys,CHESS,RaPiD。对于这两种实现方式,都存在各自的不足。对于第一种方式,根据全局总线控制器或者交叉条的控制,外部端口与处理单元阵列中内部某个处理单元数据总线相连,外部端口数据通过此处理单元输入/输出。但面对类似下面的情况,如按顺序串行输入的数据每三个分为一组(a,b,c),在处理单元阵列映射(a*b+c)功能时,这种输入输出结构则无法完成。对于第二种结构设计方式,由于是直接将处理单元的数据引出,外部接口所需的位宽将随着输出数据总线的处理单元数目和数据总线的位宽的增加而增加。以16位MorphoSys为例,它的8*8处理单元阵列与微处理器的接口需要256位,如果处理单元阵列改为12*12,则与微处理器的接口需要384位,这使得接口部分所占芯片面积和控制复杂度增加。
技术实现思路
本专利技术的技术解决问题克服现有技术的不足,提供一种粗粒度可重配置计算结构中数据输入输出结构,既利于映射算法中数据的输入输出,又减少了输入输出端口。本专利技术的技术解决方案粗粒度可重配置计算结构中数据输入输出结构,包括分散功能DEMUX模块、合并功能MERGE模块、RAM功能控制器、地址发生器、RAM和交叉条C1、C2、C3;交叉条C1为DEMUX模块选择输入的数据总线,被选的数据总线包括输入数据总线、相邻PEA数据输入和RAM输入数据,被C1选中后的数据输入到DEMUX模块,经DEMUX模块分散控制后的数据输入处理单元阵列PEA进行处理;从处理单元阵列PEA输出的多路数据总线经MERGE模块合并为一条数据总线输出,此数据通过交叉条C2控制后输出数据总线,或通过交叉条C2和交叉条C3的联合控制输入到RAM或者输出数据到相邻PEA;地址发生器和RAM功能控制器为正确执行RAM中数据操作产生必须的地址信息和控制信号;RAM读出的数据允许通过交叉条C3的控制,传递到交叉条C1或者输出数据到相邻PEA。本专利技术与现有技术相比的优点在于(1)由于存在合并和分散功能模块后,将N+1个数据总线中的数据合并于一条数据总线中输入输出,可明显减少外部端口数量。(2)输入数据经分散功能模块输入后,顺序输入的数据可分配给不同的处理单元,同时开始处理,能够实现类似下面的情况;输入数据每三个分为一组(a,b,c),在处理单元阵列中映射(a*b+c)功能。(3)处理单元阵列PEA输出的数据经合并功能模块后,多个输入数据允许从一条输出数据总线中顺序输出,便于进行RAM操作。(4)本专利技术采用由交叉条控制的数据传递路径,方便灵活,不但能够实现数据到处理单元阵列的输入输出,而且能够实现数据在处理单元阵列间的传递;同时,能够为接口结构中RAM内读出的数据建立一条输入处理单元阵列的数据路径。(5)本专利技术的地址发生器中将DMA功能集成于接口结构之中,加快了数据的输入和输出,利于数据流的处理,充分发挥配置计算的优势。附图说明图1为本专利技术的结构框图;图2为本专利技术中的分散功能DEMUX结构图;图3为本专利技术的分散功能DEMUX模块顺序接收4个输入数据时的功能示意图;图4为本专利技术的合并功能MERGE模块结构图;图5为本专利技术的合并功能MERGE模块合并4路输入数据功能示意图;图6为本专利技术的RAM功能控制器结构框图;图7为本专利技术的地址发生器结构框图;图8为专利技术采用的交叉条结构示意图;图9为专利技术的路径控制示意图。具体实施例方式如图1所示,本专利技术主要由分散功能DEMUX模块、合并功能MERGE模块、RAM功能控制器、地址发生器、RAM和交叉条C1、C2、C3组成。在图1中,各外部接口信号线分别定义为●‘相邻PEA数据输入’-表示相邻PEA输入到此输入输出接口结构的数据总线;●‘输出数据到相邻PEA’-表示此输入输出接口结构向相邻PEA输出的数据总线;●‘输出数据总线’-为此接口结构向外部输出的数据总线;●‘输入数据总线’-为外部向此接口结构输入的数据总线;●‘地址总线’-为此接口结构读取外部数据随机存储器(SRAM)时必需的地址总线; ●RD、WR-为此输入/输出结构读写外部RAM数据提供控制信号。交叉条C1、C2、C3控制数据传递路径,为功能模块选择合理的输入数据总线和输出数据方向,交叉条C1为DEMUX模块选择输入的数据总线,被选的数据总线包括输入数据总线、相邻PEA数据输入和RAM输入数据,被C1选中后的数据输入到DEMUX模块,经DEMUX模块分散控制后的数据输入处理单元阵列PEA进行处理;从处理单元阵列PEA输出的多路数据总线经MERGE模块合并为一条数据总线输出,此数据通过交叉条C2控制后输出,或通过交叉条C3,输入到RAM或者输出数据到相邻PEA;地址发生器和RAM功能控制器为正确执行RAM中数据操作产生必须的地址信息和控制信号,针对RAM的数据操作主要有DMA方式读,DMA方式写,和根据输入的地址数据进行读操作,针对RAM的控制信号包括数据写入控制信号WR和数据读出控制信号RD;RAM读出的数据通过交叉条C3的控制,反馈到交叉条C1或者输出数据到相邻PEA,成为RAM输入数据。如图2所示,本专利技术中的分散功能DEMUX模块由数据计数器、配置代码寄存器、数据存储位置表、N+1个译码器、N+1个数据寄存器、最大计数值寄存器、路由选通电路单元组成。配置代码寄存器作用是预先存储配置数据,分为两部分高(m+1)比特作为第一部分,其余的4×(N+1)比特,每4比特一组,作为第二部分,其本文档来自技高网
...

【技术保护点】
粗粒度可重配置计算结构中数据输入输出结构,其特征在于包括:分散功能DEMUX模块、合并功能MERGE模块、RAM功能控制器、地址发生器、RAM和交叉条C1、C2、C3;交叉条C1为DEMUX模块选择输入的数据总线,被选的数据总线包括:输入数据总线、相邻PEA数据输入和RAM输入数据,被C1选中后的数据输入到DEMUX模块,经DEMUX模块分散控制后的数据输入处理单元阵列PEA进行处理;从处理单元阵列PEA输出的多路数据总线经MERGE模块合并为一条数据总线输出,此数据通过交叉条C2控制后输出数据总线,或通过交叉条C2和交叉条C3的联合控制输入到RAM或者输出数据到相邻PEA;地址发生器和RAM功能控制器为正确执行RAM中数据操作产生必须的地址信息和控制信号;RAM读出的数据通过交叉条C3的控制,传递到交叉条C1或者输出数据到相邻PEA。

【技术特征摘要】

【专利技术属性】
技术研发人员:宋立国
申请(专利权)人:北京时代民芯科技有限公司中国航天时代电子公司第七七二研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1