图像处理引擎及包含图像处理引擎的图像处理系统技术方案

技术编号:2946143 阅读:214 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种用处理器来进行图像处理的情况下的降低功率技术。为此,例如在指令的操作数中设有指定二维的源寄存器和目的寄存器的部分,具有在多个周期中使用多个源寄存器来执行运算、得到多个目的的单元。此外,在利用多个源寄存器花费多个周期来得到目的的指令中,将数据舍入运算器连接在流水线的最后一级上。通过这些结构,例如通过减少存取指令存储器的次数,来减少读出指令存储器时消耗的功率。

【技术实现步骤摘要】


涉及图像处理引擎及包含图像处理引擎的图像处理系统,特别涉及用总线连接CPU和直接存储器存取控制器的图像处理引擎及包含图像处理引擎的图像处理系统。
技术介绍
随着半导体工艺的微细化,在1个LSI上实现大规模系统的SOC(系统芯片)化或在1个封装内搭载多个LSI的SIP(系统级封装)等技术成为主流。通过该逻辑的大规模化,如在嵌入式用途中看到的那样,能够在1个LSI内安装CPU核心和图像编解码加速器或大规模DMAC模块等完全不同的功能。此外,半导体工艺的微细化使LSI稳态下的漏电流增加,漏电流造成的功耗的增加成为问题。近年来,通过停止向未使用模块供给时钟、或切断供给电源等,来实现功耗减少。这些降低功率是睡眠等待机状态时的降低功率。另一方面,在用便携终端等来视听图像的情况下,LSI内的大致全部模块以稳态工作,所以不能采用上述待机状态时的降低功率手法。稳态时的功耗与工作频率、逻辑量、晶体管的激活率、及供给电压的平方成正比。因此,降低功率可以通过减小这些要素来实现。为了降低工作频率,可以通过用并行化等增加1个周期中处理的处理量来实现。它倾向于增加所需的逻辑量,增加功耗,但是能够低速工作,能够减少时序关键路径,所以能够降低供给电压,随之能够减少功耗。因此,近年来,与提高工作频率相比,SIMD型ALU、或多处理器等通过提高并行度来降低功率成为主流。(日本)特开2000-57111号公报示出了SIMD型ALU。它通过使运算器并行工作来增加1个周期中运算的处理量,结果,实现了工作频率减少。在图像处理等对每个像素实施同一运算的情况下,该SIMD型ALU很有效。(日本)特开2000-298652号公报示出了多处理器。它通过共享多处理器使用的指令存储器,减少指令存储器的总逻辑量,实现了功率降低。(日本)特开2001-100977号公报示出了VLIW型CPU。VLIW通过并行布置运算器,使其并行工作,来减少所需处理周期,实现了功率降低。专利文献1(日本)特开2000-57111号公报专利文献2(日本)特开2000-298652号公报专利文献3(日本)特开2001-100977号公报在专利文献1中,公开了SIMD型ALU。一般的图像处理是对整个二维的块实施同一运算的算法。在用SIMD型ALU来实现它的情况下,每个周期供给只有通用寄存器的读寄存器号和写寄存器号不同的同一指令。这意味着每个周期取指令,必须每个周期存取保存着指令的存储器。存储器消耗的功率在整个LSI的功耗中所占的比例比较高。因此,每个周期读出指令存储器使功耗增加。此外,SIMD型ALU是对有限的输入数据进行运算的结构。例如,在进行纵向的卷积运算等的情况下,用多个指令串来进行各元素的运算,最后将各运算结果相加。在考虑进位的情况下,进行作为预处理的位扩展、或作为后处理的舍入处理等,对于实际的卷积运算,造成处理周期增大。因此,需要高的工作频率,功耗提高。在专利文献2中,公开了通过减少多处理器的面积来降低功率。根据该文献,只有进程工作着的处理器才存取共享指令存储器。因此,在多个处理器中进程同时工作着的情况下,发生指令存储器存取竞争,处理器的工作效率显著降低,发生性能降低。这样,处理器的指令供给依赖于指令存储器存取,消耗的功率的比率也很大。在专利文献3中,公开了VLIW型CPU。根据该方式,随着使并行工作的运算器数增加,1个周期中读出的指令数也增加,功耗很大。此外,寄存器的端口数与运算器数成正比来增加,面积成本很大,这也使功耗增大。
技术实现思路
因此,在本申请中,提供用处理器来进行图像处理的情况下的降低功耗技术。例如在指令的操作数中设有指定二维的源寄存器和目的寄存器的部分,具有在多个周期中使用多个源寄存器来执行运算、得到多个目的的单元。此外,在利用多个源寄存器花费多个周期来得到目的的指令中,将数据舍入运算器连接在流水线的最后一级上。此外,将多个CPU串联连接,共享地使用共享型的指令存储器。此时,在各CPU的指令操作数中,具有用于控制相邻的CPU间的同步的字段,设有进行同步化控制的部件。通过这些结构,例如通过减少存取指令存储器的次数,来减少读出指令存储器时消耗的功率。此外,通过减少指令数和共享指令存储器,通过减少指令存储器的总容量,来减少晶体管的充放电数,实现功耗降低。附图说明图1是本实施例的嵌入式系统的框图。图2是本实施例的图像处理部6的框图。图3是本实施例的移位型总线50的框图。图4是本实施例的移位寄存器槽500的框图。图5是本实施例的移位型总线50的时序图。图6是本实施例的图像处理引擎66的框图。图7是本实施例的运算的一例。图8是本实施例的CPU部30的框图。图9是本实施例的生成用于控制由指令译码部303生成的寄存器文件304的读出端口和写入端口的控制线308、和数据存储器35的存取地址45的流程图。图10是本实施例的指令存储器控制部32的框图。图11是本实施例的数据存储器控制部33的框图。图12是本实施例的局部DMAC 34的框图。图13是本实施例的数据路径部36的框图。图14是第2实施例的图像处理部66的框图。图15是第2实施例的矢量运算部46的框图。图16是第2实施例的指令存储器控制部47的框图。图17是本实施例的用于说明输入同步的停止(stall)条件的图。图18是本实施例的用于说明输出同步的停止条件的图。图19是本实施例的用于说明图像处理引擎间同步的停止条件的图。图20是第3实施例的图像处理引擎66内布置的CPU部的结构图。图21是用于说明内积运算的例子的图。图22是现有的SIMD型运算器的结构。图23是本实施例的运算器的结构图。图24是用于说明伴随转置的内积运算的例子的图。图25是用于说明卷积运算的例子的图。图26是本实施例的运算器的结构图。具体实施例方式以下,用图来说明本专利技术的实施例。实施例1参照附图来详细说明本专利技术的第1实施例。图1是本实施例的嵌入式系统的框图。本嵌入式系统将下述部分相互连接在内部总线9上CPU1,进行系统的控制和通用性处理;流处理部2,进行MPEG等图像编解码器的1项处理即流处理;图像处理部6,与流处理部2合作来进行图像编解码器的编码和解码;声音处理部3,进行AAC或MP-3等声音编解码器的编码和解码;外部存储器控制部4,控制由SDRAM等构成的外部存储器20的存取;PCI接口5,用于与标准总线即PCI总线22相连;显示控制部8,控制图像显示;以及DMA控制器7,对各种IO设备进行直接存储器存取。在DMA控制器7上,经DMA总线10连接着各种IO设备。在IO设备上,连接着摄像机等输入NTSC信号等的图像的图像输入部11、输出NTSC等图像的图像输出部12、话筒等输入声音的声音输入部13、扬声器或进行光输出等的声音输出的声音输出部14、遥控器等进行串行传送的串行输入部15、串行输出部16、TCI总线等用于输入流的流输入部17、硬盘等用于输出流的流输出部18及各种IO设备19。在PCI总线22上,连接着硬盘或闪速存储器等各种PCI设备23。在显示控制部8上,连接着显示设备即显示器21。图像处理部6是对二维图像实施图像编解码或图像的放大缩小、或图像的滤波等处理的处理部。这样,本嵌入式系统是具有图像和声音的输入输出、进行图像和本文档来自技高网
...

【技术保护点】
一种图像处理引擎,具备指令存储器、数据存储器以及CPU,其中,上述CPU进而具有指令译码器、通用寄存器以及运算器;上述CPU的指令操作数具有指定数据宽度及表示高度方向的数据计数值的字段、表示保存有运算处理中使用的数据的通用寄 存器的起点的源寄存器指针、以及表示保存运算结果的通用寄存器的起点的目的寄存器指针;具有如下的单元,该单元根据上述数据宽度、上述数据计数值、上述源寄存器指针以及上述目的寄存器指针,在每个周期依次生成所存取的上述源寄存器的地址及上述目的 寄存器的地址;通过将从上述源寄存器中读出的数据投入到上述运算器中并执行运算,将得到的运算结果依次保存到上述目的寄存器中,由此用一个指令花费多个周期来进行多个运算。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:细木浩二江浜真和中田启明岩田宪一望月诚二汤浅隆史小林幸史柴山哲也植田浩司升正树
申请(专利权)人:株式会社瑞萨科技
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1