支持标向量协同工作的向量SIMD运算结构制造技术

技术编号:12954748 阅读:51 留言:0更新日期:2016-03-02 14:04
本发明专利技术公开了一种支持标向量协同工作的向量SIMD运算结构,其包括:统一取指和指令派发部件,用来同时为标量处理单元SPU、向量处理单元VPU和向量阵列存储器AM派发指令;标量处理单元SPU,用来负责串行任务的处理,以及对向量处理单元VPU执行的控制;向量处理单元VPU,用来负责计算密集的并行任务处理;向量阵列存储器AM,用来为并行与多宽度的向量运算提供数据及搬移支持;DMA单元,用来为标量处理单元SPU、向量处理单元VPU提供指令和数据。本发明专利技术能够提高整体的执行效率和并行性。

【技术实现步骤摘要】

本专利技术主要涉及到微处理器结构与设计领域,特指一种支持标向量协同工作的向 量sn?运算结构。
技术介绍
数字信号处理器(DigitalSignalProcessor,DSP)作为一种典型的嵌入式微处 理器被广泛应用于嵌入式系统中,它以其数据处理能力强大、可编程性好、使用灵活和低功 耗等特点,给信号处理的发展带来了巨大机遇,其应用领域拓展到军事、经济发展的各个方 面。在现代通信、图像处理和雷达信号处理等应用领域,随着数据处理量加大,对计算精度 和实时性要求的增加,通常需要使用更高性能的微处理器进行处理。 区别于传统的CPU,DSP具有以下特点:(1)计算能力强,关注实时计算胜于关注控 制和事务处理;(2)对于典型信号处理设有专门硬件支持,如乘加运算、线性寻址;(3)嵌入 式微处理器的共性特征:地址和指令通路不多于32位,多数数据通路不多于32位;非精确 中断;短期离线调试、长期在线驻留运行的程序工作方式(而非通用CPU调试即运行的方 法);(4)集成外设接口以快速外设为主,特别利于在线收发高速AD/DA数据,也支持DSP间 高速直连。 通用科学计算需要高性能的DSP,然而传统DSP用于科学计算时有以下缺点:(1) 位宽小,使得计算精度和寻址空间不足。通用科学计算应用至少需要64位精度;(2)缺乏 任务管理、文件控制、进程调度、中断管理等软硬件支持,或者说缺乏操作系统硬件环境,给 通用、多道计算任务管理带来不便;(3)缺乏统一高级语言编程模式的支持,对多核、向量、 数据并行等的支持基本依靠汇编程序编程,不便于通用编程;(4)不支持本地宿主的程序 调试模式,仅依靠它机交叉调试仿真。这些问题严重限制了DSP在通用科学计算领域的应 用。 有从业者提出了一种"通用计算数字信号处理器"(GPDSP),这是一种既保持嵌入 式DSP基本特征和高性能低功耗的优势,又高效支持通用科学计算的新型体系结构一一多 核微处理器(GPDSP)。该结构能够克服一般DSP用于科学计算的上述问题,可同时提供对 64位高性能计算机和嵌入式高精度信号处理的高效支持。该结构具有如下特征:(1)具有 双精度浮点和64位定点数据的直接表示,通用寄存器、数据总线、指令位宽64位以上,地址 总线40位以上;(2)CPU与DSP异构多核紧密耦合,CPU核支持完整操作系统,DSP核的标量 单元支持操作系统微核;(3)考虑CPU核、DSP核及DSP核内向量阵列结构的统一编程模式; (4)保持它机交叉仿真调试,同时提供本地CPU宿主调试模式;(5)保留除位数之外的普通 DSP的基本特征。 另有从业者提出一种"具有开关矩阵存储器的数据混洗单元",其公开了一种数据 混洗单元实现结构及数据混洗方法,将程序中的混洗请求转化为开关矩阵存储器中的开关 矩阵,从而实现数据选择和重组。该混洗单元具有结构简单、灵活高效和任意节点混洗的特 点。GPDSP通常由多个同构64位处理单元组成处理阵列来获得较高浮点运算能力。然 而,GPDSP使用众多处理单元开发通用科学计算并行性时还存在如下几个问题:(1)如何组 织众多同构处理单元,使其高效开发通用科学计算中的多个层次的并行性;(2)如何有效 协调用于控制的标量运算单元和用于计算的向量运算单元;(3)如何对通用科学计算中的 矩阵类运算提供支持,利用矩阵类运算中的大量数据复用特性来提高对众多同构处理单元 的供数能力,进而提高GPDSP的计算效率。
技术实现思路
本专利技术要解决的技术问题就在于:针对现有技术存在的技术问题,本专利技术提供一 种能够提高执行效率和并行性的支持标向量协同工作的向量sn?运算结构。 为解决上述技术问题,本专利技术采用以下技术方案: -种支持标向量协同工作的向量SIMD运算结构,其包括: 统一取指和指令派发部件,用来同时为标量处理单元SPU、向量处理单元VPU和向 量阵列存储器AM派发指令; 标量处理单元SPU,用来负责串行任务的处理,以及对向量处理单元VPU执行的控 制; 向量处理单元VPU,用来负责计算密集的并行任务处理; 向量阵列存储器AM,用来为并行与多宽度的向量运算提供数据及搬移支持;DMA单元,用来为标量处理单元SPU、向量处理单元VPU提供指令和数据。 作为本专利技术的进一步改进:所述统一取指和指令派发部件在执行过程中采用可变 长的NSI+NVI发射VLIW指令结构,同时取指和派发NSI条标量指令和NVI条向量指令,这NSI+N" 条指令同时支持条件执行、中断和异常处理。 作为本专利技术的进一步改进:所述标量处理单元SPE由NSMM个MAC单元和NSIEU个定 点执行单元IEU组成,这NSI条流水线并行执行VLIW指令包中的NSI条标量指令,执行科学 应用中的串"?丁运算,其中NSI =NSMAC+NSIEU〇 作为本专利技术的进一步改进:所述向量处理单元VPU由NVPE个同构向量运算单元VPE 构成,在统一的指令流控制下对不同数据执行相同的操作,其中NVPE为2的幂次方。 作为本专利技术的进一步改进:所述向量运算单元VPE包含NVMM个MAC单元和N_,个 定点执行单元IEU,这NVI条流水线并行执行VLIW指令包中的NVI条向量指令,执行科学应 用中的并行运算,其中NVI=Nvmac+Nvieu。 作为本专利技术的进一步改进:所述向量运算单元VPE之间的数据交互通过规约网络 和混洗网络完成。 作为本专利技术的进一步改进:所述标量处理单元SPU与向量处理单元VPU和向量阵 列存储器AM之间各设计了一条64位的配置通路,通过MOV指令实现对向量处理单元VPU 和向量阵列存储器A中的全局控制配置寄存器的访问。 作为本专利技术的进一步改进:所述标量处理单元SPU与向量处理单元VPU之间还有 两条标量处理单元SPU到向量处理单元VPU的数据广播传递机制,分别支持单字广播指令 和双字广播指令;所述单字广播指令为:将SPU寄存器文件中的单字广播到NVPE个VPE的向量寄存 器中同一位置;执行的过程中对NVPE个VPE中的寄存器文件进行一次写操作,完成64*NVPE位 数据的传输; 所述双字广播指令为:将SPU寄存器文件中的一对数据Src_〇:Src_e广播到Nvpe 个VPE中的寄存器文件中的Dst_〇:Dst_e中,寄存器对使用偶数表示即VR0代表VR1 :VR0 ; 执行的过程中对NVPE个VPE中的寄存器文件进行一次写操作,完成128*NVPE位数据传输; 两条标向量广播通路并行执行双字广播操作能够实现256*NVPE位数据的传输。 与现有技术相比,本专利技术的优点在于: 1、本专利技术为一种适合多核微处理器GPDSP的标量和向量协同工作的紧親合向量 SIMD(SingleInstructionMultipleData-stream,单指令多数据流)运算结构。米用可 变长的多发射VLIW(VeryLargeInstructionWord,超长指令字)指令结构,同时取指派发 NSI条标量指令和NVI条向量指令,标量运算单元SPE和向量运算单元VPE同时执行VLIW中 并行指令。该运算结构中的向量运算单元包括NVPE(NVPE为2的幂次方)个同构向量运算单 元VPE,对不同数据执行相同的指令;SPE与VPE之间的数据交互通过寄本文档来自技高网
...
支持标向量协同工作的向量SIMD运算结构

【技术保护点】
一种支持标向量协同工作的向量SIMD运算结构,其特征在于,包括:统一取指和指令派发部件,用来同时为标量处理单元SPU、向量处理单元VPU和向量阵列存储器AM派发指令;标量处理单元SPU,用来负责串行任务的处理,以及对向量处理单元VPU执行的控制;向量处理单元VPU,用来负责计算密集的并行任务处理;向量阵列存储器AM,用来为并行与多宽度的向量运算提供数据及搬移支持;DMA单元,用来为标量处理单元SPU、向量处理单元VPU提供指令和数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈书明彭元喜雷元武万江华郭阳田甜彭浩徐恩
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1