【技术实现步骤摘要】
基于共享紧耦合的通用型计算加速器
[0001]本申请涉及芯片领域,特别涉及一种基于共享紧耦合的通用型计算加速器
。
技术介绍
[0002]在现代信息工业中,从超算到多媒体到人工智能
(AI)
,许多应用或算法都需用通用计算能力
。
目前业界通常的解决方案是基于独立的
CPU
和独立的加速器,比如用
GPU
来配合计算
。
一般通用
CPU
完成控制流程和部分小规模通用计算,而
GPU
完成复杂的并行计算,二者的中间结果在主机内存共享,然后再由
CPU
完成最后的计算
。
[0003]上述的这种计算过程中,两个计算组件
(CPU
和
GPU)
独立工作,分别完成各自的计算功能,且需要在两者之间传送大批数据,而这个传输一般基于芯片级的总线进行,因为带宽和端口的限制大大降低了总体的计算效率
。
此外,这种分开独立计算的数据缓存能力较差,数据交互和缓存会影响系统响应速度
。
技术实现思路
[0004]本申请提供一种基于共享紧耦合的通用型计算加速器,解决多处理芯片之间数据交互导致缓存和计算效率低下的问题
。
该通用型计算加速器包括阵列式加速内核
、
若干核外缓冲器和加速控制器;所述核外缓冲器设置在所述阵列式加速内核与所述加速控制器之间,并通过高速总线与两者连接;所述加速控制器 ...
【技术保护点】
【技术特征摘要】
1.
一种基于共享紧耦合的通用型计算加速器,其特征在于,包括阵列式加速内核
、
若干核外缓冲器和加速控制器;所述核外缓冲器设置在所述阵列式加速内核与所述加速控制器之间,并通过高速总线与两者连接;所述加速控制器根据加速任务确定阵列式内核的计算量和源数据,向所述核外缓冲器发送数据流和控制指令;控制指令用于控制所述阵列式内核中的目标加速内核执行加速任务;所述核外缓冲器接收所述加速控制器发送的控制指令与数据流,将其分发到所述目标加速内核中,并暂存所述阵列式加速内核返回的结果数据;所述阵列式加速内核包括若干阵列分布的加速内核,每个加速内核与阵列中四个邻近的加速内核通过高速总线通信连接,相互传递结果数据;其中分配加速任务的所述目标加速内核根据控制指令和数据流执行矩阵加速和
/
或矢量加速任务,并将结果数据回传至对应的所述核外缓冲器
。2.
根据权利要求1所述的基于共享紧耦合的通用型计算加速器,其特征在于,所述核外缓冲器分为数据输出缓冲器
、
数据输入缓冲器和程序缓冲器,且分别通过高速总线与所述加速内核及所述加速控制器连接;所述程序缓冲器接收所述加速控制器下发的控制指令,并转发至所述目标加速内核;所述数据输入缓冲器接收所述加速控制器下发的源数据,并根据控制指令将其发送至所述目标加速内核;所述数据输出缓冲器接收所述目标加速内核计算的结果数据并缓存后回传至所述加速控制器
。3.
根据权利要求2所述的基于共享紧耦合的通用型计算加速器,其特征在于,所述加速内核包括矢量加速器
、
矩阵加速器
、
标量
CPU
核心
、
核内
DMA
控制器及核内缓冲器;其中的所述矢量加速器与所述标量
CPU
核心耦合构成
CPU
加速内核,并与所述矩阵加速器
、
所述
DMA
控制器及所述核内缓冲器连接,所述矩阵加速器连接在所述
CPU
加速内核与所述核内缓冲器之间;所述标量
CPU
内核基于
RISCV
指令架构,基于控制指令控制所述矢量加速器心执行矢量加速运算,和
/
或控制所述矩阵加速器心执行矩阵加速运算;所述核内
DMA
控制器通过高速总线与相邻四个邻近加速内核的核内
DMA
控制器连接,形成
DMA
控制网络,并根据控制指令及数据流控制所述核内缓冲器交互与所述
CPU
加速内核及所述矩阵加速器进行数据交互和缓冲
。4.
根据权利要求3所述的基于共享紧耦合的通用型计算加速器,其特征在于,所述
CPU
加速内核内还包括数据缓存
DCache、
指令缓存
ICache、
控制寄存器和状态寄存器;
DCache
缓存从所述核内缓冲器搬运的数据流,
ICache
缓存执行矩阵加速和
/
或矢量加速的控制指令;所述控制寄存器用于控制所述标量
CPU
核心启动或结束加速任务,所述状态寄存器表征所述标量
CPU
核心的运行状态,并输出
CPU
状态信号至
DMA
控制网络
。5.
根据权利要求4所述的基于共享紧耦合的通用型计算加速器,其特征在于,所述核内缓冲器为<...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:深存科技无锡有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。