当前位置: 首页 > 专利查询>南京大学专利>正文

一种支持多精度计算及动态配置的向量处理器及处理方法技术

技术编号:37237694 阅读:35 留言:0更新日期:2023-04-20 23:19
本发明专利技术提供的向量处理器以及数据处理方法,在处理器通道内加入了脉动阵列加速单元,用于实现向量之间的计算。充分利用了原架构上的存储单元,增大了数据吞吐量,实现较多向量数据的之间的计算,使得脉动阵列加速器的加速效果得到充分利用,计算利用率得到大幅提高。脉动阵列加速器可以支持多精度及超低比特量化计算,提高向量计算的效率,同时向量处理器的并行性和可拓展性可以极大地提高数据计算密度,从而实现算力的有效提升。从而实现算力的有效提升。从而实现算力的有效提升。

【技术实现步骤摘要】
一种支持多精度计算及动态配置的向量处理器及处理方法


[0001]本申请涉及集成电路及通信
,特别涉及一种支持多精度计算及动态配置的向量处理器及处理方法。

技术介绍

[0002]神经网络模型中通常都包括大量的网络层,每一个网络层都存在权重矩阵与激活矩阵之间的卷积操作,其中权重矩阵中包含大量的权重数据,激活矩阵中包含大量的激活数据。在进行卷积操作时,一般会将卷积操作转化成矩阵乘法,然后使用矩阵乘法处理器进行计算,进而获得卷积操作的结果。
[0003]矩阵乘法处理器通常包括多个基本运算单元,这些基本运算单元排布成脉动阵列,多个权重数据和激活数据在时钟信号的控制下广播至脉动阵列中,整个矩阵乘法运算流程通过控制信号控制每一个基本运算单元不断的对接收到的权重数据和激活数据进行乘法累加运算实现。
[0004]随着深度神经网络的发展,矩阵乘加计算逐渐成为处理器重点关注的计算部分。现如今的矩阵乘加计算大多数利用算术逻辑运算单元实现,算术逻辑单元每周期只能进行单个固定宽度的数据进行计算,无法充分利用矩阵乘加计算的计算能力。导致了现有的采用算术逻辑单元实现的矩阵乘加计算算法计算效率较低,数据利用率低。从现有方案来看,瓶颈在于当前的硬件架构只能实现串行的向量与标量之间的计算,其本质还是标量与标量的计算,从而导致计算架构的计算利用率不能达到理想水平因此,如何利用有限的资源更好的设计实现矩阵乘加计算的硬件单元成为了亟待解决的问题。

技术实现思路

[0005]本申请提供了一种支持多精度计算及动态配置的向量处理器及处理方法,可用于解决计算利用率低的技术问题。
[0006]第一方面,本申请实施例提供一种支持多精度计算及动态配置的向量处理器,包括:
[0007]控制模块,所述控制模块用于接收外部传入的操作指令,以及对操作指令进行解析,得到向量计算指令和向量存储加载指令,以及确定所述向量计算指令发送的功能单元;
[0008]加载存储模块,所述加载存储模块用于根据所述向量存储加载指令,从外部加载待处理数据;
[0009]扩展通道模块,所述扩展通道模块包括通道存储单元和脉动阵列加速单元,所述通道存储单元用于存储所述待处理数据,所述脉动阵列加速单元用于根据所述向量计算指令从所述通道存储单元中获取对应数据进行向量之间的计算,并将计算结果返回所述通道存储单元进行存储;所述通道存储单元中存储的计算结果通过所述加载存储模块向外部传输。
[0010]结合第一方面,在第一方面的一种可实现方式中,所述控制模块包括指令分发单
元和主定序单元,所述指令分发单元接收外部传入的操作指令,对操作指令进行处理后识别出操作指令的种类和对应的功能单元并将操作指令传入所述主定序单元,所述主定序单元向所有功能单元广播指令,并监控指令的运行状态。
[0011]结合第一方面,在第一方面的一种可实现方式中,所述扩展通道模块包括通道指令定序单元、所述通道存储单元和若干计算处理单元,所述计算处理单元包括所述脉动阵列加速单元。
[0012]结合第一方面,在第一方面的一种可实现方式中,所述通道存储单元包括向量寄存器文件和操作数队列,所述向量寄存器文件用于提供功能单元的操作数并吸收其结果,所述操作数队列连接所述计算处理单元和所述向量寄存器文件,用于分配各个所述计算处理单元的操作数。
[0013]结合第一方面,在第一方面的一种可实现方式中,所述向量寄存器文件包括若干存储体和仲裁单元,所述存储体为单端口,位宽设为64位,每个所述向量寄存器文件内设有8个存储体用于加载和输送待处理数据及计算结果,所述仲裁单元用于调配各操作指令的优先级。
[0014]结合第一方面,在第一方面的一种可实现方式中,所述通道指令定序单元用于向所述扩展通道模块内各功能单元发送操作指令,并发起从所述向量寄存器文件中读取操作数的请求。
[0015]结合第一方面,在第一方面的一种可实现方式中,所述脉动阵列加速单元接受到从所述向量寄存器文件读取数据请求后,将待处理数据自动按顺序输入缓存,并在加载结束后根据输入模式判断是否开始计算,计算结果自动存入输出缓冲区内,等待指令将结果输出回所述向量寄存器文件中。
[0016]结合第一方面,在第一方面的一种可实现方式中,所述操作指令为自定义指令,所述自定义指令均为向量指令,包括所述向量计算指令、向量加载指令和向量储存指令,所述自定义指令中包括目标地址信息和动作信息;所述自定义指令从外部输入向量处理器中进行处理。
[0017]结合第一方面,在第一方面的一种可实现方式中,所述加载存储模块数据加载单元和数据存储单元,所述数据加载单元通过AXI AR总线加载数据,所述数据存储单元AXI AW总线用于存储数据。
[0018]第二方面,本申请实施例提供一种支持多精度计算及动态配置的数据处理方法,包括,
[0019]控制模块接收外部传入的操作指令;
[0020]控制模块对操作指令进行解析,得到向量计算指令和向量存储加载指令,以及确定所述向量计算指令发送的功能单元;
[0021]加载存储模块根据所述向量存储加载指令,从外部加载待处理数据;
[0022]扩展通道模块中的脉动阵列加速单元根据向量计算指令,从通道存储单元中获取对应数据进行向量之间的计算,并将计算结果返回所述通道存储单元进行存储;所述通道存储单元中存储的计算结果通过所述加载存储模块向外部传输。
[0023]本专利技术提供的向量处理器以及数据处理方法,在处理器通道内加入了脉动阵列加速单元,用于实现向量之间的计算。充分利用了原架构上的存储单元,增大了数据吞吐量,
实现较多向量数据的之间的计算,使得脉动阵列加速器的加速效果得到充分利用,计算利用率得到大幅提高。脉动阵列加速器可以支持多精度及超低比特量化计算,提高向量计算的效率,同时向量处理器的并行性和可拓展性可以极大地提高数据计算密度,从而实现算力的有效提升。
附图说明
[0024]图1为实施例1中的向量处理器框架结构示意图;
[0025]图2为实施例2中的向量处理器框架结构示意图;
[0026]图3为实施例2中的扩展通道模块的框架图;
[0027]图4为脉动阵列加速单元的工作原理图;
[0028]图5为传统乘法树架构和脉动阵列对存储带宽利用率的比较示意图;
[0029]图6为向量计算指令的组成示意图;
[0030]图7为向量存储和加载指令的组成示意图;
[0031]图8为实施例2中的指令运行过程中数据处理流程图;
[0032]图9为实施例3中方法的流程图。
[0033]100、控制模块;200、扩展通道模块;300、加载存储模块;
[0034]101、指令分发单元;102、主定序单元;
[0035]201、通道存储单元;202、计算处理单元;203、通道指令定序单元;
[0036]201a、向量寄存器文件;201b、操作数队列;
[0037]202本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种支持多精度计算及动态配置的向量处理器,其特征在于,包括:控制模块(100),所述控制模块(100)用于接收外部传入的操作指令,以及对操作指令进行解析,得到向量计算指令和向量存储加载指令,以及确定所述向量计算指令发送的功能单元;加载存储模块(300),所述加载存储模块(300)用于根据所述向量存储加载指令,从外部加载待处理数据;扩展通道模块(200),所述扩展通道模块(200)包括通道存储单元(201)和脉动阵列加速单元(202a),所述通道存储单元(201)用于存储所述待处理数据,所述脉动阵列加速单元(202a)用于根据所述向量计算指令从所述通道存储单元(201)中获取对应数据进行向量之间的计算,并将计算结果返回所述通道存储单元(201)进行存储;所述通道存储单元(201)中存储的计算结果通过所述加载存储模块(300)向外部传输。2.根据权利要求1所述的支持多精度计算及动态配置的向量处理器,其特征在于:所述控制模块(100)包括指令分发单元(101)和主定序单元(102),所述指令分发单元(101)接收外部传入的操作指令,对操作指令进行处理后识别出操作指令的种类和对应的功能单元并将操作指令传入所述主定序单元(102),所述主定序单元(102)向所有功能单元广播指令,并监控指令的运行状态。3.根据权利要求1所述的支持多精度计算及动态配置的向量处理器,其特征在于:所述扩展通道模块(200)包括通道指令定序单元(203)、所述通道存储单元(201)和若干计算处理单元(202),所述计算处理单元(202)包括所述脉动阵列加速单元(202a)。4.根据权利要求3所述的支持多精度计算及动态配置的向量处理器,其特征在于:所述通道存储单元(201)包括向量寄存器文件(201a)和操作数队列(201b),所述向量寄存器文件(201a)用于提供功能单元的操作数并吸收其结果,所述操作数队列(201b)连接所述计算处理单元(202)和所述向量寄存器文件(201a),用于分配各个所述计算处理单元(202)的操作数。5.根据权利要求4所述的支持多精度计算及动态配置的向量处理器,其特征在于:所述向量寄存器文件(201a)包括若干存储体和仲裁单元(201a

2),所述存储体为单端口,位宽设为64位,每个所述向量寄存器文件(...

【专利技术属性】
技术研发人员:林军王川宁方超王中风
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1