【技术实现步骤摘要】
本专利技术属于计算机体系结构,具体涉及一种基于risc-v指令扩展的神经网络计算加速器。
技术介绍
1、随着人工智能技术的快速发展,基于自注意力机制的神经网络transformer模型架构在自然语言处理和计算机视觉方面取得了巨大成就。利用该模型进行推理时的显著特点为计算量巨大。为实现模型推理时的加速,需要采用处理器与加速器相结合的架构进行协同工作。加速器的相关研究现阶段更专注于模型中矩阵运算加速,各大厂商推出不同的加速器架构基本都用于加速矩阵类运算。非线性计算操作如softmax、layernorm运算赋予了transformer强大的表达能力,但也带来了计算复杂度挑战。
2、现有的加速器存在以下问题:1.进行矩阵运算时单条访存指令寻址空间小,进行大规模矩阵运算时产生指令条数多,指令解码、指令传输时间开销大,最终导致脉动阵列利用率低;2.除了矩阵运算,推理时也涉及到非线性计算。虽然非线性计算负载占比较小,但会涉及大量的访存操作,造成较大的时间开销,导致推理时间缓慢。现有的加速器对非线性计算支持不足,访存频繁、计算速度慢。
...【技术保护点】
1.一种基于RISC-V指令扩展的神经网络计算加速器,其特征在于,包括:扩展矩阵运算指令,以完成transformer推理时最常用的矩阵运算的加速;扩展向量运算指令并设计特殊向量运算单元,以完成推理时Softmax、LayerNorm非线性计算的加速;扩展具有大寻址空间的访存指令,以完成矩阵运算单元、特殊向量单元的数据供给;通过加速器周期模拟仿真,验证加速器功能正确性及评估其性能;具体包括:
2.根据权利要求1所述神经网络计算加速器,其特征在于,与矩阵运算相关的指令有:
3.根据权利要求1所述神经网络计算加速器,其特征在于,与Softmax计算
...【技术特征摘要】
1.一种基于risc-v指令扩展的神经网络计算加速器,其特征在于,包括:扩展矩阵运算指令,以完成transformer推理时最常用的矩阵运算的加速;扩展向量运算指令并设计特殊向量运算单元,以完成推理时softmax、layernorm非线性计算的加速;扩展具有大寻址空间的访存指令,以完成矩阵运算单元、特殊向量单元的数据供给;通过加速器周期模拟仿真,验证加速器功能正确性及评估其性能;具体包括:
2.根据权利要求1所述神经网络计算加速器,其特征在于,与矩阵运算相关的指令有:
3.根据权利要求1所述神经网络计算加速器,其特征在于,与softmax计算相关的指令有:用来更新最大值缓存的指令softmax.max;进行更新分母缓存的指令softmax.sum;利用最大值和分母进行最终的激活计算指令softmax.compute;清空所有缓存指令softmax.clear。
4.根据权利要求1所述神经网络计算加速器,其特征在于,用于加速非线性的softmax计算设计的softmax运算单元,包括最大值查找单元、最大值缓存单元以及softmax计算单元;最大值查找单元是为了防止数据溢出,当完成矩阵乘法之后,该单元接收到结果矩阵的数值,得到每一行特征矩阵的最大值,并暂存至最大缓存单元中;在进行softmax计算时,所在行的最大值从最大值缓存模块中获取,特征数据从片上缓存/累加器中获取,这些数据并行送至softmax运算模块,并行得到多个softmax值;每个时钟周期送入一批新的计算值,依次流入softmax运算模块,形成流水线,提高该模块的吞吐率。
5.根据权利要求4所述神经网络计算加速器,其特征在于,与layernorm计算相关的指令有:用来更新平均值和方差缓存的指令l...
【专利技术属性】
技术研发人员:曹伟,周学功,张逢喆,蔡成欢,侯慧,张帆,
申请(专利权)人:复旦大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。