一种基于FPGA模拟的阻变神经网络加速器评估方法技术

技术编号：27977432 阅读：28 留言：0更新日期：2021-04-06 14:12

本发明专利技术公开了一种基于FPGA模拟的阻变神经网络加速器评估方法，涉及存算一体体系结构领域，包括存算一体通用指令集的编译、架构模型的建立、加速器的软硬件实现以及深度神经网络的性能评估。为加快仿真速度，本文通过分析现有阻变神经网络加速器的架构通用性，利用FPGA资源的高度并行性和运行时指令驱动的灵活模拟方式，通过对有限硬件资源的分时复用，支持主流阻变神经网络加速器架构和指令集的功能模拟，并针对主流网络给出详尽的性能评估。相比传统的硬件模拟器，本发明专利技术可以在不修改硬件结构的前提下支持更多神经网络的映射和性能评估；相比传统的软件模拟器，针对深度神经网络，本发明专利技术大大缩短了仿真时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于FPGA模拟的阻变神经网络加速器评估方法
本专利技术涉及存算一体体系结构领域，尤其涉及一种基于FPGA模拟的阻变神经网络加速器评估方法。
技术介绍
忆阻器阵列集成计算和存储功能，常通过非易失性阻性随机访问存储(ReRAM)实现。在神经元结构中，突触可以根据在其两端的神经元的激励发生变化，在忆阻器阵列中可以在ReRAM两端外加电压来改变其电导值进行神经计算。利用ReRAM器件的特性，可以外加数字电压，将电压进行数模转换得到模拟电压值，加在器件两端的模拟电压和器件预编程的电导值通过欧姆定律和基尔霍夫定律计算得出流出器件的电流值，将电流值进行模数转换得到计算的数字结果，实现存算一体的功能。现阶段的存算一体神经网络加速器通常进行分层拓扑架构设计。有文献对存算一体神经网络加速器的架构进行Chip、Tile、IMA、Crossbar四层架构设计。Chip以集中网络的形式连接多个Tile；Tile通过多个共享总线连接多个IMA和累加器等功能单元；IMA通过共享总线连接多个Crossbar和数模转换器等功能单元。类似的，有文献提出类似的Chip、Tile、VMM、Crossbar的分层拓扑架构设计，数据可以在Tile间进行粗粒度的流水，减少Tile间不必要的数据流动。还有文献进行Node、Tile、Core的三层架构设计。特别的，Core包含多个流水的Crossbar运算单元和指令执行的流水线，数据在Core中和在Crossbar中都可以进行流水计算，提升内部访存带宽。现有的面向存算一体神经网络加速器将标量计...

【技术保护点】
1.一种基于FPGA模拟的阻变神经网络加速器评估方法，其特征在于，包括以下步骤：/n步骤1、架构设计；/n步骤2、指令集设计；/n步骤3、加速器硬件设计，硬件并行；/n步骤4、加速器软件库设计，通用指令集，软件调度分时复用方案。/n

【技术特征摘要】
1.一种基于FPGA模拟的阻变神经网络加速器评估方法，其特征在于，包括以下步骤：
步骤1、架构设计；
步骤2、指令集设计；
步骤3、加速器硬件设计，硬件并行；
步骤4、加速器软件库设计，通用指令集，软件调度分时复用方案。

2.如权利要求1所述的基于FPGA模拟的阻变神经网络加速器评估方法，其特征在于，所述步骤1支持Core、Tile、Crossbar三层架构。

3.如权利要求1所述的基于FPGA模拟的阻变神经网络加速器评估方法，其特征在于，所述步骤2指令集包括在线编程的LdWGT指令、用于配置的SetTile指令。

4.如权利要求1所述的基于FPGA模拟的阻变神经网络加速器评估方法，其特征在于，所述步骤3硬件并行包括构建向量矩阵乘法运算模块、构建向量ALU运算模块。

5.如权利要求4所述的基于FPGA模拟的阻变神经网络加速器评估方法，其特征在于，所述步骤3构建向量矩阵乘法运算模块：利用DSP搭建乘累加树实现向量矩阵乘法运算模块，增加循环控制逻辑保证忆阻器阵列的功能模拟；插入触发器，使向量矩阵乘法运算模块单周期可以获得一个1×16的向量和16×16的矩阵的乘法运算结果。

6.如权利要求4所述的基于FPGA模拟的阻变神...

【专利技术属性】
技术研发人员：景乃锋，石永泉，孙永帅，蒋剑飞，绳伟光，贺光辉，王琴，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人