一种基于一维脉动阵列的通用卷积神经网络加速器制造技术

技术编号：21454889 阅读：44 留言：0更新日期：2019-06-26 05:04

本发明专利技术公开一种基于一维脉动阵列的通用卷积神经网络加速器，AXI4总线接口用于实现模式配置指令的载入以及待计算数据的读取与结果数据的批量发送；模式配置器通过模式配置指令配置各个功能模块为对应工作类型；数据调度模块可并发进行待计算数据缓存、计算数据读取、卷积结果缓存以及卷积结果处理与输出任务；卷积计算模块采用一维脉动阵列的模式进行卷积计算；待计算数据缓存区、卷积结果缓存区、输出结果缓冲FIFO，用于缓存对应数据；结果处理模块进行卷积神经网络中常见的结果处理操作。此种加速器能够兼容卷积神经网络中的不同计算类型并进行高并行度计算来有效加速，同时只需要较低的片外访存带宽需求以及少量的片上存储资源。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于一维脉动阵列的通用卷积神经网络加速器
本专利技术属于电子信息和深度学习
，特别涉及一种基于一维脉动阵列(1-DSystolicArray)的通用卷积神经网络硬件加速器。
技术介绍
近年来，深度卷积神经网络近来受到了广泛的关注，从2012年GoogleBrain团队使用深度神经网络“认猫”到16/17年Deepmind团队的AlphaGO/AlphaZero在围棋场上的所向无敌，以卷积神经网络为代表的“深度学习”，吸引到的不仅仅是大众的目光，还有学术界与产业界极大的兴趣。通过研究人员和工程师们的努力，现在卷积神经网络已经在很多方向上得到了广泛的应用，例如图像识别、目标检测、自然语言处理等。但高性能的卷积神经网络所需参数量与计算量也非常大，如针对高清图像的检测/识别/语义分割等任务，仅仅模型的权重数据便高达数百兆字节，即便是推断过程也往往需要数十至数千亿的乘累加操作，数据的访存频率、计算量、存储空间需求无不给计算平台带来很大的压力，需要找到方法构建一个高性能的通用卷积神经网络硬件加速器以解决上述问题，本案由此产生。
技术实现思路
本专利技术的目的，在于提供一种基于一维脉动阵列的通用卷积神经网络加速器，其可兼容卷积神经网络中的不同计算类型并进行高并行度计算来有效加速，同时只需要较低的片外访存带宽需求以及少量的片上存储资源。为了达成上述目的，本专利技术的解决方案是：一种基于一维脉动阵列的通用卷积神经网络加速器，包括：AXI4总线接口，是基于AXI总线协议的面向地址映射的高性能总线接口，通过其实现模式配置指令的载入以及待计算数据的读取与结果数据的批量发送，...

【技术保护点】
1.一种基于一维脉动阵列的通用卷积神经网络加速器，其特征在于包括：AXI4总线接口，用于连接片外处理器和片外存储器，实现模式配置指令的载入、待计算数据的读取及结果数据的发送；模式配置器，用于根据模式配置指令将各个功能模块设置为对应工作类型，从而适配不同类型的卷积神经网络计算模式；数据调度模块，用于并发进行待计算数据缓存、计算数据读取、卷积结果缓存及卷积结果处理与输出任务；卷积计算模块，包含N个卷积计算单元和一个J级加法树，J等于log2N，N个卷积计算单元的输出端均连接加法树，每个卷积计算单元内部包含L×M个乘累加单元；结果处理模块，用于完成与卷积层相关联的计算，并将计算结果送入输出结果缓冲FIFO；以及，待计算数据缓存区、卷积结果缓存区、输出结果缓冲FIFO，用于缓存对应数据；待计算数据缓存区包括N个特征图缓存单元和权重缓存单元，特征图缓存单元采用乒乓操作，保存当前计算需要的特征图行像素值及下一次计算需要的特征图行像素值；卷积结果缓存区及输出结果缓冲FIFO并行度均为M，卷积计算完成后数据由卷积结果缓存区取出，经由结果处理模块处理后通过输出结果缓冲FIFO传出。

【技术特征摘要】
1.一种基于一维脉动阵列的通用卷积神经网络加速器，其特征在于包括：AXI4总线接口，用于连接片外处理器和片外存储器，实现模式配置指令的载入、待计算数据的读取及结果数据的发送；模式配置器，用于根据模式配置指令将各个功能模块设置为对应工作类型，从而适配不同类型的卷积神经网络计算模式；数据调度模块，用于并发进行待计算数据缓存、计算数据读取、卷积结果缓存及卷积结果处理与输出任务；卷积计算模块，包含N个卷积计算单元和一个J级加法树，J等于log2N，N个卷积计算单元的输出端均连接加法树，每个卷积计算单元内部包含L×M个乘累加单元；结果处理模块，用于完成与卷积层相关联的计算，并将计算结果送入输出结果缓冲FIFO；以及，待计算数据缓存区、卷积结果缓存区、输出结果缓冲FIFO，用于缓存对应数据；待计算数据缓存区包括N个特征图缓存单元和权重缓存单元，特征图缓存单元采用乒乓操作，保存当前计算需要的特征图行像素值及下一次计算需要的特征图行像素值；卷积结果缓存区及输出结果缓冲FIFO并行度均为M，卷积计算完成后数据由卷积结果缓存区取出，经由结果处理模块处理后通过输出结果缓冲FIFO传出。2.如权利要求1所述的加速器，其特征在于：所述卷积计算模块中的每个卷积计算单元对应一个特征图缓存单元和一个权重缓存单元，根据卷积核的行数KH，将卷积计算单元分成G组，G等于每批计算时特征图缓存单元分别缓存有G个特征图输入通...

【专利技术属性】
技术研发人员：陆生礼，庞伟，罗几何，李宇峰，
申请(专利权)人：东南大学，东南大学—无锡集成电路技术研究所，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人