一种面向神经网络处理的运算单元阵列结构制造技术

技术编号：26420274 阅读：70 留言：0更新日期：2020-11-20 14:16

本发明专利技术为一种面向神经网络处理的运算单元阵列结构。由运算单元模块和局部总线模块组成。单个运算单元模块负责完成一维卷积运算，局部总线模块将中间结果向上传输，进行中间结果累加，完成二维卷积的运算，减少中间结果的写回，提升系统整体能效比。运算单元模块内部设置若干个寄存器堆，同时进行多个卷积核的超二维卷积运算，进一步提升数据复用度和减少中间结果的写回。运算单元阵列采用自组织模式，接收来自顶层的控制信号，并由局部总线模块根据相邻运算单元的ID配置自动计算完成二维卷积运算所需要的当前运算单元的空间位置，之后自动完成数据的收发以及相关运算操作，具有一定的自主性。本发明专利技术能够较高的提升神经网络处理中计算效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向神经网络处理的运算单元阵列结构
本专利技术属于集成电路设计
，具体涉及一种面向神经网络处理的运算单元阵列结构。
技术介绍
深度卷积神经网络在计算机视觉、语音识别以及机器人控制等重要领域都得到了良好应用，但是各类应用也对神经网络算法的精度和复杂度不断提出更高的要求，导致算法的实现面临一系列挑战性问题。虽然传统处理器架构取得了一定进步，但是存在运算单元之间数据的直接通信导致数据复用度低以及能效比差等问题。为改善上述问题，近年来研究人员设计了基于阵列并行的空间型处理器架构，搭配适当的数据流策略，可以显著的提升神经网络算法的数据复用度和运算速度。卷积运算是神经网络算法中最基本的运算操作，对于当前深度卷积神经网络来说，通常需要面临计算量巨大的卷积运算。卷积运算，即张量运算，用数学表达式描述就是，,其实现的关键的是多个卷积核的权重与输入特征图的数值进行乘累加运算。如果直接按照上述运算公式的方式直接求解，随着神经网络算法复杂度的提升，数据计算量的增大，这种直接求解的方法会频繁的从外部存储读写数据，极大降低系统的能效比。另一种方法是采用适配的数据流策略，固定某种数据类型，减少数据读写次数。这种适配的数据流能够选择合适的存储层次来去访问数据，最小化访存带来的能耗。搭配数据流策略的运算单元阵列是常见的硬件实现方式，并且有利于输入总线和输出总线的实现，从而大大提升数据的传输效率。常见的数据流策略有权重固定（WS,WeightStationary）,输出固定（OS，OutputStationary）,行固定（RowSt...

【技术保护点】
1.一种面向神经网络处理的运算单元阵列结构，其特征在于：包括运算单元模块和局部总线模块，局部总线模块的输入端连接ID数值；/n运算单元模块分为顶部运算单元模块、中间运算单元模块和底部运算单元模块，局部总线模块位于运算单元模块的垂直方向上；运算单元模块由状态机，寄存器堆和乘累加单元模块组成，寄存器堆包括输入激励寄存器堆、权重寄存器堆和中间结果寄存器堆，状态机的数据请求输入端连接寄存器堆的输入端，寄存器堆与乘累加单元进行双向交互；/n运算单元模块完成卷积运算的最基本单元，负责接收来自输入局部总线模块的输入数据，并完成一维卷积运算，并根据在运算单元模块阵列位置的不同，将中间结果发送至局部总线模块向上传输以及完成中间结果的累加，最终得到输出激励；/n局部总线模块，负责垂直方向上相邻运算单元之间中间结果的单向交互，并根据相邻运算单元模块的ID数值计算运算单元的空间位置；/n局部总线模块根据垂直方向上运算单元模块的ID数值得到一组使能信号，并反馈给与之连接的运算单元模块，由此计算出每个运算单元模块的空间位置；根据使能信号，运算单元模块读取输入数据，进行卷积运算单元得到一维卷积运算的中间结果；然后位...

【技术特征摘要】
1.一种面向神经网络处理的运算单元阵列结构，其特征在于：包括运算单元模块和局部总线模块，局部总线模块的输入端连接ID数值；
运算单元模块分为顶部运算单元模块、中间运算单元模块和底部运算单元模块，局部总线模块位于运算单元模块的垂直方向上；运算单元模块由状态机，寄存器堆和乘累加单元模块组成，寄存器堆包括输入激励寄存器堆、权重寄存器堆和中间结果寄存器堆，状态机的数据请求输入端连接寄存器堆的输入端，寄存器堆与乘累加单元进行双向交互；
运算单元模块完成卷积运算的最基本单元，负责接收来自输入局部总线模块的输入数据，并完成一维卷积运算，并根据在运算单元模块阵列位置的不同，将中间结果发送至局部总线模块向上传输以及完成中间结果的累加，最终得到输...

【专利技术属性】
技术研发人员：韩军，张权，张永亮，
申请(专利权)人：复旦大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人