一种基于二值化神经网络的阵列计算加速器架构制造技术

技术编号：32127391 阅读：15 留言：0更新日期：2022-01-29 19:19

本发明专利技术属于集成电路技术与神经网络技术领域，具体涉及一种基于二值化神经网络的阵列计算加速器架构。本发明专利技术通过在计算核心内的处理单元采用二选一选择器代替多位乘法器，以加速二值化神经网络FC层计算，大幅减小了芯片存储与计算的面积、运算的延迟与功耗；同时内部集成了可配置神经网络功能模块，极大程度上满足了当前多种神经网络算法模型的计算需求，增强了加速器的通用性。强了加速器的通用性。强了加速器的通用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于二值化神经网络的阵列计算加速器架构

[0001]本专利技术属于集成电路技术与神经网络
，具体涉及一种基于二值化神经网络的阵列计算加速器架构。

技术介绍

[0002]随着集成电路设计方案的优化与集成电路工艺水平的不断提升，当代处理器与存储器的性能得到了质的飞跃，但如今计算机的性能提升却遇到了瓶颈。作为计算机的经典结构，冯
·
诺伊曼架构限制了处理器与存储器的数据交互能力，这一瓶颈显著地体现在了神经网络模型计算上。神经网络模型具有参数量大、乘加操作多等特点，进行神经网络模型计算时，频繁地从存储器中调取参数到处理器中进行计算无疑是增大了计算机的功耗开销。
[0003]作为目前主流的神经网络推理与训练的平台，CPU(Central Processing Unit,中央处理器)与GPU(Graphic Processing Unit,图形处理器)的迅猛发展推动了神经网络算法研究。其中，GPU内部集成了大量并行ALU(Arithmetic Logic Unit,算术逻辑单元)以满足算力需求，但其计算功耗过高一直是其难以解决的问题，这一由架构所带来的瓶颈也成为了人工智能向移动端方向发展的挑战与阻碍。因此，部分研究人员把注意力集中在设计定制化神经网络专用加速芯片上。2016年，Google(谷歌)公司为优化自己的机器学习框架，推出了一款针对神经网络计算的ASIC(Application Specific Integrated Circuit,专用集成电路)芯片，即第一代的TPU(Tensor P...

【技术保护点】

【技术特征摘要】
1.一种基于二值化神经网络的阵列计算加速器架构，用于对两个矩阵进行运算，其中一个矩阵为0
‑
1矩阵；其特征在于，包括矩阵运算控制模块、第一发送模块、第二发送模块、选择
‑
累加阵列计算模块、第一接收模块、第二接收模块和神经网络功能模块；所述矩阵运算控制模块用于接收外部输入的被计算矩阵的规模，并根据矩阵分块算法记录当前阵列计算的矩阵块的地址，将矩阵规模和当前计算矩阵块地址发送到第一发送模块和第二发送模块和神经网络功能模块并同时发送使能信号到第一发送模块、第二发送模块和神经网络功能模块；矩阵运算控制模块还接收外部输入的神经网络配置信息，并将其发送到神经网络功能模块；所述第一发送模块接收并存储外部输入的0
‑
1矩阵的全部元素，相对应的，第一发送模块接收矩阵运算控制模块发送的被运算矩阵中0
‑
1矩阵的规模和矩阵块地址，在使能信号的控制下向选择
‑
累加阵列计算模块发送相应地址的矩阵块的元素，数据由处理单元的第一输入端口接收。完成一个矩阵块运算后向选择
‑
累加阵列计算模块发送标识符，使其输出计算结果；所述第二发送模块接收外部输入实数矩阵，相对应的，第二发送模块接收矩阵运算控制模块发送的被运算矩阵中实数矩阵的规模和矩阵块地址，并存储对应地址中矩阵块内的元素，在使能信号控制下，向选择
‑
累加阵列计算模块发送相应地址的矩阵块元素，数据由处理单元的第二输入端口接收。完成一个矩阵块运算后向选择
‑
累加阵列计算模块发送0，使选择
‑
累加阵列计算模块中对应的寄存器初始化为0；所述选择
‑
累加阵列计算模块采用n行
×
n列个处理单元阵列化排布，每一行和每一列的处理单元依次首尾相连；所述处理单元具有行列两个输入端口和行列两个输出端口，将行输入端口定义为第一输入...

【专利技术属性】
技术研发人员：胡绍刚，李天琛，乔冠超，于奇，刘洋，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人