神经网络计算装置及包含该计算装置的处理器制造方法及图纸

技术编号：17033635 阅读：141 留言：0更新日期：2018-01-13 19:49

本发明专利技术提供一种神经网络计算装置以及包含该计算装置的处理器。该计算装置包括脉动阵列处理单元和主处理器，所述主处理器用于控制神经网络中的计算元素向所述脉动阵列处理单元的装载以及在所述脉动阵列处理单元中的传递，所述脉动阵列处理单元由多个处理单元构成，每个处理单元对接收的计算元素执行相关运算和/或将接收到的计算元素传递给下一个处理单元，其中，所述计算元素包括神经元数据和对应的权重值。利用本发明专利技术的计算装置能够加快神经网络的计算速度并降低计算过程中对带宽的需求。

全部详细技术资料下载

【技术实现步骤摘要】
神经网络计算装置及包含该计算装置的处理器
本专利技术涉及人工智能
，尤其涉及一种神经网络的计算装置以及包含该计算装置的神经网络处理器。
技术介绍
深度学习是机器学习领域的重要分支，在近些年来取得了重大突破。采用深度学习算法训练的神经网络模型在图像识别、语音处理、智能机器人等应用领域取得了令人瞩目的成果。深度神经网络通过建立模型模拟人类大脑的神经连接结构，在处理图像、声音和文本等信号时，通过多个变换阶段分层对数据特征进行描述。随着神经网络复杂度的不断提高，神经网络技术在实际应用过程中存在占用资源多、运算速度慢、能量消耗大等问题，因此该技术在嵌入式设备或低开销数据中心等领域应用时存在严重的能效问题和运算速度瓶颈。采用硬件加速器替代传统软件计算的方法成为了提高神经网络计算效率的一种行之有效方式。目前主流的硬件加速方式包括通用图形处理器、专用处理器芯片和现场可编程逻辑阵列(FPGA)等。然而，由于神经网络处理器属于计算密集型和访存密集型处理器，一方面，神经网络模型中包括大量乘法加法运算及其他非线性运算，需要神经网络处理器保持高负载运行，以保障神经网络模型的运算需求；另一方面，神经网络运算过程中存在大量的参数迭代，计算单元需要对存储器进行大量访问，这极大增加了对处理器的带宽设计需求，同时增加了访存功耗。因此，需要对现有的神经网络处理器进行改进，以解决计算电路硬件开销高、片上访存带宽大的问题。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺陷，提供一种应用于神经网络的计算装置以及包含该计算装置的处理器。根据本专利技术的第一方面，提供了一种神经网络计算装置。该...
神经网络计算装置及包含该计算装置的处理器

【技术保护点】
一种神经网络计算装置，其特征在于，包括脉动阵列处理单元和主处理器，所述主处理器用于控制神经网络中的计算元素向所述脉动阵列处理单元的装载以及在所述脉动阵列处理单元中的传递，所述脉动阵列处理单元由多个处理单元构成，每个处理单元对接收的计算元素执行相关运算和/或将接收到的计算元素传递给下一个处理单元，其中，所述计算元素包括神经元数据和对应的权重值。

【技术特征摘要】
1.一种神经网络计算装置，其特征在于，包括脉动阵列处理单元和主处理器，所述主处理器用于控制神经网络中的计算元素向所述脉动阵列处理单元的装载以及在所述脉动阵列处理单元中的传递，所述脉动阵列处理单元由多个处理单元构成，每个处理单元对接收的计算元素执行相关运算和/或将接收到的计算元素传递给下一个处理单元，其中，所述计算元素包括神经元数据和对应的权重值。2.根据权利要求1所述的计算装置，其特征在于，所述脉动阵列处理单元包括采用一维矩阵形式串接的多个处理单元。3.根据权利要求2所述的计算装置，其特征在于，所述主处理器控制所述神经元数据向所述脉动阵列处理单元的装载和流动并控制所述对应的权重值预先存储在所述脉动阵列处理单元的相应处理单元中。4.根据权利要求1所述的计算装置，其特征在于，所述脉动阵列处理单元采用二维矩阵形式，其中，各处理单元采用相同的结构，每个处理单元仅与相邻的处理单元耦合。5.根据权利要求4所述的计算装置，其特征在于，所述主处理器控制所述神经元数据从二维矩阵的行方向装载并沿行方向流动，并且控制所述对应的权重值从二维矩阵的列方向装载并沿列方向流动。6.根据权利要求1至5中任一...

【专利技术属性】
技术研发人员：韩银和，许浩博，王颖，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人