用于人工智能设备的核心计算单元处理器及加速处理方法技术

技术编号：23344907 阅读：38 留言：0更新日期：2020-02-15 04:23

本发明专利技术公开了一种用于人工智能设备的核心计算单元处理器及处理方法，所述处理器设有多个神经元，其特征在于，所述神经元由多个乘加器组组成，所述乘加器组包括多个乘加器单元，所述乘加器单元具有累加、最大值和最小值的操作功能，各神经元内的乘加器组数量相同，各乘加器组内的乘加器单元数量相同，一个神经元内的乘加器组共享相同的输入激活数据，一个神经元内的乘加器组处理不同的内核权重数据，但不同神经元内相同位序的乘加器组处理同一内核权重数据，各个乘加器组之间没有数据转换。本发明专利技术以重复使用权重和激活的方式来安排内核，可快速地从缓存中获取数据并将它们广播到多个乘加器MAC中，以获得的更高的处理效率，降低功耗。

Core computing unit processor and acceleration processing method for AI devices

全部详细技术资料下载

【技术实现步骤摘要】
用于人工智能设备的核心计算单元处理器及加速处理方法
本专利技术属于人工智能
，具体涉及一种用于人工智能设备的核心计算单元处理器及加速处理方法。
技术介绍
核心计算单元是AI(人工智能)设备的关键部件，现有用于人工智能的芯片包括CPU(中央处理器)、GPU(图像处理器)、TPU(张量处理器)等芯片，CPU需要大量的空间去放置存储单元和控制逻辑，相比之下计算能力只占据了很小的一部分，在大规模并行计算能力上极受限制，而更擅长于逻辑控制；为了解决CPU在大规模并行运算中遇到的困难，GPU应运而生，采用数量众多的计算单元和超长的流水线，善于处理图像领域的运算加速；TPU可以提供高吞吐量的低精度计算，用于模型的前向运算，相比GPU，TPU尽管计算能力略有逊色，但其功耗有所降低。通常GPU具有实现小矩阵乘法和加法的张量核，TPU具有脉动阵列以进行矩阵乘法，在AI的工作负载中，卷积和矩阵乘法是功耗最高的，而在现有的GPU和TPU中，编译器必须将卷积转换为一些矩阵乘法，然而这种转换效率不高，且有更多的功耗。
技术实现思路
针对现有技术的不足，本专利技术提供了一种用于人工智能设备的核心计算单元处理器及加速处理方法，其技术方案为：一种用于人工智能设备的核心计算单元处理器，设有多个神经元，其特征在于，所述神经元由多个乘加器组组成，所述乘加器组包括多个乘加器单元，所述乘加器单元具有累加、最大值和最小值的操作功能，各神经元内的乘加器组数量相同，各乘加器组内的乘加器单元数量相同，一个神经元内的乘加器组共享相同的输...

【技术保护点】
1.一种用于人工智能设备的核心计算单元处理器，设有多个神经元，其特征在于，所述神经元由多个乘加器组组成，所述乘加器组包括多个乘加器单元，所述乘加器单元具有累加、最大值和最小值的操作功能，各神经元内的乘加器组数量相同，各乘加器组内的乘加器单元数量相同，一个神经元内的乘加器组共享相同的输入激活数据，一个神经元内的乘加器组处理不同的内核权重数据，但不同神经元内相同位序的乘加器组处理同一内核权重数据，各个乘加器组之间没有数据转换。/n

【技术特征摘要】
1.一种用于人工智能设备的核心计算单元处理器，设有多个神经元，其特征在于，所述神经元由多个乘加器组组成，所述乘加器组包括多个乘加器单元，所述乘加器单元具有累加、最大值和最小值的操作功能，各神经元内的乘加器组数量相同，各乘加器组内的乘加器单元数量相同，一个神经元内的乘加器组共享相同的输入激活数据，一个神经元内的乘加器组处理不同的内核权重数据，但不同神经元内相同位序的乘加器组处理同一内核权重数据，各个乘加器组之间没有数据转换。

2.根据权利要求1所述的一种用于人工智能设备的核心计算单元处理器，其特征在于，包括4个神经元，所述神经元由8个乘加器组组成，所述乘加器组包括4个乘加器单元。

3.根据权利要求1或2所述的一种用于人工智能设备的核心计算单元处理器，其特征在于，所述乘加器单元的输入端与权重寄存器、输入激活寄存器分别连接，乘加器单元内设有乘加器MAC、多个目标寄存器和与多个导出寄存器；所述目标寄存器与乘加器MAC连接，用于存储权重与输入激活数据的计算结果；所述导出寄存器与目标寄存器连接，且与目标寄存器一一对应，用于计算结果的导出。

4.根据权利要求3所述的一种用于人工智能设备的核心计算单元处理器，其特征在于，所述乘加器单元内设有4个导出寄存器和4个目标寄存器。

5.根据权利要求3所述的一种用于人工智能设备的核心计算单元处理器，其特征在于，所述处理器包括一缓存器L1，所述缓存器L1用于存储外部模块派发的输入激活数据和权重数据，所述输入激活寄存器、权重寄存器从所述缓存器L1中调用数据。

6.根据权利要求5所述的一种用于人工智能设备的核心计算单元处理器，其特征在于，所述外部模块为波张量分派器。

7.一种基于如权利要求1所述处理器的人工智能设备核心计算单元加速处理方法，其特征在于，包括以下步骤：
所述乘加器单元处理的数据包括非零的权重数据及其在内核中的位置指数、非零的输入激活数据及其在特征图中的位置指数，不同的内核权重数据被分别映射到一个神经元中不同的乘加器组上，并播送到其它神经元内对应的乘加器组中；一个神经元内的乘加器组处理共享相同的输入激活数据，具有相同特征维度，但来自不同输入通道的输入激活数据在同一个乘加器组中进...

【专利技术属性】
技术研发人员：李云鹏，倪岭，邹云晓，邵平平，郑金山，
申请(专利权)人：南京天数智芯科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人