一种深度学习加速核及基于其的深度学习片上系统技术方案

技术编号：35865474 阅读：12 留言：0更新日期：2022-12-07 10:57

本发明专利技术公开了一种深度学习加速核及基于其的深度学习片上系统，深度学习加速核主要由运算管理单元、指令控制单元、存储器构成；运算管理单元内设数据传输仲裁选择逻辑单元以及各种运算单元；存储器将输入数据或权重数据经过数据传输仲裁选择逻辑单元传输至对应运算单元，各个运算单元将运算结果经过数据传输仲裁选择逻辑单元写入存储器；指令控制单元用于读取指令并完成指令分发，存储器和运算管理单元根据前一指令的执行时长以及该指令与其他指令间的依赖关系确定当前指令的执行时间。深度学习加速核内设各种运算单元，可以根据特定计算模式的特点，利用数据的复用性，设计内部电路，减少数据反复导入、导出的次数，减少不必要的能量消耗。要的能量消耗。要的能量消耗。

全部详细技术资料下载

【技术实现步骤摘要】
一种深度学习加速核及基于其的深度学习片上系统

[0001]本专利技术涉及深度学习
，尤其是一种深度学习加速核及基于其的深度学习片上系统。

技术介绍

[0002]深度学习是近年来新兴的人工智能技术，也是目前研究和创新的热点。现如今，深度学习技术在计算机视觉、语音识别、自然语言处理等领域均获得巨大成功，其性能远超这些领域的传统方法。然而，深度学习的参数量及计算量极大，通常参数量能够可达上百兆字节的量级，计算量可达几十到几百GFLOPS的量级，如此之大的参数量及计算量，在传统CPU上是无法实现实时处理的(实时处理要求至少25FPS以上，即每秒推理25次以上)。
[0003]边缘侧应用不但对处理器的深度学习模型处理速度提出很高要求，而且对处理器的能耗有很强的限制；因此，研发新型人工智能处理器成为必需。这种新型人工智能处理器一方面需要提高算力，满足深度学习模型推理的实时需求；另一方面需要提高能效，满足边缘侧设备对芯片的功耗要求。
[0004]传统处理器，如CPU、DSP，一般采用冯诺依曼或哈弗结构，处理器中设置寄存器，由指令控制数据传输到寄存器，再由指令控制运算部件读取寄存器中的数据执行运算。此类架构的特点是比较灵活，每个指令完成一种非常基本的操作(如加法、减法、乘法、搬运一个或若干个数据)，各种指令组合起来可以实现各种各样的功能，从而使得处理器可以实现丰富的软件，并在软件控制下完成各种丰富的功能。
[0005]但此类架构不太适用于对算力要求很高的人工智能芯片领域，原因有两个：
[0006...

【技术保护点】

【技术特征摘要】
1.一种深度学习加速核，其特征在于，主要由运算管理单元、指令控制单元、存储器构成；所述运算管理单元内设数据传输仲裁选择逻辑单元以及各种运算单元，各种运算单元包括不限于矩阵运算单元、最大池化运算单元、softmax运算单元、激活函数运算单元、向量运算单元、稀疏运算单元、二值神经网络运算单元；所述存储器与所述数据传输仲裁选择逻辑单元双向连接，所述数据传输仲裁选择逻辑单元与各个运算单元双向连接，所述存储器将输入数据或权重数据经过所述数据传输仲裁选择逻辑单元传输至对应运算单元，各个运算单元将运算结果经过所述数据传输仲裁选择逻辑单元写入所述存储器；所述指令控制单元用于读取指令并完成指令分发，所述存储器和所述运算管理单元根据前一指令的执行时长以及该指令与其他指令间的依赖关系确定当前指令的执行时间，该指令与其他指令间的依赖关系符合指令执行的顺序要求。2.根据权利要求1所述的深度学习加速核，其特征在于，所述存储器采用ping
‑
pang结构，即包含存储器ping和存储器pang。3.根据权利要求2所述的深度学习加速核，其特征在于，所述存储器ping和所述存储器pang均包含三个存储阵列；在执行矩阵乘法时，三个存储阵列分别用于存储左矩阵数据、右矩阵数据和结果矩阵数据；在执行二维卷积计算时，三个存储阵列分别用于存储输入特征图数据、卷积核权重数据和输出特征图数据。4.根据权利要求2所述的深度学习加速核，其特征在于，该指令与其他指令间的依赖关系通过指令中的依赖关系标志位及其之间的逻辑关系实现，标志位包括依赖标志位和通知标志位，依赖标志位包括依赖存储器ping标志、依赖存储器pang标志、依赖计算单元标志，通知标志位包括通知存储器ping标志、通知存储器pang标志、通知计算单元标志；若一条指令不需要依赖任何指令便可以执行，则该指令的依赖标志位均配置为0；若一条指令何时执行完毕不会影响到其他任何指令...

【专利技术属性】
技术研发人员：林广栋，陆俊峰，黄光红，刘小明，
申请(专利权)人：安徽芯纪元科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人