用于深度学习的粗粒度可重构阵列算子设计方法及系统技术方案

技术编号：37987847 阅读：9 留言：0更新日期：2023-06-30 10:02

本发明专利技术提供了一种用于深度学习的粗粒度可重构阵列算子设计方法及系统，涉及深度学习加速器编译器技术领域。该方法包括：提供至少一个具有预设卷积核大小k和预设滑动步长s的算子OP

全部详细技术资料下载

【技术实现步骤摘要】
用于深度学习的粗粒度可重构阵列算子设计方法及系统

[0001]本专利技术涉及深度学习加速器编译器
，尤其涉及一种用于深度学习的粗粒度可重构阵列算子的设计与实现。

技术介绍

[0002]近年来，深度学习在计算机视觉和语音识别等任务中获得巨大的成功，在各种复杂的任务中在精度上和速度上都超过了人类水平。然而深度学习应用的高计算量、高数据量特性以及不同网络结构对芯片的算力，可编程性都提出了更高的要求。另外，随着深度学习应用在物联网，自动驾驶等嵌入式设备的部署，芯片的能效同样也是重要的考虑因素。
[0003]能效以及吞吐率是深度学习加速器的两个重要指标。深度学习中存在大量的完美嵌套循环，先前的编译器工作关注重点在于循环顺序以及tiling策略。循环顺序以及tiling策略共同影响DRAM与片上存储之间的通信量，从而决定了整个芯片的能效。然而在一些实时应用场景如自动驾驶，目标跟踪等，需要加速器快速处理海量的图像语音等信息，这些应用场景对加速器的吞吐率提出了更高的要求。粗粒度可重构阵列(Coarse
‑
Grained Reconfigurable Array，CGRA)在深度学习应用中获得越来越多的关注。CGRA的吞吐率很大程度依赖于编译器如何高效地将应用映射到CGRA相应的硬件资源上，提高资源利用率，尤其是计算资源，即处理单元阵列(Process Elements Array，PEA)。然而先前CGRA编译器工作鲜有涉及深度学习应用在CGRA上的映射问题。

技术实现思路

[0004...

【技术保护点】

【技术特征摘要】
1.一种用于深度学习的粗粒度可重构阵列算子设计方法，其特征在于，包括：提供至少一个具有预设卷积核大小k和预设滑动步长s的算子OP
k，s
，k、s≥1且为整数；基于所述算子OP
k，s
，确定每个所述算子OP
k，s
所需的处理单元PE的数量，根据所述所需的处理单元PE以执行行卷积计算，其中，PE≥1且为整数；根据每个所述算子OP
k，s
所需的处理单元PE的数量，确定算子OP
k，s
所需的各个所述处理单元PE之间的硬件互连结构，构成算子OP
k，s
库。2.根据权利要求1所述的用于深度学习的粗粒度可重构阵列算子设计方法，所述执行行卷积计算包括：将卷积核拆分为i行，i≥1且为整数，基于所述所需的处理单元PE以对每行卷积核的权重向量与输入向量以窗口滑动的方式进行内积运算，得到每行卷积核的部分和；其中，所述窗口滑动包括：以所述预设步长s在所述每行卷积核上滑动。3.根据权利要求2所述的用于深度学习的粗粒度可重构阵列算子设计方法，其特征在于，所述执行行卷积计算还包括：获取每行卷积核的部分和并累加，得到最终的输出特征图像。4.根据权利要求2所述的用于深度学习的粗粒度可重构阵列算子设计方法，其特征在于，所述每个所述算子OP
k，s
所需的处理单元PE的数量根据以下公式来确定：其中，PE
n
表示每个所述算子OP
k，s
所需的处理单元PE的数量。5.根据权利要求4所述的用于深度学习的粗粒度可重构阵列算子设计方法，其特征在于，所述执行行卷积计算还包括：获取窗口滑动时相邻窗口的启动间隔；当所述每行卷积核以窗口滑动的方式进行时，按照启动间隔依次启动内积运算，所述启动间隔根据以下公式来确定：其中，II为启动间隔，PEn为每个所述算子OP
k，s
所需的处理单元PE的数量，Q为单行滑动窗口内的内积运算中乘累加的数量。6.根据权利要求1所述的用于深度学习的粗粒度可重构阵列算子设计方法，...

【专利技术属性】
技术研发人员：陈松，倪小兵，何凯旋，陶永进，孙文迪，康一，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人