一种基于多张量核心处理器的卷积计算数据重用方法技术

技术编号：37404929 阅读：16 留言：0更新日期：2023-04-30 09:31

本发明专利技术的一种基于多张量核心处理器的卷积计算数据重用方法，控制核心通过DMA将多个不同的输入特征图分别分配给多个张量核心的片上高速缓存SPM；控制核心通过DMA将卷积核广播到前述多个张量核心的片上高速缓存SPM；前述多个张量核心依据各自的片上高速缓存SPM的输入特征图、卷积核进行计算；前述多个张量核心完成计算后，将计算结果写回内存，之后广播更新卷积核重复步骤s2，直到将所有卷积核广播一遍，得到不同输出特征图的最终结果，写回内存。通过显著降低卷积计算在多张量核心处理器上的内存访存需求，充分发挥众核计算能力，提升多张量核心处理器的计算性能。升多张量核心处理器的计算性能。升多张量核心处理器的计算性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多张量核心处理器的卷积计算数据重用方法

[0001]本专利技术涉及一种

技术介绍

[0002]深度神经网络中的绝大部分计算为卷积计算，卷积神经网络的训练和推理过程中，卷积操作占据了绝大部份的计算量，因此神经网络硬件加速器通常会设计专门的计算部件以实现卷积运算的加速。卷积加速部件一般采用的张量处理器(Tensor Processing Unit，TPU)，可以高效地集成大量乘法部件，以实现很高的芯片面积利用率和芯片效能比。
[0003]对于计算密集型的函数，比如深度学习中的卷积，如何及时地给强大的张量计算核心提供足够多的数据，是当前需要解决的问题。
[0004]深度学习中的卷积算子如图1所示：
[0005]上述卷积运算也可以描述为以下的7层循环：
[0006]for n in N：//第6层：输入特征图数量
[0007]for m in M://第5层：输出通道
[0008]for h in E://第4层：输出特征图高度
[0009]for w in F://第3层：输出特征图宽度
[0010]for r in R://第2层：卷积核高度
[0011]for s in S://第1层：卷积核宽度
[0012]for c in C://第0层：输入通道
[0013]f_out[n][e][f][m]+＝ker[m][r][s][c]*f_in[n][e+r][f+s][c]//加法在R、S、C上累加，合并成1个数
[...

【技术保护点】

【技术特征摘要】
1.一种基于多张量核心处理器的卷积计算数据重用方法，所述多张量核心处理器包括控制核心、多个张量核心阵列；控制核心用于程序的初始化、I/O、通信以及对多个张量核心阵列分配任务；控制核心对多个张量核心阵列分配任务是通过DMA将加速核心段的关键数据布局到每个张量核心的片上高速缓存SPM；张量核心阵列包括多个张量核心，用于程序热点区域的并行加速处理，每个张量核心设有片上高速缓存SPM，可以单独完成复杂的卷积计算；其特征在于，所述的卷积计算数据重用方法，包括：s1、控制核心通过DMA将多个不同的输入特征图分别分配给多个张量核心的片上高速缓存SPM；s2、控制核心通过DMA将卷积核广播到前述多个张量核心的片上高速缓存SPM；s3、前述多个张量核心依据各自的片上高速缓存SPM的输入特征图、卷积核进行计算；s4、前述多个张量核心完成计算后，将计算结果写回内存，之后广播更新卷积核重复步骤s2，直到将所有卷积核广播一遍，得到不同...

【专利技术属性】
技术研发人员：高伟，叶楠，王洪磊，杨晋喆，
申请(专利权)人：太初无锡电子科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人