【技术实现步骤摘要】
一种硬件加速器的激励数据分块处理方法及硬件加速器
[0001]本专利技术涉及数字信号处理
,尤其涉及硬件加速器设计方法领域,具体涉及一种硬件加速器的激励数据分块处理方法及硬件加速器。
技术介绍
[0002]在人工智能、并行计算等领域,存在大量的多维矩阵运算。为了实现实时信号处理,AI硬件加速器通常集成多个并行计算单元,对数据进行并行计算实现快速推理计算。如何通过具备并行计算能力的硬件平台,实现高效的并行计算是AI硬件加速器设计的一大难点,主要难点在于:数据读取,特别是片外DRAM数据的读取的能耗远高于加法、乘法运算的能耗。因此在并行计算过程中如何在有限的片内存储资源的条件下,降低片外DRAM数据访问,是降低AI硬件加速器功耗的关键技术。因此如何在并行计算过程中,通过合理的处理流程设计,提高数据复用,降低AI硬件加速器每次并行计算所需的数据是提高硬件性能的关键技术。
[0003]在卷积神经网络(CNN)硬件加速推理计算中,存在典型的非恒定多维矩阵的大规模并行计算需求。在CNN网络中,计算过程由多个卷积层计算及全连 ...
【技术保护点】
【技术特征摘要】
1.一种硬件加速器的激励数据分块处理方法,其特征在于,所述硬件加速器对卷积神经网络的激励数据进行分块并行处理,将分块并行处理后的激励数据存储于共享激励数据存储单元中,所述分块并行处理包括如下步骤:1)AI硬件加速器在卷积网络并行计算时,将卷积层分割为浅层卷积层和深层卷积层;2)AI硬件加速器将浅层卷积层分块;3)AI硬件加速器对分块后的浅层卷积层采用右下数据进行卷积计算;4)AI硬件加速器将完成所有浅层卷积层计算后得到的结果合并后作为深层卷积层的输入数据,进行深层卷积层计算。2.根据权利要求1所述的方法,其特征在于,步骤1)AI硬件加速器在卷积网络并行计算时,将浅层卷积层和深层卷积层的分割方法具体为:以最后一个不能将所有激励数据全部保存于片内存储单元的卷积层L为边界卷积层,划分浅层卷积层和深层卷积层,将边界卷积层及边界卷积层之前的卷积层,即卷积层1至卷积层L,称为浅层卷积层;边界卷积层之后的卷积层,即卷积层L+1及卷积层L+1之后的所有卷积层,称为深层卷积层。3.根据权利要求1所述的方法,其特征在于,步骤2)AI硬件加速器将浅层卷积层分块的方法具体为:定义水平方向为输入数据切分方向,将网络的输入数据切分为Y块,且从上至下依次分为块1、块2、
……
、块Y。4.根据权利要求3所述的方法,其特征在于,步骤3)AI硬件加速器对分块后的浅层卷积层进行计算具体为:首先从最下方的分块数据,包括按循环E方式执行块内卷积计算、及按循环F方式执行块间卷积计算,...
【专利技术属性】
技术研发人员:贺迅,马建平,刘友江,曹韬,
申请(专利权)人:中国工程物理研究院电子工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。