基于混合低精度量化的卷积神经网络加速器及其设计方法技术

技术编号:41754199 阅读:39 留言:0更新日期:2024-06-21 21:37
本发明专利技术公开了基于混合低精度量化的卷积神经网络加速器及其设计方法,包括中央处理器、总线模块、缓存模块、核心计算模块,其中所述核心计算模块包括乘累加模块和控制器模块;所述乘累加模块包括处理单元阵列;所述处理单元阵列包含若干个计算单元模块;所述缓存模块包括第一FM缓冲器、第二FM缓冲器、权重缓冲器和输出结果缓冲器;所述核心计算模块用于进行卷积计算;所述计算单元模块用于在DSP里面进行乘法和加法的运算。通过使用本发明专利技术能够支持标准卷积和深度可分离卷积计算,并维持高并行度下标准卷积和深度可分离卷积的高数据加载效率。本发明专利技术可广泛应用于现场可编辑门阵列技术领域。

【技术实现步骤摘要】

本专利技术涉及现场可编辑门阵列,尤其涉及基于混合低精度量化的卷积神经网络加速器及其设计方法


技术介绍

1、人工智能推理芯片设计与实现需要大量的计算成本,消耗大量的内存。业界通常采用量化的方法提升推理性能,达到硬件加速的目的。基于此种方法将神经网络的权值,激活值等从高精度的浮点型数据转化为低精度整型数据,从而节省带宽和功耗,降低计算单元的复杂度。目前普遍使用的量化方案是int8型量化,因为将fp32格式的权值或者激活值量化至int8不会导致网络准确率出现显著损失,是一种很有效的近似优化计算方法。同时,还有很多工作致力于研究低于8比特位宽的量化,例如4比特,2比特。但是将网络量化至低精度通常会导致一定程度的准确率下降,且随意的量化神经网络的不同层并不能获得最好的准确率和计算代价的权衡,这是因为神经网络不同层对于低精度量化的敏感程度是不一样的,例如对网络的第一层和第二层进行同样的低精度量化会对最终准确率造成较大影响。因此混合精度量化的研究逐渐兴起。混合精度量化可以为网络的每一层分配不同比特的位宽,通常对敏感度较高的层使用高精度量化,防止其造成准确度的显著下降,本文档来自技高网...

【技术保护点】

1.基于混合低精度量化的卷积神经网络加速器,其特征在于,包括中央处理器、总线模块、缓存模块、核心计算模块,其中:

2.根据权利要求1所述基于混合低精度量化的卷积神经网络加速器的设计方法,其特征在于,其加速过程包括以下步骤:

3.根据权利要求2所述基于混合低精度量化的卷积神经网络加速器的设计方法,其特征在于,所述加速过程还包括对卷积神经网络的权重参数和激活参数进行量化,得到所需比特的混合低精度定点数参数。

4.根据权利要求2所述基于混合低精度量化的卷积神经网络加速器的设计方法,其特征在于,所述输入特征图有两种存储格式,其中:

<p>5.根据权利要求...

【技术特征摘要】

1.基于混合低精度量化的卷积神经网络加速器,其特征在于,包括中央处理器、总线模块、缓存模块、核心计算模块,其中:

2.根据权利要求1所述基于混合低精度量化的卷积神经网络加速器的设计方法,其特征在于,其加速过程包括以下步骤:

3.根据权利要求2所述基于混合低精度量化的卷积神经网络加速器的设计方法,其特征在于,所述加速过程还包括对卷积神经网络的权重参数和激活参数进行量化,得到所需比特的混合低精度定点数参数。

4.根据权利要求2所述基于混合低精度量化的卷积神经网络加速器的设计方法,其特征在于,所述输入特征图有两种存储格式,其中:

5.根据权利要求1所述基于混合低精度量化的卷积神经网络加速器,其特征在于,所述第一fm缓冲器由15个真双端口ram组成;所述第二fm缓冲器由9个真双端口bram组成,每个真双端口包含两个读写端口,第一读写端口对应的是第一种存储格式,第一读写端口的读端口位宽为16位,第一读写端口的写端口位宽为8位;第二读写端口对应的...

【专利技术属性】
技术研发人员:胡湘宏潘锦辉黄文基丁玥郑则军熊晓明
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1