当前位置: 首页 > 专利查询>天津大学专利>正文

一种面向通用卷积神经网络加速器的自动化部署方法技术

技术编号:37863662 阅读:22 留言:0更新日期:2023-06-15 20:53
本发明专利技术公开了一种面向通用卷积神经网络加速器的自动化部署方法,步骤1、从输入的卷积神经网络结构模型配置文件中解析出各层结构;步骤2、从内置算子库中调用浮点算子与步骤1中解析得到的各层结构进行匹配;步骤3、根据步骤2得到的浮点算子,进行参数量化处理或直接将浮点权重参数重排序后导出;步骤4、进行建模分析及最优化求解;步骤5、FPGA加速器计算模块的并行度进行重新调整;步骤6、基于步骤5,创建FPGA加速器顶层模块,在其内部实例化各算子模块,将顶层模块通过总线与外部控制单元、存储模块进行连接。本发明专利技术能够实现对不同网络结构的定制优化,节约人力资源成本,提升部署效率。提升部署效率。提升部署效率。

【技术实现步骤摘要】
一种面向通用卷积神经网络加速器的自动化部署方法


[0001]本专利技术属于FPGA器件
,特别涉及一种面向卷积神经网络推理的通用FPGA加速器自动化部署工具设计。

技术介绍

[0002]卷积神经网络(Convolutional Neural Network,CNN)是人工智能领域的表示算法之一,被广泛应用于图像识别和目标检测等领域。CNN的结构主要可以分为输入层、卷积层、池化层、全连接层、激活层和输出层。随着CNN规模不断增加,其计算量不断增大,为了满足低延时的使用需求,人们开始尝试利用多种计算平台对其进行加速部署。
[0003]现场可编程门阵列(Field Programmable Gate Array,FPGA)是一种半定制的半导体器件,可以根据不同的使用需求配置成不同的功能。在FPGA上实现CNN加速器,能够基于算法特性定制专用的并行计算单元和存储结构,实现较好的加速效果。
[0004]传统的CNN在FPGA上的部署方案是人为分析神经网络各层结构,然后编写代码实现各层计算模块以支持神经网络推理计算过程,并完成量化和性本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向通用卷积神经网络加速器的自动化部署方法,其特征在于,该方法包括以下步骤:步骤1、从输入的卷积神经网络结构模型配置文件中解析出各层结构;步骤2、从内置算子库中调用浮点算子与步骤1中解析得到的各层结构进行匹配,浮点算子被调用时根据不同的输入模板参数实例化为支持不同维度的运算模块;步骤3、根据步骤2得到的浮点算子,进行参数量化处理或直接将浮点权重参数重排序后导出;步骤4、进行建模分析及最优化求解,即包括构建FPGA加速器延时模型和资源模型:FPGA加速器的延时模型Latency()根据步骤1输入的网络结构模型配置文件以及步骤2中各浮点算子内置的延时模型计算得出,如下式所示:其中,n
i
表示输入模块的并行输入通道数量,n
c
、n
p
、n
f
分别表示卷积、池化和全连接算子的并行度,n
o
表示输出模块的并行输出通道数量,N表示卷积神经网络总层数,L
i
(n
i
)表示输入模块数据载入的延时,L
c
(n
c
)表示卷积模块计算的延时;L
p
(n
p
)表示池化模块计算的延时,L
f
(n
f
)表示全连接模块计算的延时,L
o
(n
o
)表示输出模块将数据写回的延时,L
o
表示激活模块计算的延时等不受并行参数影响的其余延时;FPGA加速器的资源模型Resource(),如下式所示:Resource(n
i
,n
c
,n
p
,n
f
,n
o
)=R
i
(n
i
)+R
c
(n
c
)+R
p
(n
p
)+R
f
(n
f
)+R
o
(n
o
)+R0其中,R0表示不受并行参数影响的其余模块资源占用,R
i
(n
...

【专利技术属性】
技术研发人员:刘强邓佺
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1