【技术实现步骤摘要】
基于FPGA人工智能加速器的数据存储和传输方法
[0001]本专利技术涉及一种基于FPGA人工智能加速器的数据存储和传输方法,属于图像算法
技术介绍
[0002]随着人们对深度学习的深入研究,基于卷积神经网络算法精度得到了大幅提高,已经开始越来越广泛地应用于交通、安防、自动驾驶、航空航天等领域。改进后算法通过卷积神经网络提取图像中所需要的信息实现对图像中目标的定位和分类,涉及大量并行性运算,目前大多数卷积神经网络主要都是基于CPU、GPU实现的,基于CPU的卷积神经网络处理器无法利用卷积神经网络高并行性的特性,无法获得较高的计算吞吐量,并且其也存在功耗过高的问题。基于GPU的卷积神经网络处理器虽然可以利用卷积神经网络的计算并行性,获得很高的计算吞吐量,但是其功耗过高限制了其应用在嵌入式等对功耗要求高的场景。
[0003]另一方面,伴随着物联网时代到来,网络数据传输量激增,给云端数据中心运算处理带来极大负担,而边缘计算技术能分担服务器端的运算压力。为了满足边缘计算的需求,人们进行了大量研究,包括专用集成电路和 ...
【技术保护点】
【技术特征摘要】
1.一种基于FPGA人工智能加速器的数据存储和传输方法,其特征在于,所述数据存储和传输方法主要包括:步骤1,设计ARM端的架构:所述ARM端包括图像收集模块、预处理模块以及数据发送模块;使用图像收集模块通过以太网将图像传递给预处理模块,所述预处理模块在ARM端对收集到的数据进行预处理并将处理好的数据发送给所述数据收发模块;所述数据收发模块将图像数据和网络权重参数数据发送到FPGA端的DDR4存储器上;步骤2,设计FPGA端的架构:所述FPGA端包括输入缓冲模块、输出缓冲模块、DMA、DDR4以及逻辑运算模块;DMA从DDR4中读取图像数据和网络权重数据并发送到输入缓冲模块;输入缓冲模块将数据发送到逻辑运算模块进行处理;逻辑运算模块完成神经网络的各种运算;输出缓冲模块将逻辑运算模块运算完的输出数据发送到DDR4上;DMA将运算结果从DDR4中读出来并发送到ARM端的数据收发模块;步骤3,优化FPGA端数据存储传输通路。2.根据权利要求1所述的基于FPGA人工智能加速器的数据存储和传输方法,其特征在于,所述步骤3具体包括:步骤3.1,增加乒乓buf...
【专利技术属性】
技术研发人员:王堃,张泽旭,陈思光,张载龙,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。