【技术实现步骤摘要】
一种基于Winograd的相关算法加速器存储系统
[0001]本公开属于算法硬件电路设计
,具体而言涉及一种基于Winograd的相关算法加速器存储系统。
技术介绍
[0002]随着深度学习技术的快速发展,卷积神经网络(Convolutional Neural Network,CNN)开始用于图像匹配定位算法。该算法由CNN和相关(Correlation)算法组成,其中CNN用于基准图与实时图的特征提取,相关算法用于对CNN提取的特征数据进行相关运算,提取相关极大值。由于CNN的海量计算与存储,一般由深度学习处理器(Deep
‑
Learning Processing Unit,DPU)完成计算。但是由于相关算法的计算特征与深度学习算法差异较大,导致DPU通常对其计算效率极低,从而催生了基于FPGA的相关算法加速器。
技术实现思路
[0003]本公开正是基于现有技术的上述需求而提出的,本公开要解决的技术问题是提供一种基于Winograd的相关算法加速器存储系统以提高数据复用率。
[0004]为了解决上述问题,本公开提供的技术方案包括:
[0005]提供了一种基于Winograd的相关算法加速器存储系统,包括:片外存储,用于存储全部的基准图张量数据和实时图张量数据,在计算过程中,缓存部分计算所需的数据;片上张量缓存,与片外存储相连,用于为加速单元提供并行计算所需的数据带宽,所述片上张量缓存包括基准张量缓存、实时张量缓存以及过程张量缓存,其中基准张量缓存基于所述加速器 ...
【技术保护点】
【技术特征摘要】
1.一种基于Winograd的相关算法加速器存储系统,其特征在于,包括:片外存储,用于存储全部的基准图张量数据和实时图张量数据,在计算过程中,缓存部分计算所需的数据;片上张量缓存,与片外存储相连,用于为加速单元提供并行计算所需的数据带宽,所述片上张量缓存包括基准张量缓存、实时张量缓存以及过程张量缓存,其中基准张量缓存基于所述加速器的数据重用缓存计算所需的基准图张量块,实时张量缓存基于所述加速器的数据重用缓存计算所需的实时图张量块,过程张量缓存基于所述加速器的数据重用缓存当前计算产生的中间结果数据;和多个寄存器,与片上张量缓存相连,接收和/或输送基准图和/或实时图的处理数据。2.根据权利要求1所述的一种基于Winograd的相关算法加速器存储系统,其特征在于,所述片外存储和片上张量缓存通过数据加载单元或数据卸载连接,所述片外存储的通信接口通过AXI协议与数据加载单元或数据卸载单元建立连接,所述数据加载单元或数据卸载单元通过FIFO数据线连接片上张量缓存。3.根据权利要求1所述的一种基于Winograd的相关算法加速器存储系统,其特征在于,所述基准图张量缓存沿深度方向设置乒乓的读写区域;当加速单元读取乒区域的数据进行计算时,数据加载器向乓区域缓存新的数据;当加速单元读取乓区域的数据进行计算时,数据加载器向乒区域缓存新的数据,以并行数据的计算与传输。4.根据权利要求1所述的一种基于Winograd的相关算法加速器存储系统,其特征在于,所述基准图张量缓存每次缓存的大小为C
b
×
(m+r
‑
1)
×
P
n
的张量块,表示为:Buf
B
[m][m+r
‑
1][D
B
][P
n
]其中,C
b
为基准图张量宽度,Buf
B
为基准图的缓存,m表示Winograd中相关结果矩阵的宽度,r表示实时图矩阵的宽度,(m+r
‑
1)为基准图矩阵块的高度,D
B
为基准图张量缓存的存储体的深度,P
n
是加速单元在输入通道方向上的并行度。5.根据权利要求4所述的一种基于Winograd的相关算法加速器存储系统,其特征在于,所述基准图张量缓存的每个存储体的宽度为(P
n
×
BIT
B
)比特,BIT
B
为基准图特征数据的位宽;所述基准图张量缓存的每个存储体的深度大于基准图宽度最大值的2倍,表示为:D
B
≥max(C
b
)
×
2。6.根据权利要求5所述的一种基于Winograd的相关算法加速器存储系统,其特征在于,在加速单元读取乒区域的数据进行计算的同时,数据加载器将最后两行的数据写入乓区域;在加速单元读取乓区域的数据...
【专利技术属性】
技术研发人员:王晓峰,蒋彭龙,周辉,谢宇嘉,赵雄波,盖一帆,路坤锋,李晓敏,李超然,弥寒光,林平,董文杰,吴松龄,黄鹂,吴敏,赵冠杰,杨庆军,李杨珺,王森,李杰,林玉野,靳蕊溪,
申请(专利权)人:北京航天自动控制研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。