【技术实现步骤摘要】
一种复数域上的三维卷积神经网络加速器及方法
[0001]本专利技术属于卷积神经网络
,具体地涉及一种复数域上的三维卷积神经网络加速器及方法。
技术介绍
[0002]近年来,深度卷积神经网络在图像处理领域取得了巨大的成功。然而,在处理视频等更高维度的数据时,传统的二维卷积神经网络无法有效捕获其中的时间信息,因而无法取得令人满意的效果。三维卷积神经网络的提出解决了这一问题,其通过三维卷积,可以同时捕获视频中的时空信息,在视频分类、医学影像分析方面发挥了巨大的作用。然而,相比于二维卷积神经网络,三维卷积神经网络有着更为庞大的存储和计算开销,给其在嵌入式等边缘场景下的部署带来了严峻的挑战。
[0003]为了解决这个问题,业界开始尝试采用专门的硬件对3D CNN算法进行加速。在云端,GPU由于其高计算并行度、高内存带宽的特性,而成为了主流的硬件加速平台。在边缘端,由于受到资源、功耗等因素的限制,普遍采用基于ASIC和FPGA的硬件加速技术,通过在计算层面上提供更高的并行度,以及在访存层面上尽可能增大数据复用,来提高3D ...
【技术保护点】
【技术特征摘要】
1.一种复数域上的三维卷积神经网络加速器,所述三维卷积神经网络包括卷积层、全连接层、池化层、激活层和批归一化层,其特征在于,该加速器包括:缓存单元,所述缓存单元用于存储复数域内的输入特征、输出特征和权重数据;AXIDMA单元,所述AXIDMA单元用于该加速器与片外存储器进行数据传输;计算单元,所述计算单元用于对所述卷积层和全连接层的计算进行加速;后处理单元,所述后处理单元用于计算融合后的量化层、池化层、批归一化层和激活层;控制单元,所述控制单元用于控制和调度所述缓存单元、AXIDMA单元、计算单元和后处理单元的工作状态。2.根据权利要求1所述的一种复数域上的三维卷积神经网络加速器,其特征在于,所述缓存单元包括:输入特征缓存单元,所述输入特征缓存单元用于存储复数域内的输入特征;输出特征缓存单元,所述输出特征缓存单元用于存储复数域内的输出特征;权重缓存单元,所述权重缓存单元用于缓存复数域内的权重。3.根据权利要求1所述的一种复数域上的三维卷积神经网络加速器,其特征在于,所述计算单元包括:运算单元矩阵,所述运算单元矩阵包括多个运算单元PE,多个运算单元PE呈T
m
/B
×
B大小的二维矩阵排列,每个运算单元PE包括T
n
/B个并行的复数乘法器和一个用于对T
n
/B个并行的复数乘法器输出进行求和的复数加法树,其中,T
m
为输出通道的分块大小,B为二维矩阵的分块大小,T
n
为输入通道的分块大小;地址生成器,所述地址生成器用于生成输入特征、输出特征和权重数据的地址数据;PE控制器,所述PE控制器用于控制所述运算单元PE、地址生成器的工作状态。4.根据权利要求1所述的一种复数域上的三维卷积神经网络加速器,其特征在于,所述AXIDMA单元包括:数据打包单元,所述数据打包单元用于对缓存单元输出数据进行打包以增大输出数据带宽;数据拆解单元,所述数据拆解单元用于对片外存储器的数据进行拆解以得到加速器所需的数据;AXIDMA控制器,所述AXIDMA控制器用于控制所述数据打包单元、数据拆解单元的工作状态。5.一种复数域上的三维卷积神经网络加速方法,其特征在于,包括以下步骤:对三维卷积神经网络进行量化;对三维卷积神经网络进行部署;采用权利要求1至4任一所述的一种复数域上的三维卷积神经网络加速器对所述三维卷积神经网络进行加速。6.根据权利要求5所述的一种复数域上的三维卷积神经网络加速方法,其特征在于,所述对三维卷积神经网络进行量化包括:计算权重值的实部和虚部的伸缩因子激活值的实部和虚部的伸缩因子根据权
重值的实部和虚部的伸缩因子激活值的实部和虚部的伸缩因子计算伪量化算子,所述伪量化算子包括量化算子CQuant和反量化算子CDequant,将伪量化算子插入到三维卷积神经网络的计算图中;其中,其中,其中,中l=1、2时分别表示权重值实部的伸缩因子和虚部的伸缩因子,a
l
中l=1、2时分别表示激活值的实部和虚部,β∈[0,1];CQuant(z)=Quant(z
r
)+jQuant(z
i
),Dequant(z)=Deθuant(z
r
)+jDequant(z
i
),其中,z为待量化复数,...
【专利技术属性】
技术研发人员:宫磊,王超,周学海,李曦,陈香兰,朱宗卫,
申请(专利权)人:中国科学技术大学苏州高等研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。