【技术实现步骤摘要】
一种细胞神经网络硬件架构的优化方法
本专利技术属于硬件加速器设计领域,尤其涉及一种细胞神经网络硬件架构的优化方法。
技术介绍
随着人工智能对于低功耗器件日益增长的需求,传统的图像处理应用数据处理速度较低和功耗较高的缺陷愈发显著。细胞神经网络作为一个提高处理性能和降低能耗的有效手段,渐渐地被应用在噪声消除、边缘检测、路径规划等领域,并且同时受到了学术界和工业界的广泛关注。细胞神经网络是局部连接并且有大量细胞元组成的一种非线性结构,每个细胞元都具有由一个3x3大小矩阵构成的模板,并且与其相邻的8个细胞元相连接,模板中的参数值决定了细胞元之间的连接强度。标准M×N的细胞的r维邻域Nr(i,j)的定义及细胞神经网络动力学方程由公式(1)(2)给出:Nr(i,j)=c(k,l):max{|k-i|,|l-j|≤r}(1)其中i和j表示当前细胞元的位置参数,i=1,2,…,N;j=1,2,…,M,同时r,k和l均取值为正整数,1≤k≤m,1≤l≤n,c(k,l)为包括当前细胞元在内的半径为r内的所有细胞。细胞神经网络有5阶和3阶等多种算法,通常r取值为1,即3阶细胞神经网络。 ...
【技术保护点】
1.一种细胞神经网络硬件架构的优化方法,其特征在于,该方法包括以下步骤:(1)构建细胞神经网络硬件架构,该架构由外部存储器、存储器接口控制器、片上输入缓存、片上输出缓存、计算加速单元和总线构成;所述计算加速单元包括若干依次连接的迭代单元,每个迭代单元包括若干并行运算模块;数据从外部存储器通过存储器接口控制器和总线读入片上输入缓存,并在计算加速单元中执行运算操作,运算结果写入片上输出缓存,最终输出到外部存储器;整个细胞神经网络的运算操作通过迭代单元流水线完成;(2)对计算加速单元实现系统级优化设计,具体为:分块并行阵列:将输入图像分割成若干个容量为N的数据块,将每个数据块中的 ...
【技术特征摘要】
1.一种细胞神经网络硬件架构的优化方法,其特征在于,该方法包括以下步骤:(1)构建细胞神经网络硬件架构,该架构由外部存储器、存储器接口控制器、片上输入缓存、片上输出缓存、计算加速单元和总线构成;所述计算加速单元包括若干依次连接的迭代单元,每个迭代单元包括若干并行运算模块;数据从外部存储器通过存储器接口控制器和总线读入片上输入缓存,并在计算加速单元中执行运算操作,运算结果写入片上输出缓存,最终输出到外部存储器;整个细胞神经网络的运算操作通过迭代单元流水线完成;(2)对计算加速单元实现系统级优化设计,具体为:分块并行阵列:将输入图像分割成若干个容量为N的数据块,将每个数据块中的N个数据按照其空间排布顺序分配到一个迭代单元的N个并行运算模块中,并且所有运算模块在一个运行周期内完成运算;数据重用:当一个迭代单元中的并行运算模块在执行计算操作时,利用相邻运算模块的输入矩阵的数据共享关系对输入图像进行数据重用,减少迭代单元之间以及片上输入缓存的读写操作。2.根据权利要求1所述的一种细胞神经网络硬件架构的优化方法,其特征在于,所述数据重用具体为:细胞神经网络在一个迭代单元内执行并行计算时,当前运算模块的3×3输入矩阵中前两列数据与前一个相邻运算模块的输入矩阵后两列数据存在数据共享关系,因此前两列数据可以通过访问相邻运算模块的寄存器获取,而第三列数据从迭代单元FIFO中读取,从而使FIFO带宽需求下降2/3。3.根据权利要求1所述的一种细胞神经网络硬件架构的优化方法,其特征在于,在系统级优化设计后还包括模块级优化设计,具体为:参数量化:对所有细胞神经网络的模板数据做指数量化,引入参数重复和矩阵稀疏化两个特性,从而减少乘法运算次数,并在量化的基础上用移位操作代替乘法运算;内存访问优化:通过重新分配片上内存访问和计算周期来减少延迟;在运算单元寄存器空闲时,将寄存器内存访问和计算操作并行执行,并行运算单元内存访问操作相互不独立,以流水线方式执行。4.根据权利要求3所述的一种细胞神经网络硬件架构的优化方法,其特征在于,所述参数量化具体为:在细胞神经网络的大量乘...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。