【技术实现步骤摘要】
一种动态可扩展的卷积神经网络加速器
本专利技术公开了一种动态可扩展的卷积神经网络加速器,涉及神经网络的物理实现,属于计算、推算、计数的
技术介绍
随着计算机和通讯技术的进步,互联网数据呈爆炸式增长。海量数据的处理成为一个极大的挑战,传统方式已经无法应对当前的局面。深度学习已成为大数据处理的一个可行方法。深度学习是人工智能的重要组成部分,可以更真实地模拟人类大脑的工作机制从而实现更好的效果。其中,深度学习中的卷积神经网络在图像处理领域中取得了引人注目的成就。卷积神经网络可以部署在云端,但是在很多应用场景中卷积神经网络本地化运行成为迫切的需求。在视频追踪等计算机视觉任务中,海量视频数据的网络传输成本很高,因此需要在本地完成特征提取和识别。自动驾驶对数据处理的实时性要求极高,大量的数据通过网络传输会导致很大的延迟,并且网络连接容易受环境影响,稳定性和可靠性都难以满足需求,因此基于云端的神经网络难以符合自动驾驶的需要。很多手机语音助手严重依赖云端处理,但是当网络通讯不良时,手机助手的流畅运行就需要通过本地化处理保障 ...
【技术保护点】
1.一种动态可扩展的卷积神经网络加速器,其特征在于,包括:/n自适应数据存储模块,通过多层次化存储结构读写数据,及,/n计算阵列调度模块,包含至少一个基于乘加电路的计算子阵列和至少一个基于查找表乘法器的计算子阵列,调度至少两个相同类型的计算子阵列完成大尺寸数据的计算任务,调度至少一个基于乘加电路的计算子阵列和至少一个基于查找表乘法器的计算子阵列完成高任务负载的计算任务,基于查找表乘法器的计算子阵列所需的查找表数据由基于乘加电路的计算子阵列提供。/n
【技术特征摘要】
1.一种动态可扩展的卷积神经网络加速器,其特征在于,包括:
自适应数据存储模块,通过多层次化存储结构读写数据,及,
计算阵列调度模块,包含至少一个基于乘加电路的计算子阵列和至少一个基于查找表乘法器的计算子阵列,调度至少两个相同类型的计算子阵列完成大尺寸数据的计算任务,调度至少一个基于乘加电路的计算子阵列和至少一个基于查找表乘法器的计算子阵列完成高任务负载的计算任务,基于查找表乘法器的计算子阵列所需的查找表数据由基于乘加电路的计算子阵列提供。
2.根据权利要求1所述一种动态可扩展的卷积神经网络加速器,其特征在于,所述自适应存储模块包含五级存储器,
第一级存储器为计算单元内部临时数据存储器,包括:基于乘加电路的计算子阵列中每个神经处理单元内部的寄存器,及,基于查找表乘法器的计算子阵列中每个神经处理单元的查找表存储体、累加寄存器;
第二级存储器为与基于乘加电路的计算子阵列紧耦合的分布式数据缓存,由多个存储体构成,存储体个数大于基于乘加电路的计算子阵列的行数,基于乘加电路的计算子阵列的每一行通过灵活路由结构与一个存储体相连,剩余的存储体预取用于下一运行周期的数据;
第三级存储器为加速器与外部存储之间的数据缓存,包括:用于缓存从外部存储读入的数据的外部数据装载缓存、用于缓存加速器需要写入外部存储的数据的外部数据存储缓存、计算子阵列间数据共享缓存;
第四级存储器为预取缓存,用户缓存从外部存储中预取的基于乘加电路的计算子阵列所需的数据,经缓存的预取数据存入与基于乘加电路的计算子阵列紧耦合的分布式数据缓存;
第五级存储器为外部存储器,用于存储基于乘加电路的计算子阵列所需的数据及中间计算结果。
3.根据权利要求1所述一种动态可扩展的卷积神经网络加速器,其特征在于,基于乘加电路的计算子阵列包含k行计算单元,与基于乘加电路的计算子阵列紧耦合的分布式数据缓存包含k+1个存储体,在第n个运行周期内,第i+(n-1)个存储体与i行计算单元映射以提供计算数据,第k+n个存储体预装载第k+n行计算数据,i...
【专利技术属性】
技术研发人员:刘波,李焱,黄乐朋,孙煜昊,沈泽昱,杨军,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。