促进神经网络加速计算的方法、装置及设备制造方法及图纸

技术编号：38683496 阅读：24 留言：0更新日期：2023-09-02 22:56

本发明专利技术公开了一种促进神经网络加速计算的方法，涉及神经网络技术领域，用于解决现有神经网络计算分配时特征不匹配的问题，该方法包括以下步骤：获取神经网络运行参数；根据所述运行参数，计算神经网络各层仿存比；根据访存比计算结果对所述神经网络进行分组，将访存比差值在预设区间内的层分入同组；将分入同组的层分配给同一处理引擎。本发明专利技术还公开了一种神经网络计算加速装置及电子设备。本发明专利技术通过访存比对神经网络层进行分组，并匹配合适的处理引擎，使得神经网络计算分配时特征匹配，性能优。能优。能优。

全部详细技术资料下载

【技术实现步骤摘要】
促进神经网络加速计算的方法、装置及设备

[0001]本专利技术涉及一种神经网络
，尤其涉及一种基于FPGA的促进神经网络加速计算的方法、装置、设备及介质。

技术介绍

[0002]随着神经网络模型的快速发展，选择高效的加速硬件平台以适应复杂的计算应用至关重要，如果加速硬件平台无法支持神经网络的计算，则会造成神经网络无法实现相应功能、卡顿等问题。现场可编程门阵列(FPGA)因其低功耗和可重构特性而逐渐成为平衡功耗和性能的加速硬件平台。在2015年，现有技术开始引入Roofline模型，以便分析不同模型参数下的FPGA神经网络加速器，为FPGA神经网络加速器的设计提供指导与优化。Roofline模型能够描述计算任务在硬件平台的限制下能达到的理论计算性能。其中，Roofline模型包括计算限制区和访存限制区，计算限制区指的是在处理器所有可用计算资源的限制下，能够达到的最高性能水平；访存限制区是指在给定计算任务的访存比值下，处理器核心能够支持的最大吞吐量。
[0003]在神经网络的计算过程中，矩阵运算是一个关键环节，并且矩阵运算拆解到元素级别则是海量次的乘加运算MAC。因此，对于神经网络硬件加速器来说，MAC的运算速度是至关重要的。然而，Roofline模型虽然能够指导加速器的设计，但在算法计算强度较小时，硬件平台无法发挥其性能上限，整体性能受限于计算时的带宽表现，大量的计算核心会在部分时间处于空闲状态。这也是加速器设计面临的挑战之一，因为不同应用和不同层间的计算特性不统一，会导致性能损失。
[0004]...

【技术保护点】

【技术特征摘要】
1.一种促进神经网络加速计算的方法，其特征在于，包括以下步骤：获取神经网络的运行参数；根据所述运行参数，计算神经网络中各层的仿存比；根据神经网络中各层的访存比，对所述神经网络的各层进行分组，得到多个组，每个组中任意两个层的仿存比之间的差值在预设区间内；将分入同组的层分配给同一处理引擎。2.如权利要求1所述的促进神经网络加速计算的方法，其特征在于，所述运行参数包括：神经网络中各层的计算量、访问量。3.如权利要求1所述的促进神经网络加速计算的方法，其特征在于，将分入同组的层分配给同一处理引擎，还包括：计算每个处理引擎的理论吞吐量；根据所述各处理引擎的理论吞吐量，将同组中层的任务映射至计算量小于理论吞吐量的处理引擎。4.如权利要求3所述的促进神经网络加速计算的方法，其特征在于，所述理论吞吐量的计算满足：其中，Theoretical Pref
PE
表示理论吞吐量，Computational Roof表示系统计算硬件峰值性能，CTC Ratio*BW表示访存带宽支持最大性能。5.如权利要求1所述的促进神经网络加速计算的方法，其特征在于，还包括根据均衡度计算并结合设计空间探索法进行处理引擎的重新生成。6.如权利要求5所述的促进神经网络加速计算的方法，其特征在于，根据均衡度计算并结合设计空间探索法进行处理引擎的重新生成，包括以下步骤：计算处理引擎历史均衡度及当前均衡度；当所述当前均衡度小于等于所述历史均衡度时，进行迭代：寻找当前配置中最大计算延迟开销的处理引擎，称为第一处理引擎；为所述第一处理引擎增加计算资源并重新生成，得到第二处理引擎；检查所述第二处理引擎，若合法，则继续进行迭代，直至述当前均衡度大于所述历史均衡度，若不合法，还原所述第二处理引擎至...

【专利技术属性】
技术研发人员：梅冰笑，韩睿，张永，蒋鹏，王文浩，李晨，李斐然，王超，宫磊，周学海，李曦，
申请(专利权)人：中国科学技术大学苏州高等研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人