System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种抗辐射低延迟神经网络推理加速芯片制造技术_技高网

一种抗辐射低延迟神经网络推理加速芯片制造技术

技术编号:40260826 阅读:11 留言:0更新日期:2024-02-02 22:51
本发明专利技术提供了一种抗辐射低延迟神经网络推理加速芯片,涉及对撞机技术领域,包括以下步骤:在探测器前端部署神经网络推理加速芯片,采用流式架构,将每级流水线对应于每个主要的神经网络层,平衡有限的片上内存资源和对大尺寸输入的支持,并构建层并行、通道并行和卷积核并行;本发明专利技术提出了在探测器前端部署抗辐射、低延迟、高效的卷积神经网络推理加速芯片,来提高未来探测器硬件的智能化水平,并为此提出了基于细粒度的流式架构、细粒度的存储管理、灵活的压缩和量化,以及抗辐射数字芯片设计技术,在实现抗辐射、低延迟推理的同时,实现高吞吐量和低片上内存消耗,使下一代新型智能探测器可以在前端实施基于神经网络算法的实时分析触发。

【技术实现步骤摘要】

本专利技术涉及对撞机,尤其涉及一种抗辐射低延迟神经网络推理加速芯片


技术介绍

1、近年来,人工智能,特别是深度学习正在彻底改变我们解释对撞机产生的庞大数据样本的方式,极大地增加了当前和未来实验的发现潜力,粒子物理学中的传统方法,涉及使用领域专业知识来设计工具,以提取对给定测量最有用的数据特征,当这些人工设计的工具用于提取未能完全捕捉特征的复杂问题时,会丢失信息,这可能阻碍对新物理的搜索,正如在计算机视觉和自然语言处理领域一样,粒子物理领域也越来越努力跳过特征工程步骤,转而使用完整的高维特征空间来训练深度神经网络(dnn),特别是卷积神经网络(cnn),作为一种强大的dnn在多个领域取得了超人的表现,cnn的灵感来自动物视觉皮层,其中单个神经元仅处理来自部分视野的信息,这种“分而治之”的策略简化了神经网络架构,并有助于实现平移和旋转不变性等功能,cnn算法已经是离线分析中粒子识别、喷注标记、堆积抑制、径迹重建、事件和碰撞分类、新物理异常检测等应用的最先进技术,同样的,一些研究开始将神经网络算法从离线分析向在线触发转移,一方面,传统触发和重建算法在高堆积条件下不仅显著放缓,而且性能下降,神经网络可能是执行实时高效重建的唯一希望,另一方面,触发器中更复杂的神经网络算法将允许高能物理实验保留原本不会被选择的罕见事件,同时满足不可逆决策系统的严格鲁棒性要求,通常gpu是处理神经网络的标准工具,因为它们能够同时执行大量浮点运算,也出现了一些以较低的功耗执行推理加速的芯片,如英伟达的nvdla ,谷歌的tpu,寒武纪的cambricon 等,它们都采用了单计算引擎架构,这种架构包括一个强大的计算引擎,通常以处理元件(pe)的脉动阵列或矩阵乘法单元的形式,按顺序执行cnn层,网络中的层通过cpu的软件控制分时复用计算引擎来完成推理,这种设计通用性强、灵活性高,但由于类似于处理器的控制机制,牺牲了效率,也有一些基于fpga的神经网络加速器采用了这种架构,如angel-eye 、dnnweaver 等,另外一些采用了流式架构,如fpgaconvnet 、haddoc2等,流式架构通常由目标cnn的每一层的不同硬件块组成,其中每个块分别进行优化,然后将所有块都连接起来形成流水线,当数据在架构中流动时,数据通过神经网络的不同部分进行处理,虽然这些加速器有的可以实现非常高的吞吐量,但由于面向的应用不同,没有实现粒子物理所独有的亚微秒推理延迟需求;

2、为了在高能物理在线触发领域应用低延迟推理,有了在fpga上采用流式架构部署低延迟cnn的早期尝试,也开发了hls4ml编译器,以神经网络模型作为输入,然后产生c/c++代码,再通过vivado hls高级综合工具,将其转译为xilinx fpga固件,进一步扩展了hls4ml,采用流式架构支持cnn的fpga低延迟部署,然而由于使用了高级综合工具,hls4ml无法深度优化设计细节来降低推理延迟,转而将包括权重在内的整个神经网络进行片上部署,通过避免和片外存储的数据传输产生的延迟开销,来减少总体推理延迟,这种方法限制了hls4ml可以支持的模型大小和复杂性,并且基于fpga的推理加速器和商用推理加速芯片均无法在探测器前端的辐射环境下运行,因此,本专利技术提出一种抗辐射低延迟神经网络推理加速芯片以解决现有技术中存在的问题。


技术实现思路

1、针对上述问题,本专利技术提出一种抗辐射低延迟神经网络推理加速芯片,该一种抗辐射低延迟神经网络推理加速芯片提出在高能、高亮度粒子物理实验探测器前端,通过部署抗辐射、低延迟神经网络推理加速芯片来提升探测器的智能化水平,为未来高性能、低成本新型探测器架构的探索开启新的可能性。

2、为实现本专利技术的目的,本专利技术通过以下技术方案实现:一种抗辐射低延迟神经网络推理加速芯片,包括:

3、若干依次连接的流式架构单元:用于实现不同的神经网络层的计算;

4、以及外部存储单元:用于存储整个神经网络的权重。

5、进一步的,每个流式架构单元包括:

6、整形缓存:用于存储输入特征图切片或者前级神经网络层输出的特征图切片;

7、神经网络子单元:用于实现计算引擎阵列,可以完成卷积层或全连接层的并行计算。卷积层和全连接层使用相同的循环结构,因此使用相同的并行计算策略;

8、权重缓存:与外部存储单元连接,用于从外部存储器中抽取计算当前特征图切片所需的权重。

9、进一步的,流式架构消耗三种类型的资源:计算资源、片上存储器和外部存储器,该架构具备有两个数据路径,一个路径用于将输入特征图横向传递给计算单元,另一个路径将权重纵向传递给计算单元。

10、进一步的,神经网络子单元包括:

11、多个并行的计算引擎:实现卷积计算或者全连接计算的并行加速。每个计算引擎的输入数据来自前文所述的特征图切片和权重。

12、进一步的,并行计算时,并行性来自于6个维度,具体包括:

13、批并行性同时将多帧图像分组为批,以重用每一层中的权重,并最小化外部内存访问;

14、层并行性通过在结束n层的执行之前启动n+1层以流水线方式执行,并对主要的层实施并行化,其余的层合并到主要层,减少流水线的级数来降低延迟,实现参数化的rtl设计。

15、卷积层4个级别循环计算的展开则提供了另外4个并发源,全连接计算的循环展开与此类似。卷积核循环loop-4、输入通道循环loop-3、沿输入宽、高维度扫描操作的循环loop-2和卷积核窗口内乘法累加操作的循环loop-1。为了减少计算资源的开销,可以并行展开卷积层外两层的计算循环,即卷积核循环loop-4和输入通道循环loop-3。这是因为内两层循环的展开需要为每一个流水线阶段缓存完整的特征图,不仅会导致片上缓存的增大,还会使每一级流水线的延迟增大。而外两层计算循环的展开仅需缓存输入特征图的切片就可以启动流水线开始卷积运算。

16、卷积核并行是从权重中一次取多个卷积核,与特征图进行并行计算。

17、输入通道并行是从输入特征图中一次取多个数据通道,与卷积核进行并行计算。

18、进一步的,卷积层外两层即卷积核循环loop-4和输入通道循环loop-3的并行展开,为此定义两个参数,卷积核并行度因子kpf和通道并行度因子cpf,分别表示在流水线级内处理的卷积核的数量和输入通道的数量,由此使计算引擎阵列实现二维并行方案,并调整每个流水线阶段的资源开销,其中,计算引擎阵列由多个计算引擎构成,每个计算引擎用于处理有cpf个通道的输入特征图,计算引擎阵列中计算引擎的数目由kpf决定,将计算引擎以硬件为中心、自下而上,构建高性能、低开销的参数化rtl级ip,基于ip构建神经网络层,判断不同cpf和kpf对推理延迟、吞吐量、硬件开销的影响。

19、进一步的,基于细粒度列的缓存方法具体包括:

20、在芯片上保留部分输入特征图,在开始计算之前至少缓存两“列”;以一个卷积核大小为3,步长为1本文档来自技高网...

【技术保护点】

1.一种抗辐射低延迟神经网络推理加速芯片,其特征在于,所述神经网络推理加速芯片设置在探测器前端,具体包括:

2.根据权利要求1所述的一种抗辐射低延迟神经网络推理加速芯片,其特征在于:每个流式架构单元包括:

3.根据权利要求2所述的一种抗辐射低延迟神经网络推理加速芯片,其特征在于:流式架构消耗三种类型的资源:计算资源、片上存储器和外部存储器,该架构具备有两个数据路径,一个路径用于将输入特征图横向传递给计算单元,另一个路径将权重纵向传递给计算单元。

4.根据权利要求2所述的一种抗辐射低延迟神经网络推理加速芯片,其特征在于:神经网络子单元包括:

5.根据权利要求2所述的一种抗辐射低延迟神经网络推理加速芯片,其特征在于:并行计算时,并行性来自于6个维度,具体包括:

6.根据权利要求3所述的一种抗辐射低延迟神经网络推理加速芯片,其特征在于:卷积层外两层即卷积核循环Loop-4和输入通道循环Loop-3的并行展开,为此定义两个参数,卷积核并行度因子KPF和通道并行度因子CPF,分别表示在流水线级内处理的卷积核的数量和输入通道的数量,使计算引擎阵列实现二维并行方案,并调整每个流水线阶段的资源开销,其中,计算引擎阵列由多个计算引擎构成,每个计算引擎用于处理有CPF个通道的输入特征图,计算引擎阵列中计算引擎的数目由KPF决定,将计算引擎以硬件为中心、自下而上,构建参数化RTL级IP,基于IP构建神经网络层,判断不同CPF和KPF对推理延迟、吞吐量、硬件开销的影响。

7.根据权利要求4所述的一种抗辐射低延迟神经网络推理加速芯片,其特征在于:基于细粒度列的缓存方法具体包括:

8.根据权利要求5所述的一种抗辐射低延迟神经网络推理加速芯片,其特征在于:自适应分层存储方法具体包括:在计算密集型IP阵列和外部存储器之间插入缓存区,权重缓冲器用于连续缓存DRAM中的权重,在每个层的输入端提供可选的乒乓缓存,当所需的权重超过某个阈值,就会生成乒乓缓存;

9.根据权利要求7所述的一种抗辐射低延迟神经网络推理加速芯片,其特征在于:还包括网络量化,用于将每层的输入、权重、偏置、总和以及输出均从浮点转移到定点;网络量化具体包括训练后量化PTQ和量化感知训练QAT,

...

【技术特征摘要】

1.一种抗辐射低延迟神经网络推理加速芯片,其特征在于,所述神经网络推理加速芯片设置在探测器前端,具体包括:

2.根据权利要求1所述的一种抗辐射低延迟神经网络推理加速芯片,其特征在于:每个流式架构单元包括:

3.根据权利要求2所述的一种抗辐射低延迟神经网络推理加速芯片,其特征在于:流式架构消耗三种类型的资源:计算资源、片上存储器和外部存储器,该架构具备有两个数据路径,一个路径用于将输入特征图横向传递给计算单元,另一个路径将权重纵向传递给计算单元。

4.根据权利要求2所述的一种抗辐射低延迟神经网络推理加速芯片,其特征在于:神经网络子单元包括:

5.根据权利要求2所述的一种抗辐射低延迟神经网络推理加速芯片,其特征在于:并行计算时,并行性来自于6个维度,具体包括:

6.根据权利要求3所述的一种抗辐射低延迟神经网络推理加速芯片,其特征在于:卷积层外两层即卷积核循环loop-4和输入通道循环loop-3的并行展开,为此定义两个参数,卷积核并行度因子kpf和通道并行度因子cpf,分别表示在流水线级内处理的卷积核的数量...

【专利技术属性】
技术研发人员:肖乐张国香周子杰代文杰孙向明游必辉
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1