在卷积神经网络中的1x1卷积的加速制造技术

技术编号:39852023 阅读:48 留言:0更新日期:2023-12-30 12:52
本公开涉及在卷积神经网络中的1x1卷积的加速。卷积加速器包括特征行缓冲器,内核缓冲器,乘累加集群和模式控制电路装置。在第一操作模式中,模式控制电路装置将特征数据存储在特征行缓冲器中并将内核数据存储在内核缓冲器中。存储在缓冲器中的数据被传输到卷积加速器的MAC集群进行处理。在第二操作模式中,模式控制电路装置将特征数据存储在内核缓冲器中,并将内核数据存储在特征行缓冲器中。存储在缓冲器中的数据被传输到卷积加速器的MAC集群进行处理。第二操作模式可用于有效地处理1

【技术实现步骤摘要】
在卷积神经网络中的1x1卷积的加速


[0001]本公开一般涉及卷积加速器,诸如在学习/推理机(例如,人工神经网络(ANN),诸如卷积神经网络(CNN))中使用的卷积加速器。

技术介绍

[0002]各种计算机视觉,语音识别和信号处理应用可以受益于学习/推理机的使用,学习/推理机可以快速地执行数百,数千乃至数百万的并发操作。如本公开中所讨论的,学习/推理机可以属于机器学习,人工智能,神经网络,概率推理引擎,加速器等的技术名称。传统的学习/推理机可以提供数百teraflops(例如,每秒一百万(10
12
)个浮点运算)的计算能力。
[0003]这种学习/推理机可以包括或利用CNN,例如深度卷积神经网络(DCNN)。DCNN是一种基于计算机的工具,其处理大量的数据,并且通过将数据中的相关特征向近端整合,对数据进行广泛的预测,以及基于可靠的结论和新的整合来改进预测,从而自适应地“学习”。DCNN被安排在多个“层”中,并且在每一层进行不同类型的预测。通常采用包括卷积加速器的硬件加速器来加速DCNN对大量数据的处理。

技术实现思路

[0004]在一个实施例中,卷积加速器包括特征行缓冲器,与特征行缓冲器分离的内核缓冲器,乘累加(MAC)集群,以及耦合到特征行缓冲器、内核缓冲器和MAC集群的模式控制电路装置。在卷积加速器的第一操作模式中,模式控制电路装置将特征数据存储在特征行缓冲器中,将内核数据存储在内核缓冲器中,将特征数据从特征行缓冲器传输到MAC集群,并且将内核数据从内核缓冲器传输到MAC集群。在卷积加速器的第二操作模式中,模式控制电路装置将特征数据存储在内核缓冲器中,将内核数据存储在特征行缓冲器中,将特征数据从内核缓冲器传输到MAC集群,并且将内核数据从特征行缓冲器传输到MAC集群。第二操作模式可用于有效地处理1
×
N内核,其中N是大于或等于1的整数。
[0005]在一个实施例中,一种系统包括:流引擎,其在操作中流式传输特征和内核数据;以及卷积加速器,其耦合到所述流引擎,其中所述卷积加速器在操作中从所述流引擎接收特征和内核数据的流。卷积加速器包括特征行缓冲器,内核缓冲器,耦合到特征行缓冲器和内核缓冲器的乘累加集群,耦合到特征行缓冲器,内核缓冲器和MAC集群的模式控制电路装置。在卷积加速器的第一操作模式中,模式控制电路装置将特征数据存储在特征行缓冲器中,将内核数据存储在内核缓冲器中,将特征数据从特征行缓冲器传输到MAC集群,并且将内核数据从内核缓冲器传输到MAC集群。在卷积加速器的第二操作模式中,模式控制电路装置将特征数据存储在内核缓冲器中,将内核数据存储在特征行缓冲器中,将特征数据从内核缓冲器传输到MAC集群,并且将内核数据从特征行缓冲器传输到MAC集群。第二操作模式可用于有效地处理1
×
N内核,其中N是大于或等于1的整数。
[0006]在一个实施例中,一种方法包括将特征数据和内核数据流式传输到卷积加速器,以及将流式传输内核数据与流式传输特征数据进行卷积。卷积包括:在卷积加速器的第一
操作模式中,将特征数据存储在卷积加速器的特征行缓冲器中,将内核数据存储在卷积加速器的内核缓冲器中,将特征数据从特征行缓冲器传输到卷积加速器的MAC集群,以及将内核数据从内核缓冲器传输到MAC集群。在卷积加速器的第二操作模式中,卷积包括将特征数据存储在内核缓冲器中,将内核数据存储在特征行缓冲器中,将特征数据从内核缓冲器传输到MAC集群,以及将内核数据从特征行缓冲器传输到MAC集群。第二操作模式可用于有效地处理1
×
N内核,其中N是大于或等于1的整数。
[0007]在一个实施例中,非暂态计算机可读介质的内容配置具有多个操作模式的卷积加速器,以将流式传输内核数据与流式传输特征数据进行卷积。卷积包括:在卷积加速器的多个操作模式中的第一操作模式中,将特征数据存储在卷积加速器的特征行缓冲器中,将内核数据存储在卷积加速器的内核缓冲器中,将特征数据从特征行缓冲器传输到卷积加速器的MAC集群,以及将内核数据从内核缓冲器传输到MAC集群。在卷积加速器的多个操作模式中的第二操作模式中,卷积包括将特征数据存储在内核缓冲器中,将内核数据存储在特征行缓冲器中,将特征数据从内核缓冲器传输到MAC集群,以及将内核数据从特征行缓冲器传输到MAC集群。第二操作模式可用于有效地处理1
×
N内核,其中N是大于或等于1的整数。在一个实施例中,所述内容包括由卷积加速器执行的指令。
附图说明
[0008]下文将参照附图描述一个或多个实施例。
[0009]图1是说明数字识别任务的概念图。
[0010]图2是示出图像识别任务的概念图。
[0011]图3是示出CNN的示例的概念图。
[0012]图4是示出CNN的示例卷积层的概念图。
[0013]图5是示出CNN的卷积层的跨步的概念图。
[0014]图6是示出在卷积期间应用输入特征映射的填充以保持高度和宽度尺寸的概念图。
[0015]图7是示出批量加载特征数据的概念图。
[0016]图8是说明分批卷积处理的概念图。
[0017]图9是采用卷积加速器模式控制电路装置的电子设备或系统的实施例的功能框图。
[0018]图10是示出使用卷积加速器的实施例的具有3
×
3内核的卷积操作的处理的概念图。
[0019]图11是示出分别具有3
×
3和1
×
1内核的卷积层的概念图。
[0020]图12是示出在其中卷积加速器的组件被关断的操作模式中,使用在特征行缓冲器中存储特征行数据和在内核缓冲器中存储内核数据的卷积加速器的实施例来处理具有1
×
1内核的卷积操作的概念图。
[0021]图13A和图13B(这里统称为图13)是示出根据实施例的卷积加速器的两种操作模式的概念图。
[0022]图14是示出在卷积加速器的深层操作模式中使用将特征行数据存储在内核缓冲器中并将内核数据存储在特征行缓冲器中的卷积加速器的实施例来处理具有1
×
1内核的
卷积操作的概念图。
[0023]图15是卷积加速器的实施例的功能框图,该卷积加速器包括控制卷积加速器在深层操作模式中的操作的模式控制电路装置。
[0024]图16是示出根据实施例的卷积加速器的深层操作模式中的特征和内核数据流路径的概念图。
[0025]图17是示出根据实施例的在深层操作模式中操作的卷积加速器的操作周期中每个1
×
1内核的内核值的三个卷积操作的性能的概念图。
[0026]图18是示出根据实施例的以深层操作模式操作的卷积加速器中的特征数据的数据路径的概念图。
[0027]图19是示出根据实施例的以深层操作模式操作的卷积加速器中的内核数据的数据路径的概念图。
[0028]图20是示出根据实施例的在以深层操作模式操作的卷积加速器中利用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种卷积加速器,包括:特征行缓冲器;内核缓冲器,与特征行缓冲器分离;乘法累加MAC集群;以及模式控制电路装置,耦合到所述特征行缓冲器,所述内核缓冲器和所述MAC集群,其中所述模式控制电路装置:在所述卷积加速器的第一操作模式中:将特征数据存储在所述特征行缓冲器中;将内核数据存储在所述内核缓冲器中;从所述特征行缓冲器向所述MAC集群传输特征数据;以及从所述内核缓冲器向所述MAC集群传输内核数据;以及在所述卷积加速器的第二操作模式中:在将特征数据存储在所述内核缓冲器中;将内核数据存储在所述特征行缓冲器中;从所述内核缓冲器向所述MAC集群传输特征数据;以及从所述特征行缓冲器向所述MAC集群传输内核数据。2.根据权利要求1所述的卷积加速器,其中所述模式控制电路装置在所述第一操作模式中:在所述特征行缓冲器中存储深度达1024个元素的三行特征行数据;以及在所述内核缓冲器中存储3
×
3内核。3.根据权利要求2所述的卷积加速器,其中所述模式控制电路装置在所述第二操作模式中:在所述内核缓冲器中存储深度达128个元素的六行特征行数据;以及在所述特征行缓冲器中存储1
×
1内核。4.根据权利要求3所述的卷积加速器,其中所述模式控制电路装置在所述第二操作模式中:在周期中将三行特征行数据从所述内核缓冲器传输到所述MAC集群;以及在所述周期中将24个内核数据值传输到MAC集群。5.根据权利要求4所述的卷积加速器,其中所述MAC集群在操作中在所述周期中生成72个输出值。6.根据权利要求1所述的卷积加速器,其中:所述特征行缓冲器是单端口存储器;以及所述内核缓冲器包括多个双端口缓冲器。7.根据权利要求6所述的卷积加速器,其中所述模式控制电路装置在所述第二操作模式中:将特征行数据存储在所述多个双端口缓冲器的第一子集中;以及在所述多个双端口缓冲器的第二子集中缓冲内核数据。8.根据权利要求7所述的卷积加速器,其中在所述多个双端口缓冲器的所述第二子集中缓冲内核数据包括:
将内核数据存储在所述第二子集的第一双端口缓冲器中;将内核数据从所述第二子集的所述第一双端口缓冲器传输到所述特征行缓冲器;将内核数据从所述特征行缓冲器传输到所述第二子集的第二双端口缓冲器;以及将内核数据从所述第二子集的所述第二双端口缓冲器传输到所述MAC集群。9.根据权利要求7所述的卷积加速器,其中在所述多个双端口缓冲器的所述第二子集中缓冲内核数据包括:将内核数据从所述特征行缓冲器传输到所述双端口缓冲器的所述第二子集的双端口缓冲器;以及将内核数据从所述双端口缓冲器的所述第二子集的所述双端口缓冲器传输到所述MAC集群。10.根据权利要求1所述的卷积加速器,其中在所述第二操作模式中,所述模式控制电路装置串行化由所述MAC集群生成的输出值。11.根据权利要求1所述的卷积加速器,包括配置寄存器,其中所述模式控制电路装置在操作中基于存储在所述配置寄存器中的配置参数来确定是在所述第一操作模式中操作还是在所述第二操作模式中操作。12.根据权利要求1所述的卷积加速器,其中在所述第二操作模式中,所述内核数据具有1
×
N的尺寸,其中N是大于或等于1的整数。13.一种系统,包括:流引擎,其在操作中流式传输特征和内核数据;以及卷积加速器,耦合到所述流引擎,其中所述卷积加速器在操作中从所述流引擎接收特征的流和内核数据的流,所述卷积加速器包括:特征行缓冲器;内核缓冲器;乘法累加集群,耦合到所述特征行缓冲器和所述内核缓冲器;以及模式控制电路装置,耦合到所述特征行缓冲器、所述内核缓冲器和所述MAC集群,其中所述模式控制电路装置:在所述卷积加速器的第一操作模式中:将特征数据存储在所述特征行缓冲器中;将内核数据存储在所述内核缓冲器中;从所述特征行缓冲器向所述MAC集群传输特征数据;以及从所述内核缓冲器向所述MAC集群传输内核数据;以及在所述卷积加速器的第二操作模式中:将特征数据存储在所述内核缓冲器中;将内核数据存储在所述特征行缓冲器中;从所述内核缓冲器向所述MAC集群传输特征数据;以及从所述特征行缓冲器向所述MAC集群传输内核数据。14.根据权利要求13所述...

【专利技术属性】
技术研发人员:M
申请(专利权)人:意法半导体国际有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1