【技术实现步骤摘要】
在卷积神经网络中的1x1卷积的加速
[0001]本公开一般涉及卷积加速器,诸如在学习/推理机(例如,人工神经网络(ANN),诸如卷积神经网络(CNN))中使用的卷积加速器。
技术介绍
[0002]各种计算机视觉,语音识别和信号处理应用可以受益于学习/推理机的使用,学习/推理机可以快速地执行数百,数千乃至数百万的并发操作。如本公开中所讨论的,学习/推理机可以属于机器学习,人工智能,神经网络,概率推理引擎,加速器等的技术名称。传统的学习/推理机可以提供数百teraflops(例如,每秒一百万(10
12
)个浮点运算)的计算能力。
[0003]这种学习/推理机可以包括或利用CNN,例如深度卷积神经网络(DCNN)。DCNN是一种基于计算机的工具,其处理大量的数据,并且通过将数据中的相关特征向近端整合,对数据进行广泛的预测,以及基于可靠的结论和新的整合来改进预测,从而自适应地“学习”。DCNN被安排在多个“层”中,并且在每一层进行不同类型的预测。通常采用包括卷积加速器的硬件加速器来加速DCNN对大量数据的处理。
技术实现思路
[0004]在一个实施例中,卷积加速器包括特征行缓冲器,与特征行缓冲器分离的内核缓冲器,乘累加(MAC)集群,以及耦合到特征行缓冲器、内核缓冲器和MAC集群的模式控制电路装置。在卷积加速器的第一操作模式中,模式控制电路装置将特征数据存储在特征行缓冲器中,将内核数据存储在内核缓冲器中,将特征数据从特征行缓冲器传输到MAC集群,并且将内核数据从内核缓冲器传输到MAC ...
【技术保护点】
【技术特征摘要】
1.一种卷积加速器,包括:特征行缓冲器;内核缓冲器,与特征行缓冲器分离;乘法累加MAC集群;以及模式控制电路装置,耦合到所述特征行缓冲器,所述内核缓冲器和所述MAC集群,其中所述模式控制电路装置:在所述卷积加速器的第一操作模式中:将特征数据存储在所述特征行缓冲器中;将内核数据存储在所述内核缓冲器中;从所述特征行缓冲器向所述MAC集群传输特征数据;以及从所述内核缓冲器向所述MAC集群传输内核数据;以及在所述卷积加速器的第二操作模式中:在将特征数据存储在所述内核缓冲器中;将内核数据存储在所述特征行缓冲器中;从所述内核缓冲器向所述MAC集群传输特征数据;以及从所述特征行缓冲器向所述MAC集群传输内核数据。2.根据权利要求1所述的卷积加速器,其中所述模式控制电路装置在所述第一操作模式中:在所述特征行缓冲器中存储深度达1024个元素的三行特征行数据;以及在所述内核缓冲器中存储3
×
3内核。3.根据权利要求2所述的卷积加速器,其中所述模式控制电路装置在所述第二操作模式中:在所述内核缓冲器中存储深度达128个元素的六行特征行数据;以及在所述特征行缓冲器中存储1
×
1内核。4.根据权利要求3所述的卷积加速器,其中所述模式控制电路装置在所述第二操作模式中:在周期中将三行特征行数据从所述内核缓冲器传输到所述MAC集群;以及在所述周期中将24个内核数据值传输到MAC集群。5.根据权利要求4所述的卷积加速器,其中所述MAC集群在操作中在所述周期中生成72个输出值。6.根据权利要求1所述的卷积加速器,其中:所述特征行缓冲器是单端口存储器;以及所述内核缓冲器包括多个双端口缓冲器。7.根据权利要求6所述的卷积加速器,其中所述模式控制电路装置在所述第二操作模式中:将特征行数据存储在所述多个双端口缓冲器的第一子集中;以及在所述多个双端口缓冲器的第二子集中缓冲内核数据。8.根据权利要求7所述的卷积加速器,其中在所述多个双端口缓冲器的所述第二子集中缓冲内核数据包括:
将内核数据存储在所述第二子集的第一双端口缓冲器中;将内核数据从所述第二子集的所述第一双端口缓冲器传输到所述特征行缓冲器;将内核数据从所述特征行缓冲器传输到所述第二子集的第二双端口缓冲器;以及将内核数据从所述第二子集的所述第二双端口缓冲器传输到所述MAC集群。9.根据权利要求7所述的卷积加速器,其中在所述多个双端口缓冲器的所述第二子集中缓冲内核数据包括:将内核数据从所述特征行缓冲器传输到所述双端口缓冲器的所述第二子集的双端口缓冲器;以及将内核数据从所述双端口缓冲器的所述第二子集的所述双端口缓冲器传输到所述MAC集群。10.根据权利要求1所述的卷积加速器,其中在所述第二操作模式中,所述模式控制电路装置串行化由所述MAC集群生成的输出值。11.根据权利要求1所述的卷积加速器,包括配置寄存器,其中所述模式控制电路装置在操作中基于存储在所述配置寄存器中的配置参数来确定是在所述第一操作模式中操作还是在所述第二操作模式中操作。12.根据权利要求1所述的卷积加速器,其中在所述第二操作模式中,所述内核数据具有1
×
N的尺寸,其中N是大于或等于1的整数。13.一种系统,包括:流引擎,其在操作中流式传输特征和内核数据;以及卷积加速器,耦合到所述流引擎,其中所述卷积加速器在操作中从所述流引擎接收特征的流和内核数据的流,所述卷积加速器包括:特征行缓冲器;内核缓冲器;乘法累加集群,耦合到所述特征行缓冲器和所述内核缓冲器;以及模式控制电路装置,耦合到所述特征行缓冲器、所述内核缓冲器和所述MAC集群,其中所述模式控制电路装置:在所述卷积加速器的第一操作模式中:将特征数据存储在所述特征行缓冲器中;将内核数据存储在所述内核缓冲器中;从所述特征行缓冲器向所述MAC集群传输特征数据;以及从所述内核缓冲器向所述MAC集群传输内核数据;以及在所述卷积加速器的第二操作模式中:将特征数据存储在所述内核缓冲器中;将内核数据存储在所述特征行缓冲器中;从所述内核缓冲器向所述MAC集群传输特征数据;以及从所述特征行缓冲器向所述MAC集群传输内核数据。14.根据权利要求13所述...
【专利技术属性】
技术研发人员:M,
申请(专利权)人:意法半导体国际有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。