用于深度学习加速的集成电路制造技术

技术编号:23993136 阅读:55 留言:0更新日期:2020-04-29 17:16
本公开涉及用于深度学习加速的集成电路。实施例包括板载存储器、应用处理器、数字信号处理器(DSP)集群、可配置的加速器框架(CAF)和至少一个通信总线架构。通信总线将应用处理器、DSP集群和CAF通信地耦合到板载存储器。CAF包括可重配置的流交换器和数据体雕刻单元,其具有耦合到可重配置的流交换器的输入和输出。数据体雕刻单元具有计数器、比较器和控制器。数据体雕刻单元被布置为接收形成三维(3D)特征图的特征图数据的流。3D特征图被形成为多个二维(2D)数据平面。数据体雕刻单元还被布置为标识3D特征图内的3D体、并且从3D特征图隔离在3D体内的数据以用于在深度学习算法中进行处理。实施例能够高效地标识和隔离三维特征图内的三维体。

Integrated circuit for deep learning acceleration

【技术实现步骤摘要】
用于深度学习加速的集成电路
本公开总体上涉及改善例如卷积神经网络(CNN)中的深度机器学习系统的灵活性、数据局部性和更快执行。更具体地但非排他性地,本公开涉及用于深度学习加速引擎的数据体(datavolume)雕刻器(sculptor)。
技术介绍
已知的计算机视觉、语音识别和信号处理应用受益于对学习机器的使用。本公开中所讨论的学习机器可以落入机器学习、人工智能、神经网络、概率推理引擎、加速器等的技术题目下。这样的机器被布置为快速地执行数百、数千以及数百万并发操作。常规学习机器可以递送数百万亿次浮点运算(即,每秒一万亿(1012)次浮点运算)的计算能力。在一些情况下,学习机器被组织为深度卷积神经网络(DCNN)。DCNN领域中的开创性著作是Y.LeCun等人的“Gradient-BasedLearningAppliedToDocumentRecognition”(ProceedingsoftheIEEE,vol.86,no.11,第2278-2324页,1998),其最终利用“AlexNet”赢得2012ImageNet大规模视觉识别挑战。如在Krizhevsky,A.Sutskever,I.和Hinton,G.的“ImageNetClassificationWithDeepConvolutionalNeuralNetworks”(NIPS,第1-9页,LakeTahoe,NV(2012))中描述的AlexNet是第一次表现明显好于经典方法的DCNN。DCNN是处理大量数据并且通过合并数据内的最接近地相关的特征、做出关于数据的宽泛预测、并且基于可靠的结论和新的合并完善预测来自适应地“学习”的基于计算机的工具。DCNN被布置在多个“层”中并且在每个层处做出不同类型的预测。例如,如果面部的多幅二维图片作为输入被提供给DCNN,则DCNN将学习各种面部特性,诸如边缘、曲线、角度、点、颜色对比度、亮点、暗点等。这些一个或多个特征在DCNN的一个或多个第一层处被学习。然后,在一个或多个第二层中,DCNN将学习各种可识别的面部特征,诸如眼睛、眉毛、前额、头发、鼻子、嘴巴、脸颊等;其中的每一个可与所有其他特征区分开。即,DCNN学习识别眼睛并将眼睛与眉毛或任何其他面部特征区分开。在一个或多个第三和之后的后续层中,DCNN学习整个面部和更高阶特性,诸如种族、性别、年龄、情绪状态等。DCNN甚至在一些情况被教导识别个人的特定身份。例如,随机图像可以被识别为面部,并且面部可以被识别为奥兰多·布鲁姆、安德烈·波伽利或某个其他身份。在其他的一些示例中,DCNN可以被提供有动物的多幅图片,并且DCNN可以被教导标识狮子、老虎和熊;DCNN可以被提供有汽车的多幅图片,并且DCNN可以被教导标识并区分不同类型的车辆;并且许多其他DCNN也可以被形成。DCNN可以用于学习句子中的词语模式、识别音乐、分析个体购物模式、打视频游戏、创建交通路线,并且DCNN也可以用于许多其他基于学习的任务。图1A-图1J可以在本文中被统称为图1。图1A是卷积神经网络(CNN)系统10的简化图示。在CNN系统中,像素的二维阵列由CNN处理。CNN分析10×10输入对象平面以确定“1”是否被表示在该平面中,“0”是否被表示在该平面中,或者“1”或“0”是否都没有被实施在该平面中。在10×10输入对象平面中,每个像素是被照亮的或未被照亮的。为图示的简单起见,被照亮的像素被填充(例如,暗色)并且未被照亮的像素不被填充(例如,亮色)。图1B图示了图1A的CNN系统10确定第一像素图案图示“1”并且第二像素图案图示“0”。然而,在现实世界中,图像并不总是如图1B中图示的那样整洁地对齐。在图1C中,示出了不同形式的一和零的若干变型。在这些图像中,普通人类观察者将容易意识到具体数字被平移或缩放,但是观察者还将正确地确定图像表示“1”还是“0”。按照这些原则,不用思考,人类观察者展望图像旋转、数字的各种加权、数字的大小调整、移位、倒转、重叠、破碎、相同图像中的多个数字、以及其他这样的特性。然而,以编程方式,在传统计算系统中,这样的分析非常困难。各种图像匹配技术是已知的,但是甚至关于非常小的图像大小,这种类型的分析也快速地压倒可用的计算资源。然而,对比之下,CNN系统10可以以可接受的准确度正确地识别每幅处理的图像中的一、零、一和零两者、或者既没有一也没有零,即使CNN系统10先前从未“看到”过确切的图像。图1D表示分析(例如,数学上组合)未知图像的部分以及已知图像的对应部分的CNN操作。例如,左侧未知图像的3像素部分B5-C6-D7可以被识别为匹配右侧已知图像的对应3像素部分C7-D8-E9。在这些和其他情况下,各种其他对应的像素布置也可以被识别。一些其他对应关系被图示在表1中。表1–对应的已知图像分段和未知图像分段在识别到已知图像的分段或部分可以被匹配到未知图像的对应分段或部分的情况下,进一步识别到,通过统一部分匹配操作,整个图像可以以完全相同的方式被处理同时得到先前未计算出的结果。换句话说,特定部分的大小可以被选择,并且已知图像可以然后逐部分被分析。当已知图像的任何给定部分内的图案在数学上与未知图像的类似大小的部分组合时,生成表示这些部分之间的相似度的信息。图1E图示了图1D的右侧已知图像的六个部分。每个部分(也称为“核”)被布置为3个像素乘3个像素的阵列。在计算上,被照亮的像素在数学上被表示为正“1”(即,+1);并且未被照亮的像素在数学上被表示为负“1”(即,-1)。为简化图1E中的图示起见,每个图示的核也被示出具有图1D的列和行引用。图1E中示出的六个核是代表性的并且被选择以便于理解CNN系统10的操作。清楚的是,已知图像可以利用重叠或非重叠核的有限集合来表示。例如,考虑3个像素乘3个像素的核大小以及具有一(1)步幅的重叠核的系统,每个10×10像素图像可以具有64个对应的核。第一核跨越列A、B、C和行1、2、3中的9个像素。第二核跨越列B、C、D和行1、2、3中的9个像素。第三核跨越列C、D、E和行1、2、3中的9个像素。核的这种图案继续直到第八核跨越列H、I、J和行1、2、3中的9个像素。核对齐以这种方式继续直到第57核跨越列A、B、C和行8、9、10,并且以此类推直到第64核跨越列H、I、J和行8、9、10。在其他的一些CNN系统中,核可以是重叠的或非重叠的,并且核可以具有2、3、或某个其他数目的步幅。用于选择核大小、步幅、位置等的不同策略由CNN系统设计者基于过去的结果、分析研究或者以某种其他方式来选择。返回到图1D和图1E的示例,总共64个核使用已知图像中的信息来形成。第一核以最上面、最左边的3×3阵列中的9个像素开始。接下来的七个核各自被顺序地向右移位一列。第九核返回到头三列并且向下下降到第二行,类似于基于文本的文档的回车操作,其概念是从二十世纪的手动打字机得到的。遵循这种图案,图1E示出了图1D(b)中的10本文档来自技高网...

【技术保护点】
1.一种用于深度学习加速的集成电路,其特征在于,包括:/n板载存储器;/n应用处理器;/n数字信号处理器集群;/n可配置的加速器框架;以及/n至少一个通信总线架构,将所述应用处理器、所述数字信号处理器集群和所述可配置的加速器框架通信地耦合到所述板载存储器,其中所述可配置的加速器框架包括:/n可重配置的流交换器;以及/n数据体雕刻单元,所述数据体雕刻单元具有耦合到所述可重配置的流交换器的至少一个输入和耦合到所述可重配置的流交换器的输出,所述数据体雕刻单元具有计数器、比较器和控制器,所述数据体雕刻单元被布置为:/n经由所述至少一个输入接收特征图数据的流,所述特征图数据的流形成三维特征图,所述三维特征图被形成为多个二维数据平面;/n标识所述三维特征图内的三维体,所述三维体在尺寸上小于所述三维特征图;/n从所述三维特征图隔离在所述三维体内的数据,以用于在深度学习算法中进行处理;以及/n经由所述输出提供隔离的数据。/n

【技术特征摘要】
20180227 US 62/636,018;20190220 US 16/280,9631.一种用于深度学习加速的集成电路,其特征在于,包括:
板载存储器;
应用处理器;
数字信号处理器集群;
可配置的加速器框架;以及
至少一个通信总线架构,将所述应用处理器、所述数字信号处理器集群和所述可配置的加速器框架通信地耦合到所述板载存储器,其中所述可配置的加速器框架包括:
可重配置的流交换器;以及
数据体雕刻单元,所述数据体雕刻单元具有耦合到所述可重配置的流交换器的至少一个输入和耦合到所述可重配置的流交换器的输出,所述数据体雕刻单元具有计数器、比较器和控制器,所述数据体雕刻单元被布置为:
经由所述至少一个输入接收特征图数据的流,所述特征图数据的流形成三维特征图,所述三维特征图被形成为多个二维数据平面;
标识所述三维特征图内的三维体,所述三维体在尺寸上小于所述三维特征图;
从所述三维特征图隔离在所述三维体内的数据,以用于在深度学习算法中进行处理;以及
经由所述输出提供隔离的数据。


2.根据权利要求1所述的集成电路,其特征在于,所述数据体雕刻单元还被布置为:
经由所述至少一个输入接收限定第一二维数据平面中的感兴趣区域的输入信息,所述输入信息包括所述感兴趣区域的至少一个第一坐标和足以形成所述第一二维数据平面中的封闭二维体的另外信息;
加载并且按顺序排好所述计数器,使得所述第一二维数据平面中的每...

【专利技术属性】
技术研发人员:S·P·辛格T·勃伊施G·德索利
申请(专利权)人:意法半导体国际有限公司意法半导体股份有限公司
类型:新型
国别省市:荷兰;NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1