【技术实现步骤摘要】
用于深度学习加速的算术单元
本公开一般涉及例如在卷积神经网络(CNN)中支持和推进深度机器学习的结构。更具体地但非排他地,本公开涉及一种用于深度学习加速引擎的算术单元。
技术介绍
已知的计算机视觉、语音识别和信号处理应用受益于学习机器的使用。本公开中讨论的学习机器可以落入机器学习、人工智能、神经网络、概率推理引擎、加速器等等的技术标题之下。这样的机器被布置为快速执行数百、数千和数百万的并发运算。常规学习机器可以提供数百个TeraFlop(即,每秒一万亿(1012)次浮点运算)的计算能力。在某些情况下,学习机器被组织为深度卷积神经网络(DCNN)。DCNN领域中的开创性工作是Y.LeCun等人的“Gradient-BasedLearningAppliedToDocumentRecognition”,IEEE会议录,第86卷,第11号第2278-2324页,1998年,该文献导致以“AlexNet”赢得2012年ImageNet大规模视觉识别挑战。如Krizhevsky,A.,Sutskever,I.和Hinton,G.的“ImageNetClassification ...
【技术保护点】
1.一种设备,包括:集成电路;可重配置流开关,形成在所述集成电路中;以及算术单元,具有耦合到所述可重配置流开关的多个输入、以及至少一个输出,所述算术单元专用于多个并行运算的执行,其中所述多个并行运算中的每一个运算执行公式的一部分,所述公式为:输出=AX+BY+C。
【技术特征摘要】
2018.02.27 US 62/636,009;2019.02.20 US 16/280,9601.一种设备,包括:集成电路;可重配置流开关,形成在所述集成电路中;以及算术单元,具有耦合到所述可重配置流开关的多个输入、以及至少一个输出,所述算术单元专用于多个并行运算的执行,其中所述多个并行运算中的每一个运算执行公式的一部分,所述公式为:输出=AX+BY+C。2.根据权利要求1所述的设备,其中,所述集成电路被布置用于卷积神经网络运算。3.根据权利要求1所述的设备,其中,所述算术单元被布置为接收被传递通过所述可重配置流开关的流式传输数据,并且所述算术单元被布置为经由所述至少一个输出将结果数据的流传递通过所述可重配置流开关。4.根据权利要求1所述的设备,其中,所述多个输入中的至少一个输入被布置为将矢量数据传递到所述算术单元中。5.根据权利要求1所述的设备,其中,所述多个输入中的至少一个输入被布置为将标量数据传递到所述算术单元中。6.根据权利要求1所述的设备,其中,所述算术单元包括:复用器电路装置,被布置作为多个复用器电路,所述多个复用器电路通信地耦合到所述多个输入中的至少一些输入;乘法器电路装置,被布置作为多个乘法器电路,每个乘法器电路被布置为接受来自所述复用器电路装置的被乘数数据、乘数数据或者被乘数数据和乘数数据二者,所述乘法器电路装置还被布置为执行所述公式的至少一些乘法运算;临时存储电路装置,被布置作为多个临时存储库,所述多个临时存储库中的每一个库被布置为从乘法器电路接收乘积数据;数据移位电路装置,被布置作为多个移位电路,所述多个移位电路通信地耦合所述临时存储电路装置;以及加法器电路装置,被布置作为至少一个加法器电路,以执行所述公式的至少一些求和运算。7.根据权利要求6所述的设备,其中,所述算术单元包括:后求和电路装置,所述后求和电路装置被布置为从所述加法器电路装置接收总和数据,所述后求和电路装置通信地耦合到所述算术单元的所述至少一个输出。8.根据权利要求7所述的设备,其中,所述后求和电路装置包括可配置方向移位电路装置。9.根据权利要求1所述的设备,其中,所述算术单元包括:第一复用器电路,被耦合为接收“A”输入,所述“A”输入对应于所述公式中的“A”;第二复用器电路,被耦合为接收“B”输入,所述“B”输入对应于所述公式中的“B”;第三复用器电路,被耦合为接收“C”输入,所述“C”输入对应于所述公式中的“C”;第一乘法器电路,被布置为接收来自所述第一复用器电路的所述“A”输入,并且还被布置为接收“X”输入,所述第一乘法器电路还被布置为通过将所述“A”输入和所述“X”输入相乘来产生第一乘积;第二乘法器电路,被布置为接收来自所述第二复用器电路的所述“B”输入,并且还被布置为接收“Y”输入,所述第二乘法器电路还被布置为通过将所述“B”输入和所述“Y”输入相乘来产生第二乘积;以及加法器电路,被布置为对由第一乘法器电路和第二乘法器电路生成的信息、以及被传递通过所述第三复用器电路的信息进行求和,所述加法器电路...
【专利技术属性】
技术研发人员:S·P·辛格,G·德索利,T·勃伊施,
申请(专利权)人:意法半导体国际有限公司,意法半导体股份有限公司,
类型:发明
国别省市:荷兰,NL
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。