用于矩阵乘法阵列上的可分离卷积过滤器操作的方法和装置制造方法及图纸

技术编号：37857345 阅读：12 留言：0更新日期：2023-06-15 20:47

描述了涉及矩阵乘法阵列上的可分离卷积过滤器操作的方法和装置。在实施例中，逻辑电路基于二维卷积核来生成第一卷积核和第二卷积核。矩阵处理阵列包括多个融合乘加FMA块，该矩阵处理阵列在第一轮次期间将第一卷积核应用于输入数据来生成中间数据，并且该矩阵处理阵列将第二卷积核应用于中间数据来生成输出数据。还公开并要求保护其他实施例。数据。还公开并要求保护其他实施例。数据。还公开并要求保护其他实施例。

全部详细技术资料下载

【技术实现步骤摘要】
用于矩阵乘法阵列上的可分离卷积过滤器操作的方法和装置

[0001]本公开总体上涉及电子学领域。更具体地，实施例涉及矩阵乘法阵列上的可分离卷积过滤器操作。

技术介绍

[0002]矩阵处理阵列在基于人工智能(Artificial Intelligence，AI)的加速器中变得越来越受欢迎(例如，充当脉动阵列体系结构的特殊情况)，并且由此具有有限的内部通信网络和执行能力。矩阵处理脉动阵列一般可以通过仅支持对两个输入数组的简单的通用矩阵
‑
矩阵(General Matrix
‑
Matrix，GEMM)操作来获得性能。然而，此种方式无法高效地支持图像处理过滤器，这是由于图像处理过滤器的操作涉及在每个时间步长中将过滤器移位单个元素，导致输入图像的集合很大。
[0003]尽管由于每个维度上递增移位的性质、此类方式可能允许大量数据的重新使用并且可能允许对同一元素执行多个操作，但是至少部分地由于输入数组/图像的大小，缓存操作和重新使用可能无法以高效地方式可用。
[0004]相应地，此类技术可能引起性能、复杂性和/或功耗问题。
附图说明
[0005]参考所附附图提供详细描述。在附图中，附图标记最左边的(一个或多个)数字标识该附图标记在其中首次出现的附图。相同的附图标记在不同附图中的使用指示类似或相同的项。
[0006]图1图示可在各实施例中利用的样本融合乘加(Fused Multiply
‑
Add，FMA)块的电路图。
[0007]图2...

【技术保护点】

【技术特征摘要】
1.一种用于在矩阵乘法阵列上提供可分离卷积过滤器操作的装置，所述装置包括：逻辑电路，用于基于二维卷积核来生成第一卷积核和第二卷积核；矩阵处理阵列，包括多个融合乘加FMA块以在第一轮次期间将所述第一卷积核应用于输入数据来生成中间数据；并且所述矩阵处理阵列用于将所述第二卷积核应用于所述中间数据来生成输出数据。2.如权利要求1所述的装置，其中，所述输入数据包括图像数据。3.如权利要求1所述的装置，其中，所述第一卷积核和所述第二卷积核各自包括一维向量。4.如权利要求1所述的装置，其中，对于N
×
N二维卷积核，所述逻辑电路用于生成N
×
1卷积核和1
×
N卷积核。5.如权利要求1所述的装置，其中，所述多个FMA块的子集耦合至存储器以存储一个或多个核值。6.如权利要求1所述的装置，其中，所述矩阵处理阵列包括其中每个列元素垂直地耦合至所述每个列元素相邻的下游FMA元件的所述多个FMA块的二维矩阵，其中，数据用于在最后的FMA元件操作之后被存储。7.如权利要求1所述的装置，其中，具有一个或多个处理器核心的处理器包括所述逻辑电路。8.如权利要求7所述的装置，其中，所述处理器包括图形处理单元和/或通用处理器。9.如权利要求1所述的装置，其中，一个或多个指令用于被执行以在所述矩阵处理阵列上配置、加载、执行和/或存储所述第一卷积核和所述第二卷积核。10.如权利要求1所述的装置，其中，所述矩阵处理阵列用于应用所述第一卷积核和所述第二卷积核，以执行以下各项中的一项或多项中的操作：图像处理、数据过滤、以及数据编码或解码。11.如权利要求1所述的装置，其中，所述矩阵处理阵列包括脉动阵列。12.一种用于在矩阵乘法阵列上提供可分离卷积过滤器操作的装置，所述装置包括：逻辑电路，用于基于二维卷积核来生成第一卷积核和第二卷积核；解码电路，用于对指令解码，所述指令具有用于操作对象值的字段；以及执行电路，用于执行经解码的指令以在矩阵处理阵列上执行一个或多个操作，其中，矩阵处理阵列包括多个融合乘加FM...

【专利技术属性】
技术研发人员：M，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人