当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于点积操作的系统技术方案

技术编号:39587241 阅读:10 留言:0更新日期:2023-12-03 19:39
本申请公开了用于点积操作的系统

【技术实现步骤摘要】
用于点积操作的系统、方法和装置
本申请是
PCT
国际申请号为
PCT/US2017/040534、
国际申请日为
2017
年7月1日

进入中国国家阶段的申请号为
201780086894.2
,题为“用于点积操作的系统

方法和装置”的专利技术专利申请的分案申请



[0001]本专利技术的领域总体上涉及计算机处理器架构,更具体地涉及矩阵操纵


技术介绍

[0002]在诸如机器学习和其他批量数据处理之类的许多计算任务中,矩阵正变得日益重要

附图说明
[0003]在所附附图中以示例方式而非限制方式说明本专利技术,在附图中,类似的附图标记指示类似的要素,其中:
[0004]图1图示经配置的片
(tile)
的实施例;
[0005]图2图示矩阵存储的若干示例;
[0006]图3图示利用矩阵
(

)
操作加速器的系统的实施例;
[0007]图4和图5示出如何使用矩阵操作加速器来共享存储器的不同实施例;
[0008]图6图示使用片的矩阵乘法累加操作
(“TMMA”)
的实施例;
[0009]图7图示链式融合乘法累加指令的迭代的执行的子集的实施例;
[0010]图8图示链式融合乘法累加指令的迭代的执行的子集的实施例;
[0011]图9图示链式融合乘法累加指令的迭代的执行的子集的实施例;
[0012]图
10
图示链式融合乘法累加指令的迭代的执行的子集的实施例;
[0013]图
11
图示根据实施例的尺寸为2的幂的
SIMD
实现方式,其中,累加器使用比至乘法器的输入的尺寸大的输入尺寸;
[0014]图
12
图示利用矩阵操作电路的系统的实施例;
[0015]图
13
图示处理器核流水线的实施例,该处理器核流水线支持使用片的矩阵操作;
[0016]图
14
图示处理器核流水线的实施例,该处理器核流水线支持使用片的矩阵操作;
[0017]图
15
图示按行为主格式和列为主格式表达的矩阵的示例;
[0018]图
16
图示矩阵
(

)
的使用的示例;
[0019]图
17
图示矩阵
(

)
的使用的方法的实施例;
[0020]图
18
图示
TILECONFIG
指令的示例性执行;
[0021]图
19(A)


19(D)
图示
(
多个
)
寄存器的示例;
[0022]图
20
图示将被支持的矩阵
(

)
的描述的实施例;
[0023]图
21
图示由处理器执行以处理
TILECONFIG
指令的方法的实施例;
[0024]图
22
图示使用存储器寻址来执行
TILECONFIG
指令的更详细的描述;
[0025]图
23
图示
TILECONFIG
指令的执行的示例性伪代码;
[0026]图
24
图示
TILEDOTPRODUCT
指令的示例性执行;
[0027]图
25
图示由处理器执行以处理矩阵
(

)
点积指令的方法的实施例;
[0028]图
26
图示与由处理器执行以执行
TILEDOTPRODUCT
指令的示例方法有关的附加细节;
[0029]图
27A


27G
图示用于执行
TILEDOTPRODUCT
操作的示例方法;
[0030]图
28(A)


28(C)
图示示例性指令格式;
[0031]图
29
是根据本专利技术的一个实施例的寄存器架构的框图;
[0032]图
30A


30B
图示有序流水线和有序核;
[0033]图
31A


31B
图示更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块
(
包括相同类型和
/
或不同类型的其他核
)
中的一个逻辑块;
[0034]图
32
是根据本专利技术的实施例的可具有多于一个的核

可具有集成存储器控制器

并且可具有集成图形器件的处理器的框图;
[0035]图
33


36
是示例性计算机架构的框图;并且
[0036]图
37
是根据本专利技术的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图

具体实施方式
[0037]在以下描述中,陈述了众多特定细节

然而,应当理解,可在没有这些特定细节的情况下实践本专利技术的实施例

在其他实例中,未详细示出公知的电路

结构和技术,以免使对本描述的理解模糊

[0038]说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用表明所描述的实施例可以包括特定的特征

结构或特性,但是每个实施例不一定都包括该特定的特征

结构或特性

此外,此类短语不一定是指同一个实施例

此外,当结合实施例描述特定的特征

结构或特性时,认为结合无论是否被明确描述的其他实施例而影响此类特征

结构或特性是在本领域技术人员的知识范围之内的

[0039]在许多主流处理器中,处置矩阵是困难的和
/
或指令密集性任务

例如,可将矩阵的多行置入多个紧缩数据
(
例如,
SIMD
或向量
)
寄存器中,随后可单独地对矩阵的多行进行操作

例如,取决于数据尺寸,将两个
8x2
矩阵相加可能要求加载或聚集到四个紧缩数据寄存器中

随后,执行对与来自每个矩阵的第一行对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种处理器,包括:解码电路,用于对单条矩阵指令解码,所述单条矩阵指令具有用于操作码

多个标识符和位的字段,所述多个标识符与第一源矩阵的第一多个4位尺寸的数据元素

第二源矩阵的第二多个4位尺寸的数据元素

第三源矩阵的多个双字尺寸的源数据元素

以及结果矩阵的多个双字尺寸的结果数据元素对应,所述位指示所述第一多个4位尺寸的数据元素和所述第二多个4位尺寸的数据元素中的一者或这两者是有符号还是无符号的;以及执行电路,用于执行所述单条矩阵指令,所述执行电路包括乘法累加电路,所述乘法累加电路包括:乘法器,用于将所述第一多个4位尺寸的数据元素的第一子集中的每个4位尺寸的数据元素与所述第二多个4位尺寸的数据元素的第一子集中的对应的4位尺寸的数据元素相乘,以生成多个乘积;以及累加器,用于将所述多个乘积与所述多个双字尺寸的源数据元素中的对应的双字尺寸的源数据元素相加,以生成所述多个双字尺寸的结果数据元素中的对应的双字尺寸的结果数据元素
。2.
如权利要求1所述的处理器,其中,所述第一多个4位尺寸的数据元素的第一子集包括八个4位尺寸的数据元素,并且所述第二多个4位尺寸的数据元素的第一子集包括八个4位尺寸的数据元素
。3.
如权利要求2所述的处理器,其中,所述第一源矩阵的多个4位尺寸的数据元素用于被存储在第一一个或多个源向量寄存器中,并且所述第二源矩阵的多个4位尺寸的数据元素用于被存储在第二一个或多个源向量寄存器中
。4.
如权利要求3所述的处理器,其中,所述第一源矩阵包括第一矩阵的片,并且所述第二源矩阵包括第二矩阵的片
。5.
如权利要求3所述的处理器,其中,所述第一多个4位尺寸的数据元素的第一子集用于被存储在所述第一一个或多个源向量寄存器中的第一源向量寄存器中,并且所述第二多个4位尺寸的数据元素的第一子集用于被存储在所述第二一个或多个源向量寄存器中的第二源向量寄存器中
。6.
如权利要求1‑5中的任一项所述的处理器,其中,乘法器包括用于执行所述第一多个4位尺寸的数据元素的第一子集中的每个4位尺寸的数据元素与所述第二多个4位尺寸的数据元素的第一子集中的对应的4位尺寸的数据元素的并行乘法以生成所述多个乘积的乘法器的集合
。7.
如权利要求1‑6中的任一项所述的处理器,其中,所述4位尺寸的数据元素包括4位整数数据元素,并且所述双字尺寸的数据元素包括双字整数元素
。8.
如权利要求1‑7中的任一项所述的处理器,其中,所述乘法

累加电路包括矩阵处理加速器的乘法

累加电路
。9.
如权利要求8所述的处理器,进一步包括:第一接口,用于将所述矩阵处理加速器耦合到加速器存储器;以及第二接口,用于将所述矩阵处理加速器耦合到主机存储器
。10.
一种用于矩阵操纵的方法,包括:由处理器的解码电路对单条矩阵指令解码,所述单条矩阵指令具有用于操作码

多个标识符和位的字段,所述多个标识符与第一源矩阵的第一多个4位尺寸的数据元素

第二源
矩阵的第二多个4位尺寸的数据元素

第三源矩阵的多个双字尺寸的源数据元素

以及结果矩阵的多个双字尺寸的结果数据元素对应,所述位指示所述第一多个4位尺寸的数据元素和所述第二多个4位尺寸的数据元素中的一者或这两者是有符号还是无符号的;以及由所述处理器的执行电路执行所述单条矩阵指令,所述执行电路包括乘法累加电路,所述乘法累加电路包括:乘法器,用于将所述第一多个4位尺寸的数据元素的第一子集中的每个4位尺寸的数据元素与所述第二多个4位尺寸的数据元素的第一子集中的对应的4位尺寸的数据元素相乘,以生成多个乘积;以及累加器,用于将所述多个乘积与所述多个双字尺寸的源数据元素中的对应的双字尺寸的...

【专利技术属性】
技术研发人员:R
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1