当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于对片行进行下转换并与寄存器进行交织的指令的装置制造方法及图纸

技术编号:39492589 阅读:11 留言:0更新日期:2023-11-24 11:15
系统

【技术实现步骤摘要】
【国外来华专利技术】用于对片行进行下转换并与寄存器进行交织的指令的装置、方法和系统


[0001]本公开总体上涉及计算机处理器体系结构,并且更具体地涉及用于矩阵操作的系统和方法

[0002]在诸如机器学习和其他批量数据处理之类的许多计算任务中,矩阵正变得日益重要

深度学习是一类机器学习算法

诸如深度神经网络之类的深度学习架构已经被应用于包括计算机视觉

语音识别

自然语言处理

音频识别

社交网络过滤

机器翻译

生物信息学和药物设计的领域

[0003]用于深度学习的两种工具
——
推理和训练正趋向于低精度算术

使深度学习算法和计算的吞吐量最大化可以辅助满足深度学习处理器的需求,深度学习处理器例如在数据中心中执行深度学习的那些处理器

[0004]矩阵

矩阵乘法
(
即,
GEMM
或通用矩阵乘法
)
是现代处理器上的常见的重度计算操作

用于矩阵乘法
(
例如,
GEMM)
的专门的硬件是改善某些应用
(
诸如,深度学习
)
的峰值计算
(
和能效
)
的良好选项

[0005]只要输出数据结构具有足够的比特r/>(
即,多于输入
)
,这些应用中的一些应用
(
包括深度学习
)
就可以在不损失准确性的情况下对具有相对少的比特的输入数据元素操作

附图说明
[0006]在所附附图中以示例方式而非限制方式图示本公开,在附图中,类似的附图标记指示类似的要素,其中:
[0007]图
1A
图示经配置的片的实施例;
[0008]图
1B
图示经配置的片的实施例;
[0009]图2图示矩阵存储装置的若干示例;
[0010]图3图示利用矩阵
(

)
操作加速器的系统的实施例;
[0011]图4和图5示出如何使用矩阵操作加速器来共享存储器的不同实施例;
[0012]图6图示使用片的矩阵乘法累加操作
(“TMMA”)
的实施例;
[0013]图7图示链式融合乘法累加指令的迭代的执行的子集的实施例;
[0014]图8图示链式融合乘法累加指令的迭代的执行的子集的实施例;
[0015]图9图示链式融合乘法累加指令的迭代的执行的子集的实施例;
[0016]图
10
图示链式融合乘法累加指令的迭代的执行的子集的实施例;
[0017]图
11
图示根据实施例的大小为2的幂的
SIMD
实现方式,其中,累加器使用大于至乘法器的输入的大小的输入大小;
[0018]图
12
图示利用矩阵操作电路的系统的实施例;
[0019]图
13
图示处理器核心管线的实施例,该处理器核心管线支持使用片的矩阵操作;
[0020]图
14
图示处理器核心管线的实施例,该处理器核心管线支持使用片的矩阵操作;
[0021]图
15
图示按行为主格式和列为主格式表达的矩阵的示例;
[0022]图
16
图示矩阵
(

)
的使用的示例;
[0023]图
17
图示矩阵
(

)
的使用的方法的实施例;
[0024]图
18
图示根据实施例的对片的使用的配置的支持;
[0025]图
19
图示将支持的矩阵
(

)
的描述的实施例;
[0026]图
20(A)


20(D)
图示
(
一个或多个
)
寄存器的示例;
[0027]图
21
图示对将第一源的数据元素下转换并将其与同一类型的数据元素交织在目的地中的指令的执行进行说明的实施例

[0028]图
22
图示对将第一源的数据元素下转换并将其与同一类型的数据元素交织在目的地中的指令的执行进行说明的实施例

[0029]图
23
是图示核心或处理器对
TCVTROWPS2PHIE
指令作出响应的框流程图

[0030]图
24
是图示核心或处理器对
TCVTROWPS2PHIE
指令作出响应的框流程图

[0031]图
25
图示针对
TCVTROWPS2PHIE
指令的执行的伪代码的示例

[0032]图
26
图示示例性系统的实施例

[0033]图
27
图示可具有多于一个的核心

可具有集成存储器控制器并且可具有集成图形器件的处理器
2700
的实施例的框图

[0034]图
28(A)
是图示根据本专利技术的实施例的示例性有序管线和示例性寄存器重命名

乱序发出
/
执行管线两者的框图

[0035]图
28(B)
是图示根据本专利技术的实施例的要被包括在处理器中的有序体系结构核心的示例性实施例和示例性寄存器重命名

乱序发出
/
执行体系结构核心两者的框图

[0036]图
29
图示
(
一个或多个
)
执行单元电路的实施例,诸如图
28(B)

(
一个或多个
)
执行单元电路
2862。
[0037]图
30
是根据一些实施例的寄存器体系结构
3000
的框图

[0038]图
31
图示指令格式的实施例

[0039]图
32
图示寻址字段
3105
的实施例

[0040]图
33
图示第一前缀
3101(A)
的实施例

[0041]图
34(A)


34(D)
图示本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种装置,包括:解码电路,所述解码电路用于对单个指令进行解码,所述指令具有用于指定操作码的一个或多个字段

用于指定第一源操作对象的位置的一个或多个字段

用于指定第二源操作对象的位置的一个或多个字段

用于指定目的地操作对象的位置的一个或多个字段

以及用于指定要被用于对所述第一源操作对象中的行进行索引的索引值的一个或多个字段,其中所述操作码用于指示执行电路要进行:对所述第一源操作对象的被索引的行的数据元素进行下转换,将经下转换的元素与所述第二源操作对象的数据元素进行交织,以及将经交织的元素存储在所述目的地操作对象中;以及执行电路,所述执行电路用于根据所述操作码来执行经解码的指令
。2.
如权利要求1所述的装置,其中,经下转换的数据元素是要从单精度浮点被下转换至半精度浮点的
。3.
如权利要求1所述的装置,其中,经下转换的数据元素是要从单精度浮点被下转换至
bfloat16
浮点的
。4.
如权利要求1所述的装置,其中,所标识的第一源操作对象是矩阵操作对象
。5.
如权利要求4所述的装置,其中,所述矩阵操作对象包括多个物理寄存器的叠加
。6.
如权利要求1所述的装置,其中,所述索引值是通过立即数指定的
。7.
如权利要求1所述的装置,其中,所述索引值是通过所标识的寄存器中存储的值指定的
。8.
一种装置,包括:解码电路...

【专利技术属性】
技术研发人员:M
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1