当前位置: 首页 > 专利查询>英特尔公司专利>正文

可中断和可重启矩阵乘法指令、处理器、方法和系统技术方案

技术编号:20290131 阅读:31 留言:0更新日期:2019-02-10 20:32
一方面的处理器包括解码单元,用于对矩阵乘法指令解码。矩阵乘法指令用于指示第一源矩阵的第一存储器位置、用于指示第二源矩阵的第二存储器位置、并且用于指示将存储结果矩阵的第三存储器位置。处理器还包括执行单元,与解码单元耦合。执行单元用于响应于矩阵乘法指令进行以下操作:在中断之前将第一和第二源矩阵的部分相乘,并且响应于中断而存储完成进展指示符。完成进展指示符用于指示在中断之前将已经完成的将第一和第二源矩阵相乘以及将对应的结果数据存储到第三存储器位置中的进展的量。

【技术实现步骤摘要】
【国外来华专利技术】可中断和可重启矩阵乘法指令、处理器、方法和系统
技术介绍

本文中所描述的实施例一般涉及处理器。具体而言,本文所述的实施例一般涉及处理器中的矩阵乘法。背景信息许多处理器具有单指令多数据(SIMD)架构。此类处理器可以具有包括各种不同类型的紧缩数据指令的指令集。紧缩数据指令可以用于对多个紧缩数据元素、或多对紧缩数据元素同时和/或并行地进行操作。多个数据元素可以作为紧缩数据紧缩在一个寄存器或存储器位置内,其中寄存器或存储器位置的位被逻辑地划分为数据元素的序列。处理器可具有并行执行硬件,其响应于紧缩数据指令以同时和/或并行地对多个紧缩数据元素操作。此类指令的一个特定示例是紧缩数据乘法指令。另一个特定示例是紧缩数据乘法和累加指令。这些指令可以在包括矩阵乘法的各种不同类型的算法中使用。与通常仅对单个数据元素或单对数据元素进行操作的标量指令相比,此类紧缩数据或SIMD指令通常倾向于有助于通过它们提供的SIMD数据并行性而改善在其中使用它们的各种算法的性能。附图说明通过参考以下描述以及用于说明多个实施例的附图,可最佳地理解本专利技术。在附图中:图1是计算机系统的实施例的框图。图2是执行矩阵乘法指令本文档来自技高网...

【技术保护点】
1.一种处理器,包括:解码单元,用于对矩阵乘法指令解码,所述矩阵乘法指令用于指示第一源矩阵的第一存储器位置、用于指示第二源矩阵的第二存储器位置、并且用于指示将存储结果矩阵的第三存储器位置;以及执行单元,与所述解码单元耦合,所述执行单元用于响应于所述矩阵乘法指令进行以下操作:在中断之前将所述第一和第二源矩阵的部分相乘;以及响应于所述中断而存储完成进展指示符,所述完成进展指示符用于指示在所述中断之前将已经完成的将所述第一和第二源矩阵相乘以及将对应的结果数据存储到所述第三存储器位置中的进展的量。

【技术特征摘要】
【国外来华专利技术】2016.07.02 US 15/201,4421.一种处理器,包括:解码单元,用于对矩阵乘法指令解码,所述矩阵乘法指令用于指示第一源矩阵的第一存储器位置、用于指示第二源矩阵的第二存储器位置、并且用于指示将存储结果矩阵的第三存储器位置;以及执行单元,与所述解码单元耦合,所述执行单元用于响应于所述矩阵乘法指令进行以下操作:在中断之前将所述第一和第二源矩阵的部分相乘;以及响应于所述中断而存储完成进展指示符,所述完成进展指示符用于指示在所述中断之前将已经完成的将所述第一和第二源矩阵相乘以及将对应的结果数据存储到所述第三存储器位置中的进展的量。2.如权利要求1所述的处理器,其特征在于,所述执行单元用于响应于所述矩阵乘法指令而存储将不在架构上被定义的所述完成进展指示符。3.如权利要求1所述的处理器,其特征在于,所述执行单元用于响应于所述矩阵乘法指令而存储将不可由软件理解的所述完成进展指示符。4.如权利要求1所述的处理器,其特征在于,所述执行单元用于响应于在所述中断之后所述矩阵乘法指令被恢复而进行以下操作:接收所述完成进展指示符;以及使用所述完成进展指示符来恢复所述第一和第二源矩阵的乘法而无需重复将在所述中断之前已经被相乘的所述第一和第二源矩阵的部分相乘。5.如权利要求1所述的处理器,其特征在于,所述解码单元用于对所述矩阵乘法指令解码,所述矩阵乘法指令用于指示矩阵维度指示符。6.如权利要求1所述的处理器,其特征在于,所述解码单元用于对所述矩阵乘法指令解码,所述矩阵乘法指令用于指示:所述第一源矩阵的行的数量;所述第二源矩阵的列的数量;以及以下项中的至少一个:(a)所述第一源矩阵的列的数量;和(b)所述第二源矩阵的行的数量。7.如权利要求6所述的处理器,其特征在于,所述第一源矩阵、所述第二源矩阵、和所述结果矩阵各自将按列主格式存储在存储器中,并且所述解码单元用于对所述矩阵乘法指令解码,所述矩阵乘法指令用于指示用于包括所述第一源矩阵的较大矩阵的列之间的距离、用于包括所述第二源矩阵的较大矩阵的列之间的距离、和用于包括所述结果矩阵的较大矩阵的列之间的距离。8.如权利要求6所述的处理器,其特征在于,所述第一源矩阵、所述第二源矩阵、和所述结果矩阵各自将按行主格式存储在存储器中,并且所述解码单元用于对所述矩阵乘法指令解码,所述矩阵乘法指令用于指示用于包括所述第一源矩阵的较大矩阵的行之间的距离、用于包括所述第二源矩阵的较大矩阵的行之间的距离、和用于包括所述结果矩阵的较大矩阵的行之间的距离。9.如权利要求1所述的处理器,其特征在于,所述执行单元用于响应于所述矩阵乘法指令而将所述第一源矩阵分解为多个片。10.如权利要求9所述的处理器,其特征在于,所述执行单元用于响应于所述矩阵乘法指令而将所述第一源矩阵分解为具有第一尺寸的多个片,并且将具有所述第一尺寸的至少一个片分解为具有小于所述第一尺寸的第二尺寸的多个片。11.如权利要求9所述的处理器,其特征在于,所述执行单元用于响应于所述矩阵乘法指令而将片中的每一个的至少两个副本存储在高速缓存中。12.如权利要求11所述的处理器,其特征在于,所述执行单元用于响应于所述矩阵乘法指令而进行以下操作:将所述第一源矩阵、所述第二源矩阵、和累加矩阵中的每一个分解为多个片,所述累加矩阵将初始地存储在所述第三存储器位置中;将来自所述第一和第二源矩阵的片中的每一个...

【专利技术属性】
技术研发人员:E·T·格罗科斯基A·K·米什拉R·凡伦天M·J·查尼小西蒙·C·史迪力
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1