用于执行快速转换片并且将片用作一维向量的指令的系统技术方案

技术编号：23671921 阅读：27 留言：0更新日期：2020-04-04 17:29

本申请公开了用于执行快速转换片并且将片用作一维向量的指令的系统。所公开实施例涉及用于执行用于快速转换矩阵(片)并且将矩阵(片)用作一维向量的指令的系统。在一个示例中，处理器包括：取出电路，用于取出指令，该指令具有用于指定操作码、二维(2D)矩阵和一维(1D)向量的位置、以及包括所指定的2D矩阵的行、行的部分、多个行、列、列的部分、多个列和矩形子片中的一个的一组元素的字段，并且其中操作码用于指示所指定的组在2D矩阵与1D向量之间的移动；解码电路，用于对所取出的指令进行解码；以及执行电路，用于响应于经解码的指令，当操作码指定从1D移动时，将所指定的1D向量的内容移动到所指定的一组元素。

A system for executing instructions for fast conversion chips and using chips as one-dimensional vectors

全部详细技术资料下载

【技术实现步骤摘要】
用于执行快速转换片并且将片用作一维向量的指令的系统
本专利
总体上涉及计算机处理器架构，并且更具体地涉及用于执行用于快速转换矩阵并且将矩阵用作一维向量的指令的系统和方法。
技术介绍
在诸如机器学习和其他批量数据处理之类的许多计算任务中，矩阵正变得日益重要。深度学习是一类机器学习算法。诸如深度神经网络的深度学习架构已经被应用于包括计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学和药物设计等的领域。用于深度学习的两种工具--推理和训练--趋向于低精度算术。使深度学习算法和计算的吞吐量最大化可以帮助满足深度学习处理器的需求，深度学习处理器例如在数据中心中执行深度学习的那些处理器。用于执行元素在2维(2D)矩阵与1维(1D)向量寄存器之间的直接移动的指令将会通过充分利用针对经典的1D向量操作的有用的执行硬件来改善矩阵操作。附图说明在所附附图中以示例方式而非限制方式来图示本专利技术，在附图中，类似的附图标记指示类似的要素，其中：图1A图示经配置的片的...

【技术保护点】
1.一种处理器，包括：/n取出电路，用于取出指令，所述指令具有用于指定操作码、二维2D矩阵和一维1D向量的位置、以及包括所述2D矩阵的行、行的部分、多个行、列、列的部分、多个列和矩形子片中的一个的一组元素的字段，并且其中所述操作码用于指示组在所述2D矩阵与所述1D向量之间的移动；/n解码电路，用于对所取出的指令进行解码；以及/n执行电路，用于响应于经解码的指令，当所述操作码指定从1D的移动时，将所述1D向量的内容移动到所述一组元素。/n

【技术特征摘要】
20180927 US 16/145,0661.一种处理器，包括：
取出电路，用于取出指令，所述指令具有用于指定操作码、二维2D矩阵和一维1D向量的位置、以及包括所述2D矩阵的行、行的部分、多个行、列、列的部分、多个列和矩形子片中的一个的一组元素的字段，并且其中所述操作码用于指示组在所述2D矩阵与所述1D向量之间的移动；
解码电路，用于对所取出的指令进行解码；以及
执行电路，用于响应于经解码的指令，当所述操作码指定从1D的移动时，将所述1D向量的内容移动到所述一组元素。

2.如权利要求1所述的处理器，其中，所述一组元素由所述指令的操作数、所述操作码的部分、立即数字段和可编程控制寄存器中的一个指定。

3.如权利要求1所述的处理器，其中，所述执行电路用于在所述移动之前或在所述移动期间对在所述2D矩阵与所述1D向量寄存器之间被移动的数据进行变换。

4.如权利要求1-3中的任一项所述的处理器，其中，所述移动指令进一步指定所述2D矩阵和所述1D向量寄存器的元素的元素尺寸，所述元素尺寸包括二元数位、半字节、字节、字、双字和四字中的一个。

5.如权利要求1-3中的任一项所述的处理器，其中，所述移动指令进一步指定所述一个或多个向量寄存器中的每一个的向量尺寸，所述向量尺寸包括64位、128位、256位和512位中的一个。

6.如权利要求1-3中的任一项所述的处理器，其中，所述执行电路用于响应于经解码的指令，当所述操作码指示到1D的移动时，实际上或以懒惰的移动，将所述一组元素从所述2D矩阵移动到所述1D向量。

7.如权利要求6所述的处理器，其中，所述执行电路用于通过在实际上不将所述一组元素移动到所述1D向量寄存器的情况下使所述一组元素对所述执行电路可用来执行所述懒惰的移动。

8.如权利要求4所述的处理器，其中，所述执行电路用于通过将所述一组元素从所述2D矩阵复制到所述1D向量寄存器来实际上执行移动。

9.如权利要求4所述的处理器，其中，所述执行电路用于通过跟踪所述2D矩阵中的所述一组元素并且将指向数据的指针提供给需要寻找数据的来源的后续的消耗者来执行所述懒惰的移动。

10.一种由处理器执行的方法，所述方法包括：
使用取出电路来取出指令，所述指令具有用于指定操作码、二维2D矩阵和一维1D向量的位置、以及包括所述2D矩阵的行、行的部分、多个行、列、列的部分、多个列和矩形子片中的一个的一组元素的字段，所述操作码用于指示组从所述2D矩阵到所述1D向量的移动；
使用解码电路来对所取出的指令进行解码；以及
使用执行电路通过实际上或以懒惰的移动将所述一组元素从所述2D矩阵移动到所述1D向量来对经解码的指令作出响应。

11.如权利要求10所述的方法，其中，所述移动指令进一步指定所述2D矩阵和所述1D向量寄存器的元素的元素尺寸，所述元素尺寸包括二元数位、半字节、字节、字、双字和四字中的一个。

12.如权利要求10所述的方法，其中，所述移动指令进一步指定所述一个或多个向量寄存器中的每一个的向量尺寸，所述向量尺寸包括64位、128位、256位和512位中的一个。

13.如权利要求10-12中的任一项所述的方法，其中，所述执行电路通过在实际上不将所述一组元素移...

【专利技术属性】
技术研发人员：B·托尔，C·J·休斯，D·鲍姆，E·乌尔德阿迈德瓦尔，R·萨德，R·凡伦天，M·J·查尼，A·F·海内克，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人