用于具有可变精度输入操作数的融合乘-加操作的指令制造技术

技术编号：22295228 阅读：33 留言：0更新日期：2019-10-15 04:25

所公开的实施例关于用于具有可变精度输入的融合乘‑加(FMA)操作的指令。在一个示例中，一种用于执行非对称FMA指令的处理器包括：取出电路，用于取出FMA指令，该FMA指令具有用于指定操作码、目的地以及分别具有第一宽度和第二宽度的第一源向量和第二源向量的字段；解码电路，用于对取出的FMA指令解码；以及单指令多数据(SIMD)执行电路，用于通过以下步骤来处理第二源向量的、与适配到SIMD通道宽度的数量一样多的元素：将每个元素乘以第一源向量的对应元素，并将所得到的乘积与目的地的先前内容累加，其中，SIMD通道宽度是16位、32位和64位中的一种，第一宽度是4位和8位中的一种，并且第二宽度是1位、2位和4位中的一种。

Instructions for Fusion Multiplication-Addition Operations with Variable Precision Input Operators

全部详细技术资料下载

【技术实现步骤摘要】
用于具有可变精度输入操作数的融合乘-加操作的指令
本公开涉及处理逻辑、微处理器和相关联的指令集架构的领域，更具体地涉及用于具有可变精度输入操作数的融合乘-加操作的指令。
技术介绍
深度学习是一类机器学习算法。诸如深度神经网络之类的深度学习架构已被应用于多个领域，诸如，计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学以及药物设计。推断和训练(用于深度学习的两种工具)正趋于低精度算术。使深度学习算法和计算的吞吐量最大化可辅助满足深度学习处理器的需求，深度学习处理器例如在数据中心中执行深度学习的那些处理器。四虚拟神经网络指令(QVNNI)是在深度学习上下文中有用的一类融合乘-加(FMA)操作。期望低精度QVNNI操作引起足够的训练性能，低精度QVNNI操作诸如其中权重低至2位或4位的使用8位激活的那些操作。但是，传统的CPU和GPU指令集架构对所有操作遵守32位通道并要求对称的操作数：两个输入具有相同精度，这限制了通过转向2位权重和4位权重来获得性能优势的能力。附图说明在所附附图中以示例方式而非限制方式来图示本专利技术，在附图中，类似的附图标记指示类似的要素，其中：图1是图示根据一些实施例的用于执行诸如四虚拟神经网络指令(QVNNI)之类的融合乘-加(FMA)指令的处理组件的框图；图2是图示根据一些实施例的用于处理FMA指令的执行电路的框图；图3是图示根据一些实施例的用于处理FMA指令的执行电路的框图；图4A是图示根据一些实施例的用于处理VNNI_8_4FMA指令的执行电路的框图；图4B是图示根据一些实施例的用于处理VNNI_8_...

【技术保护点】
1.一种用于执行非对称融合乘‑加FMA指令的处理器，所述处理器包括：取出电路，用于取出FMA指令，所述FMA指令具有用于指定操作码、目的地以及分别具有第一宽度和第二宽度的第一源向量和第二源向量的字段；解码电路，用于对取出的FMA指令解码；以及单指令多数据SIMD执行电路，用于执行经解码的FMA指令以通过以下步骤来处理所述第二源向量的、与适配到SIMD通道宽度的数量一样多的元素：将每个元素乘以所述第一源向量的对应元素，并将所得到的乘积与所述目的地的先前内容累加；其中，所述SIMD通道宽度是16位、32位和64位中的一种，所述第一宽度是4位和8位中的一种，并且所述第二宽度是1位、2位和4位中的一种。

【技术特征摘要】
2018.03.29 US 15/940,7741.一种用于执行非对称融合乘-加FMA指令的处理器，所述处理器包括：取出电路，用于取出FMA指令，所述FMA指令具有用于指定操作码、目的地以及分别具有第一宽度和第二宽度的第一源向量和第二源向量的字段；解码电路，用于对取出的FMA指令解码；以及单指令多数据SIMD执行电路，用于执行经解码的FMA指令以通过以下步骤来处理所述第二源向量的、与适配到SIMD通道宽度的数量一样多的元素：将每个元素乘以所述第一源向量的对应元素，并将所得到的乘积与所述目的地的先前内容累加；其中，所述SIMD通道宽度是16位、32位和64位中的一种，所述第一宽度是4位和8位中的一种，并且所述第二宽度是1位、2位和4位中的一种。2.如权利要求1所述的处理器，其中，所述SIMD执行电路并发地处理所述一样多数量的元素。3.如权利要求1所述的处理器，其中，所述SIMD执行电路在单个时钟周期中处理所述一样多数量的元素。4.如权利要求1-3中的任一项所述的处理器，其中，所述SIMD执行电路使用多个FMA硬件单元来处理最大数量的元素，所述多个FMA硬件单元被并联地或级联地布置。5.如权利要求1-3中的任一项所述的处理器，其中，所述第一宽度和所述第二宽度由所述操作码指定。6.如权利要求1-3中的任一项所述的处理器，其中，所述FMA指令进一步指定重复指示符，所述重复指示符是2、4和8中的一者，所指定的目的地包括向量，并且所述SIMD执行电路使用多个源向量来并发地重复所述执行达由所述重复指示符指定的次数，每一次都将结果累加到目的地向量的同一元素。7.如权利要求1-3中的任一项所述的处理器，其中，所述SIMD执行电路进一步舍入所述所得到的乘积和所述目的地的所述先前内容的所述累加以适配到所述目的地的位数内，并且其中，所述处理器进一步包括软件能访问的控制寄存器以存储舍入控制，其中，所述SIMD执行电路根据所述舍入控制执行所述舍入，其中，所述舍入控制指定以下一者：就近舍入平局成偶、就近舍入平局远离零、向零舍入、向正无穷舍入、以及向负无穷舍入。8.如权利要求1-3中的任一项所述的处理器，其中，所述SIMD执行电路进一步检查饱和，并且将所述所得到的乘积和所述目的地的所述先前内容的所述累加饱和到预定义的最大值，并且其中，所述处理器进一步包括软件能访问的状态寄存器，供由所述SIMD执行电路用来将饱和的发生报告给软件。9.一种用于执行非对称融合乘-加FMA指令的系统，所述系统包括：用于取出FMA指令的装置，所述FMA指令具有用于指定操作码、目的地以及分别具有第一宽度和第二宽度的第一源向量和第二源向量的字段；用于对取出的FMA指令解码的装置；以及用于执行经解码的FMA指令以通过以下步骤来处理所述第二源向量的、与适配到SIMD通道宽度的数量一样多的元素的装置：将每个元素乘以所述第一源向量的对应元素，并将所得到的乘积与所述目的地的先前内容累加；以及其中，所述SIMD通道宽度是16位、32位和64位中的一种，所述第一宽度是4位和8位中的一种，并且所述第二宽度是1位、2位和4位中的一种。1...

【专利技术属性】
技术研发人员：D·达斯，N·K·梅勒普迪，M·杜塔，A·库马，D·穆迪盖雷，A·孔杜，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人