在计算架构中支持8位浮点格式操作数制造技术

技术编号：35093806 阅读：18 留言：0更新日期：2022-10-01 16:54

公开了一种用于促进在计算架构中支持8位浮点格式操作数的装置。该装置包括：处理器，该处理器包括：解码器，用于将取出以供执行的指令解码为经解码的指令，其中，经解码的指令是矩阵指令，矩阵指令对8位浮点操作数进行操作以使处理器执行并行点积操作；控制器，用于调度经解码的指令并且根据由经解码的指令指示的8位浮点数据格式来提供用于8位浮点操作数的输入数据；以及脉动点积电路，用于使用脉动层执行经解码的指令，每个脉动层包括一组或多组互连的乘法器、移位器和加法器，每组乘法器、移位器和加法器用于生成8位浮点操作数的点积。积。积。

全部详细技术资料下载

【技术实现步骤摘要】
在计算架构中支持8位浮点格式操作数

[0001]本申请总体上涉及数据处理，并且更具体地涉及在计算架构中支持8位浮点格式操作数。

技术介绍

[0002]当前的并行图形数据处理包括被开发成对图形数据执行特定操作的系统和方法，这些特定操作诸如例如，线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统上，图形处理器使用固定功能计算单元来处理图形数据；然而，最近已使图形处理器的多个部分变得可编程，从而使得此类处理器能够支持更宽泛种类的操作以处理顶点数据和片段数据。
[0003]为了进一步提升性能，图形处理器典型地实现诸如流水线化的处理技术，这些处理技术尝试贯穿图形流水线的不同部分并行地处理尽可能多的图形数据。具有单指令多数据(SIMD)或单指令多线程(SIMT)架构的并行图形处理器被设计成使图形流水线中的并行处理的量最大化。在SIMD架构中，具有多个处理元件的计算机尝试同时对多个数据点执行相同操作。在SIMT架构中，成组的并行线程尝试尽可能频繁地一起同步地执行程序指令以提高处理效率。
[0004]图形处理器经常被用于人工智能(AI)和机器学习(ML)领域中的应用。这些领域中的进展已经使ML模型能够利用低精度算术来训练神经网络。传统的训练平台在高性能脉动阵列实现方式中支持浮点16(FP16)和脑浮点16(bfloat16或BF16)数据格式。已取得最近的进展以支持使用较低精度的数据格式(诸如8位数据格式)来训练深度神经网络。然而，传统系统不为使用8位浮点格式操作数执行操作提供硬件支持。
附图说明
>[0005]因此，为了可详细地理解上文陈述的当前实施例的特征的方式，可参照实施例进行对上文简要概述的实施例的更特定的描述，在所附附图中图示实施例中的一些。然而，应注意的是，所附附图仅图示典型实施例，并且因此不应视为限制实施例的范围。
[0006]图1是处理系统的框图。
[0007]图2A
‑
图2D图示计算系统和图形处理器。
[0008]图3A
‑
图3C图示附加的图形处理器和计算加速器架构的框图。
[0009]图4是图形处理器的图形处理引擎的框图。
[0010]图5A
‑
图5B图示包括在图形处理器核中采用的处理元件阵列的线程执行逻辑。
[0011]图6图示附加执行单元。
[0012]图7是图示图形处理器指令格式的框图。
[0013]图8是附加的图形处理器架构的框图。
[0014]图9A
‑
图9B图示图形处理器命令格式和命令序列。
[0015]图10图示用于数据处理系统的示例图形软件架构。
[0016]图11A是图示IP核开发系统的框图。
[0017]图11B图示集成电路封装组件的横截面侧视图。
[0018]图11C图示封装组件，该封装组件包括连接到衬底的多个单元的硬件逻辑小芯片(例如，基础管芯)。
[0019]图11D图示包括可互换小芯片的封装组件。
[0020]图12是图示示例芯片上系统集成电路的框图。
[0021]图13A
‑
图13B是图示用于在SoC内使用的示例图形处理器的框图。
[0022]图14是根据实施例的数据处理系统的框图。
[0023]图15是图示根据实施例的脑浮点8(BFLOAT8或BF8)二进制格式的框图。
[0024]图16是图示根据实施例的由指令流水线执行的脉动DP 8位FP格式操作的框图。
[0025]图17A
‑
图17B是图示根据实施例的用于对8位浮点格式输入操作数执行脉动点积累加的脉动阵列电路的框图。
[0026]图18A图示根据本文所描述的实施例的可由脉动阵列电路执行的指令。
[0027]图18B图示根据实施例的程序代码编译过程。
[0028]图19是图示用于执行用于对8位浮点格式输入操作数的脉动点积累加的指令的方法的实施例的流程图。
[0029]图20是图示用于对8位浮点格式输入操作数的脉动点积累加的方法的实施例的流程图。
[0030]图21是图示根据实施例的由指令流水线执行的8位FP格式转换操作的框图。
[0031]图22A图示根据本文所描述的实施例的可由处理单元执行的指令。
[0032]图22B图示根据实施例的程序代码编译过程。
[0033]图23是图示用于执行用于将浮点数据转换为8位浮点格式数据的指令的方法的实施例的流程图。
[0034]图24是图示用于将浮点数据转换为8位浮点格式数据的方法的实施例的流程图。
[0035]图25是图示根据实施例的由指令流水线执行的利用随机舍入的8位FP格式转换操作的框图。
[0036]图26是图示根据实施例的尾数和随机数的符号
‑
大小表示的定点加法的框图。
[0037]图27A图示根据本文所描述的实施例的可由处理单元执行的指令。
[0038]图27B图示根据实施例的程序代码编译过程。
[0039]图28是图示用于执行用于对浮点值执行高效随机舍入的指令的方法的实施例的流程图。
[0040]图29是图示用于对浮点值执行高效随机舍入的方法的实施例的流程图。
[0041]图30是图示根据实施例的使用不同二进制编码和指数偏置的两种8位浮点格式的框图。
[0042]图31是图示根据实施例的由指令流水线执行的混合8位FP格式脉动操作的框图。
[0043]图32是图示根据实施例的用于执行混合浮点脉动操作的脉动阵列电路的混合FMA单元的框图。
[0044]图33A图示根据本文所描述的实施例的可由脉动阵列电路执行的指令。
[0045]图33B图示根据实施例的程序代码编译过程。
[0046]图34是图示用于执行用于混合浮点脉动操作的指令的方法的实施例的流程图。
[0047]图35是图示用于混合浮点脉动操作的方法的实施例的流程图。
[0048]图36是图示根据实施例的由指令流水线执行的混合模式8位FP格式操作的框图。
[0049]图37示出根据实施例的用于使用至少一个8位FP格式操作数来执行混合模式MAC操作的硬件电路的示例示意性表示。
[0050]图38A图示根据本文所描述的实施例的可由处理单元执行的一组指令。
[0051]图38B图示根据实施例的程序代码编译过程。
[0052]图39是图示用于执行用于利用8位浮点格式操作数执行混合模式操作的指令的方法的实施例的流程图。
[0053]图40是图示用于利用8位浮点格式操作数执行混合模式操作的方法的实施例的流程图。
具体实施方式
[0054]图形处理单元(GPU)通信地耦合至主机/处理器核以加速例如图形操作、机器学习操作、模式分析操作、和/或各种通用GPU(GPGPU)功能。GPU可通过总线或另一互连(例如，诸如PCIe本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种装置，包括：处理器，所述处理器包括：解码器，用于将取出以供执行的指令解码为经解码的指令，其中，所述经解码的指令是矩阵指令，所述矩阵指令对8位浮点操作数进行操作以使所述处理器执行并行点积操作；控制器，用于调度所述经解码的指令并且根据由所述经解码的指令指示的8位浮点数据格式来提供用于所述8位浮点操作数的输入数据；以及脉动点积电路，用于使用脉动层执行所述经解码的指令，每个脉动层包括一组或多组互连的乘法器、移位器和加法器，每组乘法器、移位器和加法器用于生成所述8位浮点操作数的点积。2.如权利要求1所述的装置，其中，所述移位器用于对所述乘法器的输出进行正规化。3.如权利要求1所述的装置，其中，所述乘法器包括4位乘法器、8位乘法器、16位乘法器或32位乘法器中的至少一者。4.如权利要求2所述的装置，其中，所述加法器包括加法器树，所述加法器树用于将由所述乘法器生成的、由所述移位器正规化的乘积相加，并且其中，所述加法器用于使用就近向偶舍入来对所述加法器树的结果进行舍入。5.如权利要求4所述的装置，其中，所述结果被舍入到由所述经解码的指令指示的目的地精度。6.如权利要求1所述的装置，其中，所述脉动点积电路用于执行对累加器源操作数的晚期累加，所述晚期累加用于在所述8位浮点操作数的所述点积的生成之后对所述累加器源操作数进行累加。7.如权利要求1所述的装置，其中，所述脉动点积电路用于执行对累加器源操作数的累加，所述累加用于在所述脉动点积电路的第一级或所述脉动点积电路的中间级中的一者处对所述累加器源操作数进行累加。8.如权利要求1所述的装置，其中，所述处理器包括图形处理单元GPU。9.如权利要求1所述的装置，其中，所述装置是单指令多数据SIMD机器或单指令多线程SIMT机器中的至少一者。10.一种方法，包括：由处理器将取出以供执行的指令解码为经解码的指令，其中，所述经解码的指令是矩阵指令，所述矩阵指令对8位浮点操作数进行操作以使所述处理器执行并行点积操作；由所述处理器调度所述经解码的指令并且根据由所述经解码的指令指示的8位浮点数据格式来提供用于所述8位浮点操作数的输入数据；以及由所述处理器的脉动点积电路使用脉动层执行所述经解码的指令，每个脉动层包括一组或多组互连的乘法器、移位器和加法器，每组乘法器、移位器和加法器用于生成所述8位浮点操作数的点积。11.如权利要求10所述的方法，其中，所述移位器用于对所述乘法器的输出进行正规化，其中，所述加法器包括加法器树，所述加法器树用于将由所述乘法器生成的、由所述移位器正规化的乘积相加，并且其中，所述加法器用于使用就近向偶舍入来对所述加法器树的结果进行舍入。12.如权利要求11所述的方法，其中，所述结果被舍入到由所述经解码的指令指示的目
的地精度。13.如权利要求10所述的方法，其中，所述乘法器包括4位乘法器、8位乘法器、16位乘法器或32位乘法器中的至少一者。14.如权利要求10所述的方法，进一步包括：由所述...

【专利技术属性】
技术研发人员：N，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人