当前位置: 首页 > 专利查询>英特尔公司专利>正文

计算优化机制制造技术

技术编号:39416760 阅读:12 留言:0更新日期:2023-11-19 16:07
本申请公开了计算优化机制。公开了一种用于促进计算优化的装置。该装置包括分类逻辑,该分类逻辑用于基于浮点线程操作的位深度将处理线程分类到数个线程组中。处理线程分类到数个线程组中。处理线程分类到数个线程组中。

【技术实现步骤摘要】
计算优化机制
本申请是申请日为2018年4月23日、优先权日为2017年4月24日、申请号为201810382773.9,题为“计算优化机制”的专利技术专利申请的分案申请。


[0001]实施例总体涉及数据处理,并且更具体地涉及经由通用图形处理单元的数据处理。

技术介绍

[0002]当前的并行图形数据处理包括被开发用于对图形数据执行特定操作的系统和方法,这些特定操作如例如线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,图形处理器的多个部分已变得可编程,从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。
[0003]为进一步提高性能,图形处理器通常实施处理技术(比如,流水线操作),这些处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,多组并行线程试图尽可能经常地一起同步执行程序指令,以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在Shane Cook的CUDA编程(CUDA Programming),第3章,第37

51页(2013年)中找到。
附图说明
[0004]为了以能够详细理解本实施例的以上记载特征的方式,可以通过参考实施例来对以上简要概括的实施例进行更具体的描述,这些实施例中的一些在所附附图中被示出。然而,应当注意,所附附图仅示出典型实施例,并因此不应被认为是对其范围的限制。
[0005]图1是示出了被配置成实现本文所述的实施例的一个或多个方面的计算机系统的框图;
[0006]图2A至图2D示出了根据实施例的并行处理器部件;
[0007]图3A至图3B是根据实施例的图形多处理器的框图;
[0008]图4A至图4F示出了其中多个GPU通信地耦合至多个多核处理器的示例性架构;
[0009]图5示出了根据实施例的图形处理流水线;
[0010]图6示出了根据实施例的采用优化机制的计算设备;
[0011]图7A和图7B示出了计算优化机制的实施例;
[0012]图8示出了根据实施例的机器学习软件栈;
[0013]图9示出了根据实施例的高度并行的通用图形处理单元;
[0014]图10示出了根据实施例的多GPU计算系统;
[0015]图11A至图11B示出了示例性深度神经网络的层;
[0016]图12示出了示例性递归神经网络;
[0017]图13示出了深度神经网络的训练和部署;
[0018]图14是示出分布式学习的框图;
[0019]图15示出了适合于使用训练模型执行推断的示例性推断用芯片上系统(SOC);
[0020]图16是根据实施例的处理系统的框图;
[0021]图17是根据实施例的处理器的框图;
[0022]图18是根据实施例的图形处理器的框图;
[0023]图19是根据一些实施例的图形处理器的图形处理引擎的框图;
[0024]图20是由附加实施例提供的图形处理器的框图;
[0025]图21示出了线程执行逻辑,所述线程执行逻辑包括在一些实施例中采用的处理元件阵列;
[0026]图22是示出了根据一些实施例的图形处理器指令格式的框图;
[0027]图23是根据另一个实施例的图形处理器的框图;
[0028]图24A至图24B示出了根据一些实施例的图形处理器命令格式和命令序列;
[0029]图25示出了根据一些实施例的数据处理系统的示例性图形软件架构;
[0030]图26是示出了根据实施例的IP核开发系统的框图;
[0031]图27是示出了根据实施例的示例性芯片上系统集成电路的框图;
[0032]图28是示出了附加的示例性图形处理器的框图;以及
[0033]图29是示出了根据实施例的芯片上系统集成电路的附加示例性图形处理器的框图。
具体实施方式
[0034]在实施例中,公开了用于优化图形处理器的计算的机制。在一些实施例中,计算机制包括分类逻辑,该分类逻辑用于基于浮点线程操作的位深度将处理线程分类到数个线程组中。在其他实施例中,计算机制包括浮点逻辑,该浮点逻辑用于将线程处理成具有较高位深度的浮点线程操作。在进一步的实施例中,计算机制包括用于在数学指令中提供可变精度支持的逻辑。
[0035]在以下描述中,阐述了很多特定细节来提供更全面的理解。然而,将对本领域技术人员显而易见的是,没有这些特定细节中的一个或多个,也可实践本文中所描述的实施例。在其他实例中,未描述公知的特征以避免使本实施例的细节变得模糊。系统概述
[0036]图1是展示了被配置成实现本文所述的实施例的一个或多个方面的计算机系统100的框图。计算系统100包括处理子系统101,所述处理子系统具有一个或多个处理器102和系统存储器104,所述一个或多个处理器和所述系统存储器经由互连路径进行通信,所述互连路径可以包括存储器中枢105。存储器中枢105可以是芯片组部件内的单独的部件,也可以集成在一个或多个处理器102内。存储器中枢105经由通信链路106与I/O子系统111耦合。I/O子系统111包括I/O中枢107,所述I/O中枢可以使得计算系统100能够从一个或多个输入设备108接收输入。另外,I/O中枢107可以使得显示控制器(所述显示控制器可以被包括在一个或多个处理器102中)能够向一个或多个显示设备110A提供输出。在一个实施例中,与I/O中枢107耦合的一个或多个显示设备110A可以包括本地显示设备、内部显示设备
或嵌入式显示设备。
[0037]在一个实施例中,处理子系统101包括一个或多个并行处理器112,所述一个或多个并行处理器经由总线或其他通信链路113耦合至存储器中枢105。通信链路113可以是任意数量的基于标准的通信链路技术或协议(诸如但不限于PCI Express)中的一个,也可以是供应方特定的通信接口或通信结构。在一个实施例中,一个或多个并行处理器112形成以计算为中心的并行或向量处理系统,所述系统包括大量处理核和/或处理集群诸如集成众核(MIC)处理器。在一个实施例中,一个或多个并行处理器112形成图形处理子系统,所述图形处理子系统可以向经由I/O中枢107耦合的一个或多个显示设备110A中的一个输出像素。一个或多个并行处理器112还可以包括显示控制器和显示接口(未示出)以实现到一个或多个显示设备110B的直接连接。
[0038]在I/O子系统111内,系统存储单元114可以连接至I/O中枢107来为计算系统100提供存储机制。I/O开关116可以用于提供接口机制以实现I/O中枢107和可以集成到平台中的其他部件诸如网络适配器118和/或无线网络适配器119以及可以经由一个或多个插入式设备120添加的各种其他设备之间的连接。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图形处理器,包括:存储器控制器;第二级L2高速缓存存储器,与所述存储器控制器耦合;多处理器,耦合至所述存储器控制器,所述多处理器具有包括硬件多线程的单指令多线程SIMT架构,所述多处理器包括用于存储操作数的寄存器堆、多个处理核、以及耦合至所述多个处理核的共享存储器,其中,所述多个处理核包括混合精度核,所述混合精度核用于响应于指令而执行混合精度矩阵乘法和累加操作,其中,为了执行所述混合精度阵乘法和累加操作,所述混合精度核用于执行操作D=A*B+C,其中,A、B、C和D是矩阵元素、A和B是8位整数元素,并且C是32位整数元素。2.如权利要求1所述的图形处理器,其中,所述多处理器用于将与所述操作D=A*B+C的操作数相关联的数据从存储器加载到所述寄存器堆中。3.如权利要求2所述的图形处理器,其中,所述多处理器用于将与所述操作D=A*B+C的操作数相关联的数据从共享存储器加载到所述寄存器堆中。4.如权利要求3所述的图形处理器,其中,所述多处理器用于响应于从所述共享存储器的加载而将与所述操作D=A*B+C的操作数相关联的数据从所述L2高速缓存存储器加载到所述寄存器堆中。5.如权利要求1所述的图形处理器,进一步包括指令高速缓存,用于存储用于在所述多处理器处执行的所述指令,其中,所述指令被执行为线程的经线。6.如权利要求1所述的图形处理器,其中,A和B能够被选择为有符号8位整数元素或无符号8位整数元素,并且C是有符号32位整数元素。7.如权利要求1所述的图形处理器,其中,A和B各自包括与神经网络的层相关联的值。8.如权利要求7所述的图形处理器,其中,A或B各自包括与所述神经网络的层的权重或所述神经网络的层的输入相关联的值。9.一种由图形处理器进行计算的方法,包括:响应于指令而执行混合精度矩阵乘法和累加操作,其中,所述图形处理器包括:存储器控制器;第二级L2高速缓存存储器,与所述存储器控制器耦合;多处理器,耦合至所述存储器控制器,所述多处理器具有包括硬件多线程的单指令多线程SIMT架构,所述多处理器包括用于存储操作数的寄存器堆、多个处理核、以及耦合至所述多个处理核的共享存储器,其中,所述多个处理核包括混合精度核,并且其中,为了执行所述混合精度阵乘法和累加操作,所述混合精度核用于执行操作D=A*B+C,其中,A、B、C和D是矩阵元素、A和B是8位整数元素,并且C是32位整数元素。10.如权利要求9所述的方法,其中,所述多处理器用于将与所述操作D=A*B+C的操作数相关联的数据从存储器加载到所述寄存器堆中。
11.如权利要求10所述的方法,其中,所述多处理器用于将与所述操作D=A*B+C的操作数相关联的数据从共享存储器加载到所述寄存器堆中。12.如权利要求11所述的方法,其中,所述多处理器用于响应于从所述共享存储器的加载而将与所述操作D=A*B+C的操作数相关联的数据从所述L2高速缓存存储器加载到所述寄存器堆中。13.如权利要求9所述的方法,其中,所述图形处理器进一步包括指令高速缓存,用于存储用于在所述多处理器处执行的...

【专利技术属性】
技术研发人员:A
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1