当前位置: 首页 > 专利查询>英特尔公司专利>正文

原子操作的智能线程分派和向量化制造技术

技术编号:19424701 阅读:20 留言:0更新日期:2018-11-14 10:27
提供了原子操作的智能线程分派和向量化。描述了一种机制用于促进自主机器处的智能分派和向量化。如本文中所述的实施例的方法包括检测对应于与涉及图形处理器的任务相关联的多个工作负荷的多个线程。所述方法可以还包括确定所述多个线程中与彼此相似或具有相邻表面的第一线程集合,并且通过使用第一相邻计算块集合而在物理上将所述第一线程集合紧密地群集在一起。

【技术实现步骤摘要】
原子操作的智能线程分派和向量化
本文中描述的实施例一般地涉及数据处理并且更特别地涉及促进一种用于促进原子操作的智能线程分派和向量化的工具。
技术介绍
当前的并行图形数据处理包括被开发以对图形数据执行特定操作的系统和方法,这些特定操作诸如例如线性内插、镶嵌、栅格化、纹理映射、深度测试等。传统上,图形处理器使用了固定功能计算单元来处理图形数据;然而,最近,图形处理器的多个部分已变得可编程,从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。为了进一步提高性能,图形处理器通常实现处理技术(诸如,流水线操作),这些处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,多组并行线程试图尽可能经常地一起同步执行程序指令,以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在ShaneCook的CUDA编程(CUDAProgramming),第3章,第37-51页(2013年)和/或NicholasWilt的CUDA手册,对GPU编程的全面向导(CUDAHandbook,AComprehensiveGuidetoGPUProgramming),第2.6.2至3.1.2节(2013年6月)中找到。机器学习已经在解决许多种类的任务方面成功。当训练和使用机器学习算法(例如,神经网络)时发生的计算自然地服从高效并行实现。相应地,诸如通用图形处理单元(GPGPU)之类的并行处理器已经在深度神经网络的实际实现中扮演重要作用。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,多组并行线程试图尽可能经常地一起同步执行程序指令,以提高处理效率。由并行机器学习算法实现提供的效率允许高容量网络的使用,并使那些网络能够在更大数据集上训练。用于线程分派的常规技术对于引起跨计算集群的数据扰乱是已知的。这样的常规技术还对于原子的标量化是已知的。附图说明在其中相似附图标记指代类似元件的附图的各图中作为示例而非作为限制图示了实施例。为了以能够详细理解以上记载特征的方式,可以通过参考实施例来进行以上简要概括的更具体的描述,这些实施例中的一些在所附附图中被图示。然而,应当注意,所附附图仅图示了典型实施例,并因此不应被认为是对其范围的限制,因为附图可以图示其他等同有效的实施例。图1是图示了被配置成实现本文所述的实施例的一个或多个方面的计算机系统的框图。图2A至2D图示了根据实施例的并行处理器部件。图3A至3B是根据实施例的图形多处理器的框图。图4A至4F图示了其中多个图形处理单元通信地耦合到多个多核处理器的示例性架构。图5图示了根据实施例的图形处理流水线。图6图示了根据一个实施例的托管智能线程分派和向量化机构的计算设备。图7图示了根据一个实施例的智能线程分派和向量化机构。图8A图示了根据一个实施例的用于智能线程分派的新颖框架。图8B图示了根据一个实施例的锁定和数据的新颖框架。图9A图示了根据一个实施例的用于智能线程分派的事务序列。图9B图示了根据一个实施例的用于原子的向量化的方法。图10图示了根据实施例的机器学习软件堆叠。图11图示了根据实施例的高度并行的通用图形处理单元。图12图示了根据实施例的多GPU计算系统。图13A至13B图示了示例性深度神经网络的层。图14图示了深度神经网络的训练和部署。图15图示了深度神经网络的训练和部署。图16是图示了分布式学习的框图。图17图示了适合于使用训练模型执行推断的示例性推断片上系统(SOC)。图18是带有具有一个或多个处理器核和图形处理器的处理器的计算机系统的实施例的框图。图19是具有一个或多个处理器核、集成存储器控制器和集成图形处理器的处理器的一个实施例的框图。图20是可以是分立图形处理单元或者可以是与多个处理核集成的图形处理器的图形处理器的一个实施例的框图。图21是用于图形处理器的图形处理引擎的实施例的框图。图22是图形处理器的另一实施例的框图。图23是包括处理元件阵列的线程执行逻辑的框图。图24图示了根据实施例的图形处理器执行单元指令格式。图25是包括图形流水线、媒体流水线、显示引擎、线程执行逻辑和渲染输出流水线的图形处理器的另一实施例的框图。图26A是图示了根据实施例的图形处理器命令格式的框图。图26B是图示了根据实施例的图形处理器命令序列的框图。图27图示了根据实施例的数据处理系统的示例性图形软件架构。图28是图示了根据实施例的可以用于制造用于执行操作的集成电路的IP核开发系统的框图。图29是图示了根据实施例的可使用一个或多个IP核制造的示例性片上系统集成电路的框图。图30是图示了片上系统集成电路的示例性图形处理器的框图。图31是图示了片上系统集成电路的附加示例性图形处理器的框图。具体实施方式实施例提供了用于采用和使用智能线程分派机制以减少跨计算集群的数据扰乱的新技术。实施例进一步提供了随着连同原子操作的向量化一起加载线程而对针对高速缓存的线程组输入数据的预取。应当注意,可以贯穿本文档可互换地引用像“卷积神经网络”、“CNN”、“神经网络”、“NN”、“深度神经网络”、“DNN”、“递归神经网络”、“RNN”等等之类的术语或首字母缩略词。此外,可以贯穿本文档可互换地引用像“自主机器”或仅“机器”、“自主车辆”或仅“车辆”、“自主代理”或仅“代理”、“自主设备”或“计算设备”、“机器人”等等之类的术语。在一些实施例中,图形处理单元(GPU)通信地耦合到主机/处理器核,以加速图形操作、机器学习操作、模式分析操作和各种通用GPU(GPGPU)功能。GPU可以通过总线或另一互连件(例如,高速互连件,诸如PCIe或NVLink)通信地耦合到主机处理器/核。在其他实施例中,GPU可以与核集成在相同封装或芯片上,且通过内部处理器总线/互连件(即,处于封装或芯片内部)通信地耦合到核。不论GPU连接的方式如何,处理器核都可以以工作描述符中包含的命令/指令的序列的形式将工作分配给GPU。GPU然后将专用电路/逻辑用于高效地处理这些命令/指令。在以下描述中,阐述了很多特定细节。然而,没有这些特定细节,也可以实践如本文中所描述的实施例。在其他实例中,未详细示出公知的电路、结构和技术以便不使该描述的理解变得模糊。系统概述I图1是图示了被配置成实现本文所述的实施例的一个或多个方面的计算系统100的框图。计算系统100包括处理子系统101,所述处理子系统具有一个或多个处理器102和系统存储器104,所述一个或多个处理器和所述系统存储器经由互连路径进行通信,所述互连路径可以包括存储器中枢105。存储器中枢105可以是芯片组部件内的单独的部件,或者可以集成在一个或多个处理器102内。存储器中枢105经由通信链路106与I/O子系统111耦合。I/O子系统111包括I/O中枢107,所述I/O中枢可以使得计算系统100能够从一个或多个输入设备108接收输入。另外,I/O中枢107可以使得显示控制器(所述显示控制器可以被包括在一个或多个处理器102中)能够向一个或多个显示设备110A提供输出。在一个实施例中,与I/O中枢107本文档来自技高网...

【技术保护点】
1.一种用于自主机器处的智能分派和向量化的装置,所述装置包括:检测/观察逻辑,用于检测对应于与涉及图形处理器的任务相关联的多个工作负荷的多个线程;以及智能线程分派逻辑,用于确定所述多个线程中与彼此相似或具有相邻表面的第一线程集合,其中所述智能线程分派逻辑还通过使用第一相邻计算块集合而在物理上将所述第一线程集合紧密地群集在一起。

【技术特征摘要】
2017.04.28 US 15/5810801.一种用于自主机器处的智能分派和向量化的装置,所述装置包括:检测/观察逻辑,用于检测对应于与涉及图形处理器的任务相关联的多个工作负荷的多个线程;以及智能线程分派逻辑,用于确定所述多个线程中与彼此相似或具有相邻表面的第一线程集合,其中所述智能线程分派逻辑还通过使用第一相邻计算块集合而在物理上将所述第一线程集合紧密地群集在一起。2.根据权利要求1所述的装置,其中所述智能线程分派逻辑还确定所述多个线程中与彼此分开或不相似的第二线程集合,其中所述第二线程集合在第二计算块集合上被启动以避免与所述第一计算块集合的地址冲突。3.根据权利要求2所述的装置,其中所述第一和第二计算块集合由包含高速缓存的共享资源所支持以保持存储器空间或像素空间中的局部性以提供针对公共区域的利用。4.根据权利要求1所述的装置,还包括预取逻辑,用于在所述多个线程中的一个或多个被加载到着色器核中的时候同时将数据预取到一个或多个高速缓存中。5.根据权利要求1所述的装置,还包括向量化逻辑,用于促进向量化的锁定操作使得对多个操作数同时进行以下中的一个或多个:锁定、修改和写回。6.根据权利要求5所述的装置,其中所述向量化逻辑还从数据流中读取操作数宽度和向量长度,其中所述向量化逻辑还设置或清除锁定位以基于所述操作数宽度和所述向量长度来在所述数据流的向量数据上执行操作。7.根据权利要求1所述的装置,其中所述图形处理器与应用处理器协同定位在公共半导体封装上。8.一种用于自主机器处的智能分派和向量化的方法,所述方法包括:检测对应于与涉及图形处理器的任务相关联的多个工作负荷的多个线程;确定...

【专利技术属性】
技术研发人员:陈峰N斯里尼瓦萨AR阿普A科克K辛哈B温布J雷NCG冯博里斯P瑟蒂BJ阿什鲍格S雅哈吉达尔V兰加纳坦
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1