原子操作的智能线程分派和向量化制造技术

技术编号：19424701 阅读：20 留言：0更新日期：2018-11-14 10:27

提供了原子操作的智能线程分派和向量化。描述了一种机制用于促进自主机器处的智能分派和向量化。如本文中所述的实施例的方法包括检测对应于与涉及图形处理器的任务相关联的多个工作负荷的多个线程。所述方法可以还包括确定所述多个线程中与彼此相似或具有相邻表面的第一线程集合，并且通过使用第一相邻计算块集合而在物理上将所述第一线程集合紧密地群集在一起。

全部详细技术资料下载

【技术实现步骤摘要】
原子操作的智能线程分派和向量化
本文中描述的实施例一般地涉及数据处理并且更特别地涉及促进一种用于促进原子操作的智能线程分派和向量化的工具。
技术介绍
当前的并行图形数据处理包括被开发以对图形数据执行特定操作的系统和方法，这些特定操作诸如例如线性内插、镶嵌、栅格化、纹理映射、深度测试等。传统上，图形处理器使用了固定功能计算单元来处理图形数据；然而，最近，图形处理器的多个部分已变得可编程，从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。为了进一步提高性能，图形处理器通常实现处理技术（诸如，流水线操作），这些处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程（SIMT）架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中，多组并行线程试图尽可能经常地一起同步执行程序指令，以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在ShaneCook的CUDA编程（CUDAProgramming），第3章，第37-51页（2013年）和/或NicholasWilt的CUDA手册，对GPU编程的全面向导（CUDAHandbook,AComprehensiveGuidetoGPUProgramming），第2.6.2至3.1.2节（2013年6月）中找到。机器学习已经在解决许多种类的任务方面成功。当训练和使用机器学习算法（例如，神经网络）时发生的计算自然地服从高效并行实现。相应地，诸如通用图形处理单元（GPGPU）之类的并行处理器已经在深度神经网络的实际实现中扮演重要作用。具有单指令多线程...

【技术保护点】
1.一种用于自主机器处的智能分派和向量化的装置，所述装置包括：检测/观察逻辑，用于检测对应于与涉及图形处理器的任务相关联的多个工作负荷的多个线程；以及智能线程分派逻辑，用于确定所述多个线程中与彼此相似或具有相邻表面的第一线程集合，其中所述智能线程分派逻辑还通过使用第一相邻计算块集合而在物理上将所述第一线程集合紧密地群集在一起。

【技术特征摘要】
2017.04.28 US 15/5810801.一种用于自主机器处的智能分派和向量化的装置，所述装置包括：检测/观察逻辑，用于检测对应于与涉及图形处理器的任务相关联的多个工作负荷的多个线程；以及智能线程分派逻辑，用于确定所述多个线程中与彼此相似或具有相邻表面的第一线程集合，其中所述智能线程分派逻辑还通过使用第一相邻计算块集合而在物理上将所述第一线程集合紧密地群集在一起。2.根据权利要求1所述的装置，其中所述智能线程分派逻辑还确定所述多个线程中与彼此分开或不相似的第二线程集合，其中所述第二线程集合在第二计算块集合上被启动以避免与所述第一计算块集合的地址冲突。3.根据权利要求2所述的装置，其中所述第一和第二计算块集合由包含高速缓存的共享资源所支持以保持存储器空间或像素空间中的局部性以提供针对公共区域的利用。4.根据权利要求1所述的装置，还包括预取逻辑，用于在所述多个线程中的一个或多个被加载到着色器核中的时候同时将数据预取到一个或多个高速缓存中。5.根据权利要求1所述的装置，还包括向量化逻辑，用于促进向量化的锁定操作使得对多个操作数同时进行以下中的一个或多个：锁定、修改和写回。6.根据权利要求5所述的装置，其中所述向量化逻辑还从数据流中读取操作数宽度和向量长度，其中所述向量化逻辑还设置或清除锁定位以基于所述操作数宽度和所述向量长度来在所述数据流的向量数据上执行操作。7.根据权利要求1所述的装置，其中所述图形处理器与应用处理器协同定位在公共半导体封装上。8.一种用于自主机器处的智能分派和向量化的方法，所述方法包括：检测对应于与涉及图形处理器的任务相关联的多个工作负荷的多个线程；确定...

【专利技术属性】
技术研发人员：陈峰，N斯里尼瓦萨，AR阿普，A科克，K辛哈，B温布，J雷，NCG冯博里斯，P瑟蒂，BJ阿什鲍格，S雅哈吉达尔，V兰加纳坦，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人