像素流水线上的类型化乱序访问视图过载制造技术

技术编号：36066907 阅读：15 留言：0更新日期：2022-12-24 10:34

本申请公开了像素流水线上的类型化乱序访问视图过载。方法、系统和装置提供以下图形处理器技术：将无类型乱序访问视图(UAV)消息路由到下一级存储器高速缓存；将类型化UAV消息和渲染目标消息路由到像素流水线；以及经由像素流水线处理类型化UAV消息。该技术还可以提供像素流水线用于：基于UAV资源的表面格式执行对与类型化UAV消息相关联的一个或多个像素的格式转换；计算用于与类型化UAV消息相关联的每个像素的存储器地址；以及收集来自经处理的类型化UAV消息的多个片段。理的类型化UAV消息的多个片段。理的类型化UAV消息的多个片段。

全部详细技术资料下载

【技术实现步骤摘要】
像素流水线上的类型化乱序访问视图过载

[0001]本公开总体上关于数据处理，并且更具体地关于经由通用图形处理单元进行的数据处理。

技术介绍

[0002]当前的并行图形数据处理包括被开发成对图形数据执行特定操作的系统和方法，这些特定操作诸如例如，线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统意义上而言，图形处理器使用固定功能计算单元来处理图形数据。然而，更最近地，已使图形处理器的多个部分可编程，使得此类处理器能够支持更广泛种类的操作以处理顶点数据和片段数据。
[0003]为了进一步提升性能，图形处理器典型地实现诸如流水线化的处理技术，这些处理技术尝试贯穿图形流水线的不同部分并行地处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成使图形流水线中的并行处理的量最大化。在SIMT架构中，成组的并行线程尝试尽可能频繁地一起同步地执行程序指令以提高处理效率。可在Shane Cook的“CUDA编程”第3章第37
‑
51页(2013年)中找到用于SIMT架构的软件和硬件的总体概述。
附图说明
[0004]因此，为了可详细地理解本实施例的特征的方式，可参照以下详细描述中的实施例进行对实施例的更特定的描述，在所附附图中图示实施例中的一些。然而，应注意的是，所附附图仅图示典型实施例，并且因此不应视为限制实施例的范围。
[0005]图1是图示配置成用于实现本文中描述的实施例的一个或多个方面的计算机系统的框图；
[0006]图2A
‑r/>图2D图示并行处理器部件；
[0007]图3A
‑
图3C是图形多处理器和基于多处理器的GPU的框图；
[0008]图4A
‑
图4F图示在其中多个GPU通信地耦合至多个多核处理器的示例性架构；
[0009]图5图示图形处理流水线；
[0010]图6图示机器学习软件栈；
[0011]图7图示通用图形处理单元；
[0012]图8图示多GPU计算系统；
[0013]图9A
‑
图9B图示示例性深度神经网络的层；
[0014]图10图示示例性循环神经网络；
[0015]图11图示深度神经网络的训练和部署；
[0016]图12A是图示分布式学习的框图；
[0017]图12B是图示可编程网络接口和数据处理单元的框图；
[0018]图13图示适于使用经训练的模型执行推断的示例性推断芯片上系统(SOC)；
[0019]图14是处理系统的框图；
[0020]图15A
‑
图15C图示计算系统和图形处理器；
[0021]图16A
‑
图16C图示附加的图形处理器和计算加速器架构的框图；
[0022]图17是图形处理器的图形处理引擎的框图；
[0023]图18A
‑
图18B图示包括在图形处理器核中采用的处理元件的阵列的线程执行逻辑；
[0024]图19图示附加执行单元；
[0025]图20是图示图形处理器指令格式的框图；
[0026]图21是附加的图形处理器架构的框图；
[0027]图22A
‑
图22B图示图形处理器命令格式和命令序列；
[0028]图23图示用于数据处理系统的示例性图形软件架构；
[0029]图24A是图示IP核开发系统的框图；
[0030]图24B图示集成电路封装组件的横截面侧视图；
[0031]图24C图示封装组件，该封装组件包括连接到衬底的多个单元的硬件逻辑小芯片(例如，基础管芯)；
[0032]图24D图示包括可互换小芯片的封装组件；
[0033]图25是图示示例性芯片上系统集成电路的框图；
[0034]图26A
‑
图26B是图示用于在SoC内使用的示例性图形处理器的框图；
[0035]图27是图示根据一个或多个实施例的性能增强的图形处理器的渲染流水线的框图；
[0036]图28是图示根据一个或多个实施例的像素流水线的像素前端单元的框图；
[0037]图29A是根据一个或多个实施例的操作性能增强的图形处理器的方法的示例的流程图；
[0038]图29B是根据一个或多个实施例的操作像素流水线的方法的示例的流程图；以及
[0039]图30是根据一个或多个实施例的性能增强的计算系统的示例的框图。
具体实施方式
[0040]图形处理单元(GPU)通信地耦合至主机/处理器核以加速例如图形操作、机器学习操作、模式分析操作、和/或各种通用GPU(GPGPU)功能。GPU可通过总线或另一互连(例如，诸如PCIe或NVLink之类的高速互连)通信地耦合至主机处理器/核。替代地，GPU可集成在与核相同的封装或芯片上，并且通过内部处理器总线/互连(即，在封装或芯片内部)通信地耦合至核。无论GPU被连接所采取的方式如何，处理器核都可将工作以工作描述符中所包含的命令/指令序列的形式分配给GPU。GPU随后使用专用电路/逻辑来高效地处理这些命令/指令。
[0041]在以下描述中，陈述了众多特定细节以提供更透彻的理解。然而，对于本领域的技术人员将显而易见的是，可以在没有这些特定细节中的一个或多个细节的情况下实践本文中描述的实施例。在其他实例中，未描述公知的特征以免混淆当前实施例的细节。系统概览
[0042]图1是图示配置成用于实现本文中描述的实施例的一个或多个方面的计算系统100的框图。计算系统100包括处理子系统101，该处理子系统具有经由互连路径通信的一个
或多个处理器102和系统存储器104，该互连路径可包括存储器中枢105。存储器中枢105可以是芯片组部件内的单独部件，或者可被集成在一个或多个处理器102内。存储器中枢105经由通信链路106与I/O子系统111耦合。I/O子系统111包括I/O中枢107,该I/O中枢107可使计算系统100能够从一个或多个输入设备108接收输入。此外，I/O中枢107可使显示控制器(其可被包括在一个或多个处理器102中)将输出提供给一个或多个显示设备110A。在一个实施例中，与I/O中枢107耦合的一个或多个显示设备110A可包括本地的、内部的、或嵌入式的显示设备。
[0043]处理子系统101例如包括经由总线或其他通信链路113耦合至存储器中枢105的一个或多个并行处理器112。通信链路113可以是任何数量的基于标准的通信链路技术或协议中的一种，诸如但不限于PCI Express(PCI快捷)，或者可以是供应方特定的通信接口或通信结构。一个或多个并行处理器112可形成可包括大量处理核和/或处理集群的计算集中的并行或向量处理系统，诸如，集成众核(MIC)处理器。例如，一个或多个并行处理器112形成图形处理子系统，该图形处理子系统可以向经由I/O中枢107耦合的一个或多个显本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种计算系统，包括：网络控制器；以及图形处理器，耦合至所述网络控制器，其中，所述图形处理器包括耦合至一个或多个衬底的逻辑，所述逻辑包括：像素流水线，用于处理类型化乱序访问视图UAV消息；以及消息路由器，用于：将无类型UAV消息路由到下一级存储器高速缓存；以及将类型化UAV消息和渲染目标消息路由到所述像素流水线。2.如权利要求1所述的计算系统，其中，为了处理类型化UAV消息，所述像素流水线用于：基于UAV资源的表面格式执行对与类型化UAV消息相关联的一个或多个像素的格式转换；计算用于与所述类型化UAV消息相关联的每个像素的存储器地址；以及收集来自经处理的类型化UAV消息的多个片段。3.如权利要求2所述的计算系统，其中，执行对与类型化UAV消息相关联的一个或多个像素的格式转换包括：将每通道32位的格式转换为每通道8位的格式或每通道16位的格式中的一者。4.如权利要求2所述的计算系统，其中，计算用于与所述类型化UAV消息相关联的每个像素的存储器地址包括：使用与每个相应像素相关联的位置坐标和表面属性。5.如权利要求2所述的计算系统，其中，来自经处理的类型化UAV消息的所述多个片段基于与所述片段中的每一个片段相关联的地址边界而被收集。6.如权利要求1
‑
5中任一项所述的计算系统，其中，只要每个片段的地址落在阈值地址范围内，所述多个片段就被收集，并且其中，一旦下一个片段落在所述阈值地址范围之外，所述像素流水线就进一步用于将所收集的多个片段路由到所述下一级存储器高速缓存。7.一种半导体装置，包括：一个或多个衬底；以及逻辑，耦合至所述一个或多个衬底，所述逻辑至少部分地实现在可配置逻辑或固定功能硬件逻辑中的一者或多者中，所述逻辑包括：像素流水线，用于处理类型化乱序访问视图UAV消息；以及消息路由器，用于：将无类型UAV消息路由到下一级存储器高速缓存；以及将类型化UAV消息和渲染目标消息路由到所述像素流水线。8.如权利要求7所述的装置，其中，为了处理类型化UAV消息，所述像素流水线用于：基于UAV资源的表面格式执行对与类型化UAV消息相关联的一个或多个像素的格式转换；计算用于与所述类型化UAV消息相关联的每个像素的存储器地址；以及收集来自经处理的类型化UAV消息的多个片段。9.如权利要求8所述的装置，其中，执行对与类型化UAV消息相关联的一个或多个像素的格式转换包括：将每通道32位的格式转换为每通道8位的格式或每通道16位的格式中的
一者。10.如权利要求8所述的装置，其中，计算用于与所述类型化UAV消息相关联的每个像素的存储器地址包括：使用与每个相应像素相关联的位置坐标和表面属性。11.如权利要求8所述的装置，其中，来自经处理的类型化UAV消息的所述多个片段基于与所述片段中的每一个片段相关联的地址边界而被收集。12.如权利要求7
‑
11中任一项所述的装置，其中，只要每个片段的地址落在阈值地址范围内，所述多个片段就被收集，并且其中，一旦下一个片段落在所述阈值地址范围之外，所述像素流水线就进一步用于将所收集的多个片段路由到所述下一级存储器高速缓存。13.至少一种非暂...

【专利技术属性】
技术研发人员：J，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人