当前位置: 首页 > 专利查询>英特尔公司专利>正文

可编程光线追踪架构上的命中和交叉着色器的推测性执行制造技术

技术编号:24857588 阅读:35 留言:0更新日期:2020-07-10 19:10
用于在可编程光线追踪架构上的命中和交叉着色器的推测性执行的装置和方法。例如,装置的一个实施例包括:用于执行着色器的单指令多数据(SIMD)或单指令多线程(SIMT)执行单元(EU);以及用于执行光线遍历线程的光线追踪电路,该光线追踪引擎包括:遍历/交叉电路,其响应于遍历线程而使光线遍历通过包括多个分层布置的节点的加速数据结构,以及将光线与节点中的至少一个内包含的基元交叉;以及着色器推迟电路,其用于推迟并聚合由遍历线程产生的多个着色器调用,直到特定的触发事件被检测到为止,其中在检测到触发事件时,多个着色器在单个着色器批中被分派到EU上。

【技术实现步骤摘要】
可编程光线追踪架构上的命中和交叉着色器的推测性执行
本专利技术总体上涉及图形处理器领域。更具体地,本专利技术涉及用于执行更高效的光线追踪操作的装置和方法。
技术介绍
光线追踪是一种通过基于物理的渲染来对光传输进行仿真的技术。该技术广泛用于电影渲染,直到几年前,光线追踪被认为对于实时性能而言太过资源密集。光线追踪中的关键操作中的一个是处理针对称为“光线遍历”的光线场景交叉的可见性查询,其通过对包围体积层级(BVH)中的节点进行遍历和交叉来计算光线场景交叉。去噪已成为对平滑无噪声图像进行实时光线追踪的关键特征。渲染可以跨多个设备上的分布式系统完成,但是到目前为止,现有的去噪框架都对单个机器上的单个实例进行操作。如果正在跨多个设备进行渲染,则这些设备可能不具有可用于计算图像的经去噪的部分的所有经渲染的像素。附图说明根据下面的具体实施方式结合附图,可以获得对本专利技术更好的理解,其中:图1是具有处理器的计算机系统的实施例的框图,该处理器具有一个或多个处理器核心和图形处理器;图2是处理器的一个实施例的框图,该处理器具有一个或多个处理器核心、集成存储器控制器和集成图形处理器;图3是图形处理器的一个实施例的框图,该图形处理器可以是分立图形处理单元,或者可以是与多个处理核心集成的图形处理器;图4是用于图形处理器的图形处理引擎的实施例的框图;图5是图形处理器的另一实施例的框图;图6A-6B示出了执行电路和逻辑的示例;图7示出了根据实施例的图形处理器执行单元指令格式;图8是图形处理器的另一实施例的框图,该图形处理器包括图形流水线、媒体流水线、显示引擎、线程执行逻辑和渲染输出流水线;图9A是示出根据实施例的图形处理器命令格式的框图;图9B是示出根据实施例的图形处理器命令序列的框图;图10示出了根据实施例的用于数据处理系统的示例性图形软件架构;图11A-11B示出了可以用于制造集成电路和示例性封装组装件的示例性IP核心开发系统;图12示出了根据实施例的可以使用一个或多个IP核心构造的示例性片上系统集成电路;图13A-13B示出了可以使用一个或多个IP核心构造的片上系统集成电路的示例性图形处理器;图14A-14B示出了示例性图形处理器架构;图15示出了用于执行机器学习架构的初始训练的架构的一个实施例;图16示出了其中在运行时期间连续训练并更新机器学习引擎的一个实施例;图17示出了其中在运行时期间连续训练并更新机器学习引擎的另一实施例;图18A-18B示出了其中在网络上共享机器学习数据的实施例;并且图19示出了用于训练机器学习引擎的方法的一个实施例;图20示出了其中节点交换重影(ghost)区域数据执行分布式去噪操作的一个实施例;图21示出了其中图像渲染和去噪操作跨多个节点分布的架构的一个实施例;图22示出了用于分布式渲染和去噪的架构的附加细节;图23示出了根据本专利技术一个实施例的方法;图24示出了机器学习方法的一个实施例;图25示出了多个互连的通用图形处理器;图26示出了用于机器学习实现方式的一组卷积层和完全连接层;图27示出了卷积层的一个实施例;图28示出了机器学习实现方式中的一组互连节点的示例;图29示出了训练框架的实施例,在训练框架内神经网络使用训练数据集学习;图30A示出了模型并行性和数据并行性的示例;图30B示出了片上系统(SoC)的示例;图31示出了包括光线追踪核心和张量核心的处理架构的示例;图32示出了光束的示例;图33示出了用于执行光束追踪的装置的实施例;图34示出了光束层级的示例;图35示出了用于执行光束追踪的方法;图36示出了分布式光线追踪引擎的示例;图37-38示出了在光线追踪系统中执行的压缩的示例;图39示出了根据本专利技术一个实施例的方法;图40示出了示例性混合光线追踪装置;图41示出了用于光线追踪操作的栈的示例;图42示出了混合光线追踪装置的一个实施例的附加细节;图43示出了包围体积层级的示例;图44示出了调用栈和遍历状态存储装置的示例;图45示出了用于遍历和交叉的方法的一个实施例;图46A-46B示出了其中要求多个分派周期来执行某些着色器的一个实施例;图47示出了其中单个分派周期执行多个着色器的一个实施例;并且图48示出了其中单个分派周期执行多个着色器的另一实施例。具体实施方式在以下描述中,出于解释的目的,阐述了许多具体细节以便提供对下面描述的本专利技术的实施例的透彻理解。然而,对于本领域技术人员显而易见的是,可以在没有这些具体细节中的一些的情况下实践本专利技术的实施例。在其他实例中,以框图形式示出了公知的结构和设备,以避免模糊本专利技术的实施例的基本原理。示例性图形处理器架构和数据类型系统概述图1是根据实施例的处理系统100的框图。在各种实施例中,系统100包括一个或多个处理器102以及一个或多个图形处理器108,并且系统100可以是单个处理器台式系统、多处理器工作站系统或具有大量处理器102或处理器核心107的服务器系统。在一个实施例中,系统100是结合在片上系统(SoC)集成电路内以在移动、手持或嵌入式设备中使用的处理平台。在一个实施例中,系统100可以包括或结合在基于服务器的游戏平台、游戏控制台内,该游戏控制台包括游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台。在一些实施例中,系统100是移动电话、智能电话、平板计算设备或移动互联网设备。处理系统100还可以包括可穿戴设备(例如,智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备)、与该可穿戴设备耦合或集成在该可穿戴设备内。在一些实施例中,处理系统100是具有一个或多个处理器102以及由一个或多个图形处理器108生成的图形界面的电视或机顶盒设备。在一些实施例中,一个或多个处理器102各自包括用于处理指令的一个或多个处理器核心107,当该指令被执行时执行针对系统和用户软件的操作。在一些实施例中,一个或多个处理器核心107中的每一个被配置用于处理特定的指令集109。在一些实施例中,指令集109可以促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。多个处理器核心107可以各自处理不同的指令集109,不同的指令集109可以包括用于促进对其他指令集的仿真的指令。处理器核心107还可以包括其他处理设备,例如,数字信号处理器(DSP)。在一些实施例中,处理器102包括高速缓冲存储器104。取决于架构,处理器102可以具有单个内部高速缓存或多个级别的内部高速缓存。在一些实施例中,高速缓冲存储器在处理器102的各种组件之间共享。在一些实施例中,处理器102还使用外部高速缓存本文档来自技高网...

【技术保护点】
1.一种装置,包括:/n用于执行着色器的单指令多数据(SIMD)或单指令多线程(SIMT)执行单元(EU);以及/n用于执行光线遍历线程的光线追踪电路,光线追踪引擎包括:/n遍历/交叉电路,其响应于所述遍历线程而使光线遍历通过包括多个分层布置的节点的加速数据结构,以及将所述光线与所述节点中的至少一个内包含的基元交叉;以及/n着色器推迟电路,其用于推迟并聚合由所述遍历线程产生的多个着色器调用,直到特定的触发事件被检测到为止,/n其中,在检测到所述触发事件时,所述多个着色器在单个着色器批中被分派到所述EU上。/n

【技术特征摘要】
20181228 US 16/236,1761.一种装置,包括:
用于执行着色器的单指令多数据(SIMD)或单指令多线程(SIMT)执行单元(EU);以及
用于执行光线遍历线程的光线追踪电路,光线追踪引擎包括:
遍历/交叉电路,其响应于所述遍历线程而使光线遍历通过包括多个分层布置的节点的加速数据结构,以及将所述光线与所述节点中的至少一个内包含的基元交叉;以及
着色器推迟电路,其用于推迟并聚合由所述遍历线程产生的多个着色器调用,直到特定的触发事件被检测到为止,
其中,在检测到所述触发事件时,所述多个着色器在单个着色器批中被分派到所述EU上。


2.根据权利要求1所述的装置,其中,所述触发事件包括特定时间事件或处理事件。


3.根据权利要求1或2所述的装置,还包括:
调度器,其响应于所述触发事件而在所述EU上分派所述单个着色器批。


4.根据权利要求1或2所述的装置,其中,所述遍历线程将被挂起,等待在所述EU上执行的所述着色器批的执行结果,其中,在所述遍历线程被挂起时维护所述遍历线程的第一遍历上下文。


5.根据权利要求4所述的装置,其中,所述着色器推迟电路基于所述多个着色器调用与所述第一遍历上下文相关联而聚合所述多个着色器调用。


6.根据权利要求1或5所述的装置,还包括:
着色器调用剔除电路,其用于在确定所述多个着色器调用中的一个或多个不必要时,剔除所述多个着色器调用中的一个或多个,其中,在没有一个或多个经剔除的着色器调用的情况下,所述单个着色器批被分派。


7.根据权利要求1或5所述的装置,其中,在所述EU上执行的主要光线着色器线程产生所述遍历线程。


8.根据权利要求1或5所述的装置,还包括:
分类电路,其用于重新分组与所述单个着色器批相关联的数据,以增加由所述执行单元执行的SIMD和/或SIMT操作的占用。


9.根据权利要求1或5所述的装置,其中,推迟并聚合多个着色器调用包括将数据条目存储在存储器中的列表或表结构中,所述列表或表包括针对每个着色器的至少一个条目,每个条目可用于标识执行对应的着色器所要求的着色器数据和/或程序代码。


10.一种方法,包括:
在单指令多数据(SIMD)或单指令多线程(SIMT)执行单元(EU)上执行着色器;
在光线追踪引擎上执行光线遍历线程;
响应于所述遍历线程而使光线遍历通过包括多个分层布置的节点的加速数据结构;
将所述光线与所述节点中的至少一个内包含的基元交叉;
推迟并聚合由所述遍历线程产生的多个着色器调用,直到特定的触发事件被检测到为止,
在检测到所述触发事件时,在单个着色器批中将所述多个着色器分派到所述EU上。


11.根据权利要求10所述的方法,其中,所述触发事件包括特定时间事件或处理事件。


12.根据权利要求10或11所述的方法,还包括:
响应于所述触发事件而在所述EU上分派所述单个着色器批。
<...

【专利技术属性】
技术研发人员:G·力克托尔K·维迪雅纳坦J·阿姆斯特茨A·桑原M·多伊尔T·施鲁斯勒
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1