当前位置: 首页 > 专利查询>英特尔公司专利>正文

样本分布知情去噪和渲染制造技术

技术编号:37522964 阅读:19 留言:0更新日期:2023-05-12 15:46
提供了样本分布知情去噪和渲染。提供了图形处理器,其包括被配置为进行以下操作的电路:在神经网络模型的输入块处接收包括先前帧数据、当前帧数据、速度数据和抖动偏移数据的数据集合。神经网络模型被配置为基于根据当前帧数据内样本的样本分布数据计算的可靠性度量来生成去噪、超采样和抗锯齿的输出图像。超采样和抗锯齿的输出图像。超采样和抗锯齿的输出图像。

【技术实现步骤摘要】
样本分布知情去噪和渲染
[0001]交叉引用本申请要求2021年8月19日提交的美国临时专利申请第63/235,108号的优先权,特此通过引用将该申请并入本文。


[0002]本公开总体上涉及通过经由图形处理单元的矩阵加速器执行的神经网络操作的图形抗锯齿(anti

aliasing)。

技术介绍

[0003]时间性抗锯齿(TAA)是一种抗锯齿技术,其中渲染器每帧抖动相机以对屏幕空间中的不同坐标进行采样。TAA级在时间上累积这些样本以产生超采样图像。先前累积的帧使用渲染器生成的速度/运动向量进行扭曲,以在累积之前将其与当前帧对齐。尽管TAA是一种广泛使用的技术来生成时间稳定的抗锯齿图像,但由于可见性和阴影的帧到帧变化或运动向量中的误差,扭曲的样本历史可能与当前像素失配。这通常会导致移动对象边界周围的重影伪影。
附图说明
[0004]本专利技术通过示例而非限制的方式在附图中各图中进行图示,其中相同的附图标记指示相似的元素,并且其中:图1是示出被配置成实现本文中描述的实施例的一个或多个方面的计算机系统的框图;图2A

2D示出并行处理器组件;图3A

3C是图形多处理器和基于多处理器的GPU的框图;图4A

4F示出了示例性架构,其中多个GPU通信地耦合到多个多核处理器;图5示出了图形处理流水线;图6示出了机器学习软件堆栈;图7示出了通用图形处理单元;图8示出了多GPU计算系统;图9A

9B示出了示例性深度神经网络的层;图10示出了示例性递归神经网络;图11示出了深度神经网络的训练和部署;图12A是示出分布式学习的框图;图12B是示出可编程网络接口和数据处理单元的框图;图13示出了适合于使用经训练的模型来执行推理的示例性推理片上系统(SOC);图14是处理系统的框图;图15A

15C示出了计算系统和图形处理器;
图16A

16C示出了另外的图形处理器和计算加速器架构的框图;图17是图形处理器的图形处理引擎的框图;图18A

18B示出了包括在图形处理器核中采用的处理元件的阵列的线程执行逻辑;图19示出了另外的执行单元;图20是示出图形处理器指令格式的框图;图21是另外的图形处理器架构的框图;图22A

22B示出了图形处理器命令格式和命令序列;图23示出了用于数据处理系统的示例性图形软件架构;图24A是示出IP核开发系统的框图;图24B示出了集成电路封装组装件的截面侧视图;图24C示出了包括连接到衬底(例如,基础管芯)的硬件逻辑小芯片的多个单元的封装组装件;图24D示出了包括可互换小芯片的封装组装件;图25是示出示例性片上系统集成电路的框图;图26A

26B是示出供在SoC内使用的示例性图形处理器的框图;图27是根据实施例的数据处理系统的框图;图28A

28B示出了根据实施例的由指令流水线执行的矩阵运算;图29示出了包括以流水线方式组织的乘法器和加法器电路的脉动阵列;图30A

30B示出了可配置为在任意脉动深度执行操作的脉动阵列的使用;图31示出了双路径矩阵乘法加速器,其中每个路径具有四级的深度;图32示出了四路径矩阵乘法加速器,其中每个路径具有两级的深度;图33示出了使用具有反馈输入的脉动阵列的可扩展稀疏矩阵乘法加速器;图34示出了使用的脉动阵列的可扩展稀疏矩阵乘法加速器,在每个级上具有反馈输入和输出;图35示出了根据实施例的用于矩阵加速器的双流水线并行脉动阵列;图36示出了脉动阵列通道的级对;图37示出了包括部分和环回(sum loopback)和用于加速稀疏矩阵乘法的电路的脉动阵列;图38A

38B示出了包括编解码器的矩阵加速电路,以能够实现以压缩格式读取稀疏数据;图39示出了具有时间性抗锯齿(TAA)的常规渲染器;图40示出了用时间摊销的超级采样级替换TAA级的渲染器;图41示出了根据实施例的神经网络模型的组件;图42示出了根据实施例的神经网络模型的输入块;图43A

43B示出了根据实施例的神经网络模型的输出块变体;图44示出了用于执行时间摊销超级采样的方法;图45示出了针对本文所描述的多种渲染技术的示例性渲染性能比较;图46示出了可以用作辅助去噪信息的延迟照亮(lighting)纹理;
图47A

47B示出了神经网络模型的组件,所述组件被配置为执行方差减小的样本分布知情去噪和渲染;图48示出了根据本文所描述实施例的示例性去噪和参考图像;图49是根据实施例的样本分布知情去噪和渲染的方法;以及图50是根据实施例的包括图形处理器的计算设备的框图。
具体实施方式
[0005]图形处理单元(GPU)通信地耦合到主机/处理器核以加速例如图形操作、机器学习操作、模式分析操作和/或各种通用GPU(GPGPU)功能。GPU可通过总线或另一互连(例如,高速互连,诸如PCIe或NVLink)通信地耦合到主机处理器/核。备选地,GPU可与核集成在相同封装或芯片上,并且通过内部处理器总线/互连(即,在封装或芯片内部)通信地耦合到核。不管连接GPU所采用的方式如何,处理器核可以以工作描述符中所包含的命令/指令的序列的形式将工作分配给GPU。GPU接着将专用电路系统/逻辑用于高效地处理这些命令/指令。
[0006]当前并行图形数据处理包括被开发成对图形数据执行特定操作的系统和方法,所述特定操作诸如例如线性内插(linear interpolation)、曲面细分(tessellation)、栅格化(rasterization)、纹理映射(texture mapping)、深度测试等。传统上,图形处理器使用固定功能计算单元来处理图形数据。然而最近,已使图形处理器的部分可编程,从而使此类处理器能够支持用于处理顶点数据和片段数据的更广泛种类的操作。
[0007]为了进一步提高性能,图形处理器通常实现诸如流水线化(pipelining)的处理技术,其试图遍及图形流水线的不同部分并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,并行线程的群组试图尽可能经常地一起同步执行程序指令以提高处理效率。对于SIMT架构的软件和硬件的总体概述可在Shane Cook,CUDA Programming的第三章第37

51页(2013)中找到。
[0008]时间性上采样可以与TAA组合以同时对空间分辨率升尺度(upscale),从而以较低的空间分辨率渲染帧以节省渲染时间。在时间性抗锯齿上采样之后的后处理级然后可以在目标显示分辨率下运行。这允许创建比使用仅空间升高技术可以创建的更清晰的图像,并且与以原生显示分辨率渲染帧时相比,有效地减少了渲染时间。然而,对于原生分辨率渲染帧,这种时间性抗锯齿上采样质量远低于使用TAA。本文描述了使用混合低本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图形处理器,包括:处理资源集合,所述处理资源集合被配置为通过混合精度卷积神经网络执行超采样抗锯齿操作,所述处理资源集合包括被配置为进行以下操作的电路:在神经网络模型的输入块处接收包括先前帧数据、当前帧数据、速度数据和抖动偏移数据的数据集合;预处理所述数据集合以生成预处理数据;将第一预处理数据提供给所述神经网络模型的特征取出网络,并将第二预处理数据提供给所述神经网络模型的输出块,所述第一预处理数据处于第一精度,并且所述第二预处理数据处于高于所述第一精度的第二精度;通过一个或多个编码器级和一个或多个解码器级在所述特征取出网络处处理所述预处理数据;将张量数据从所述特征取出网络输出到所述输出块;以及通过所述神经网络模型的输出块生成输出图像,其中所述输出图像是去噪、超采样和抗锯齿的输出图像,并且所述输出块被配置为基于根据所述当前帧数据内样本的样本分布数据计算的可靠性度量来过滤所述输出图像。2.如权利要求1所述的图形处理器,其中过滤所述输出图像包括基于根据所述样本分布数据计算的样本可靠性度量对所述输出图像进行去噪。3.如权利要求2所述的图形处理器,其中所述电路附加地被配置为在所述输入块处接收所述当前帧数据的样本可靠性度量。4.如权利要求2所述的图形处理器,其中所述电路附加地被配置为在所述输入块处接收所述样本分布数据,并基于所述样本分布数据计算所述样本可靠性度量。5.如权利要求2所述的图形处理器,其中所述电路附加地被配置为计算所述当前帧数据中的样本的样本分布数据,并且基于所述样本分布数据计算所述样本可靠性度量。6.如权利要求3

5中任一项所述的图形处理器,其中所述样本可靠性度量包括所述当前帧数据内样本的样本特性的统计分布的矩。7.如权利要求6所述的图形处理器,其中所述样本可靠性度量是基于样本的知觉统一编码计算的。8.如权利要求7所述的图形处理器,其中所述样本分布数据的方差以知觉统一的色调映射样本的Jensen间隙来表征。9.如权利要求8所述的图形处理器,其中所述电路包括矩阵加速器,所述矩阵加速器被配置为针对所述神经网络模型执行矩阵运算。10.如权利要求9所述的图形处理器,其中所述矩阵加速器可以包括脉动阵列。11.一种方法,包括:在图形处理器装置上进行以下操作:在神经网络模型的输入块处接收包括先前帧数据、当前帧数据、速度数据和抖动偏移数据的数据集合;预处理所述数据集合以生成预处理数据;将第一预处理数据提供给所述神经网络模型的特征取出网络,并将第二预处理数据提供给所述神经网络模型的输出块,所述第一预处理数据处于第一精度,并且所述第二预处
理数据处于高于所述第一精度的第二精度;通过一个或多个编码器级和一个或多个解码器级在所述特征取出网络处处理所述...

【专利技术属性】
技术研发人员:T
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1