当前位置: 首页 > 专利查询>英特尔公司专利>正文

在推断期间中对图形处理器的协调和增加利用制造技术

技术编号:38094016 阅读:17 留言:0更新日期:2023-07-06 09:07
本申请公开了在推断期间中对图形处理器的协调和增加利用。描述一种用于促进自主机器处的机器学习的推断协调与处理利用的机制。如本文所描述,实施例的一种方法包括:在训练时根据与包括图形处理器的处理器相关的训练数据集来检测与将要执行的一个或多个任务相关的信息。所述方法还可以包括:分析所述信息以确定能够支持所述一个或多个任务的与所述处理器相关的硬件的一个或多个部分;以及将所述硬件配置成预先选择所述一个或多个部分来执行所述一个或多个任务,而所述硬件的其他部分保持可用于其他任务。保持可用于其他任务。保持可用于其他任务。

【技术实现步骤摘要】
在推断期间中对图形处理器的协调和增加利用
本专利技术专利申请是2018年4月23日提交的申请号为201810368892.9,名称为“在推断期间中对图形处理器的协调和增加利用”的专利技术专利申请的分案申请。


[0001]本文所描述的实施例总体上涉及数据处理,并且更具体地涉及促进一种用于在推断期间对图形处理器进行协调和增加利用的工具。

技术介绍

[0002]当前的并行图形数据处理包括被开发用于对图形数据执行特定操作的系统和方法,诸如,例如线性插值法、曲面细分、栅格化、纹理映射、深度测试等。传统上,图形处理器使用固定函数计算单元来处理图形数据,然而近来,图形处理器的多个部分已经可编程,从而使得此类处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。
[0003]为了进一步提高性能,图形处理器通常实现诸如流水线操作的处理技术,这些处理技术尝试贯穿图形流水线的不同部分并行地处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成使图形流水线中的并行处理量最大化。在SIMT架构中,多组并行线程尝试尽可能经常地一起同步执行程序指令,以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在以下两者中找到:Shane Cook的CUDA编程(CUDA Programming),第3章,第37到51页(2013年)和/或Nicholas Wilt的CUDA手册(GPU编程的综合指南(A Comprehensive Guide to GPU Programming)),章节2.6.2到3.1.2(2013年6月)。
[0004]机器学习在解决很多种任务方面已经成功。在训练和使用机器学习算法(例如,神经网络)时产生的计算使其本身自然地用于有效的并行实施。因此,诸如通用图形处理单元(GPGPU)的并行处理器在深度神经网络的实践实施中起到重要作用。具有单指令多线程(SIMT)架构的并行图形处理器被设计成使图形流水线中的并行处理量最大化。在SIMT架构中,多组并行线程尝试尽可能经常地一起同步执行程序指令,以提高处理效率。由并行机器学习算法实施提供的效率允许使用大容量网络并且使得那些网络能够在更大数据集上进行训练。
[0005]常规技术并未提供推断输出与负责提供输入的传感器之间的协调;然而,此类常规技术没有提供推断输出的准确性。此外,在图形处理器上使用推断相当少,而其余图形处理器未被利用。
附图说明
[0006]在附图中以示例性而非限制性方式展示实施例,在附图中,相同的参考标记指代类似元件。因此,可以详细地理解上述特征、上文简要概述的更具体描述的方式可能已经参考实施例,一些实施例在附图中展示。然而,应注意,附图仅展示了典型的实施例,并且因此不应被视作限制其范围,因为附图可以展示其他同样有效的实施例。
[0007]图1是展示被配置成实施本文所描述实施例的一个或多个方面的计算机系统的框图。
[0008]图2A到图2D展示了根据实施例的并行处理器部件。
[0009]图3A到图3B是根据实施例的图形多处理器的框图。
[0010]图4A到图4F展示了示例性架构,其中多个图形处理单元以通信方式耦合到多个多核处理器。
[0011]图5展示了根据实施例的图形处理流水线。
[0012]图6展示了根据一个实施例的托管推断协调与处理利用机制的计算装置。
[0013]图7展示了根据一个实施例的推断协调与处理利用机制。
[0014]图8A展示了根据一个实施例的在用于促进预分析训练的应用和/或图形处理器处的事务框架。
[0015]图8B展示了根据一个实施例的用于经提高处理利用的图形处理器。
[0016]图8C展示了根据一个实施例的用于推断输出与传感器的经改进协调的事务序列。
[0017]图8D展示了根据一个实施例的用于推断输出与传感器的经改进协调的事务序列。
[0018]图9A和图9B展示了根据一个实施例的示出使用模型的事务序列。
[0019]图9C展示了根据一个实施例的示出优先化选项的图表。
[0020]图10展示了根据实施例的机器学习软件堆栈。
[0021]图11展示了根据实施例的高度并行通用图形处理单元。
[0022]图12展示了根据实施例的多GPU计算系统。
[0023]图13A到图13B展示了示例性深度神经网络的层。
[0024]图14展示了深度神经网络的训练和部署。
[0025]图15展示了深度神经网络的训练和部署。
[0026]图16是展示了分布式学习的框图。
[0027]图17展示了适合于使用训练的模型来执行推断的示例性推断芯片上系统(SOC)。
[0028]图18是具有处理器的计算机系统的实施例的框图,所述处理器具有一个或多个处理器核以及图形处理器。
[0029]图19是处理器的一个实施例的框图,所述处理器具有一个或多个处理器核、集成存储器控制器以及集成图形处理器。
[0030]图20是图形处理器的一个实施例的框图,所述图形处理器可以是分立式图形处理单元,或者可以是与多个处理核集成的图形处理器。
[0031]图21是用于图形处理器的图形处理引擎的实施例的框图。
[0032]图22是图形处理器的另一个实施例的框图。
[0033]图23是包括处理元件阵列的线程执行逻辑的框图。
[0034]图24展示了根据实施例的图形处理器执行单元指令格式。
[0035]图25是图形处理器的另一实施例的框图,所述图形处理器包括图形流水线、媒体流水线、显示引擎、线程执行逻辑以及渲染输出流水线。
[0036]图26A是框图,展示了根据实施例的图形处理器命令格式。
[0037]图26B是框图,展示了根据实施例的图形处理器命令序列。
[0038]图27展示了根据实施例的数据处理系统的示例性图形软件架构。
[0039]图28是框图,展示了根据实施例的可以用于制造集成电路以执行操作的IP核开发系统。
[0040]图29是框图,展示了根据实施例的可以使用一个或多个IP核来制造的示例性芯片上系统集成电路。
[0041]图30是框图,展示了芯片上系统集成电路的示例性图形处理器。
[0042]图31是框图,展示了芯片上系统集成电路的额外示例性图形处理器。
具体实施方式
[0043]实施例提供一种用于通过使用诸如查找表、简化数学等一项或多项技术来帮助检测频繁使用的数据值并且随后加速操作的新技术。实施例还提供一种用于引入有限状态机的新技术,其中,在一个实施例中,这个有限状态机提供指向A、B的基址的指针,而输出是C+序列。
[0044]应注意,贯穿本文档可以互换地引用像是“卷积神经网络”、“CNN”、“神经网络”、“NN”、“深度神经网络”、“DNN”、“递归神经网络”、“RNN”等等术语或首字母缩略词。此外,贯穿本文档可以互换地引用像是“自主机器”或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非暂态机器可读存储介质,具有存储于其上的可执行计算机程序指令,所述可执行计算机程序指令当由一个或多个机器执行时,使所述一个或多个机器执行包括以下各项的操作:调度系统中的资源以用于所述系统的客户端的多个上下文,所述多个上下文被分派至所述资源,其中,所述系统的所述资源包括多个流处理器;指定可用线程的部分作为对所述多个流处理器的使用的限制;以及在确定对所述多个流处理器的使用的所述限制被设置后,限制所述多个上下文中的一个或多个上下文对所述多个流处理器的使用,其中,限制对所述多个流处理器的使用包括将用于所述一个或多个上下文的线程限制为所述多个流处理器的可用线程的指定部分,所述指定部分少于所述多个流处理器的所有可用线程,以及其中,将用于所述一个或多个上下文的线程限制为可用线程的所述指定部分包括将所述一个或多个上下文限制到所述多个流处理器的子集,所述子集少于所有可用流处理器。2.如权利要求1所述的存储介质,其中,一个或多个上下文对所述多个流处理器的使用被部分地限制以提高所述多个流处理器的利用率。3.如权利要求2所述的存储介质,进一步包括当由所述一个或多个机器执行时使所述一个或多个机器执行包括以下各项的操作的可执行计算机程序指令:监测所述多个流处理器的利用率。4.如权利要求2所述的存储介质,其中,所述操作附加地包括部分地基于控制目标和来自调度器的需求来调整对用于所述一个或多个上下文的线程的限制。5.如权利要求1所述的存储介质,其中,所述多个流处理器包括单指令多线程SIMT架构。6.如权利要求5所述的存储介质,其中,所述SIMT架构包括硬件多线程。7.如权利要求1所述的存储介质,其中,所述多个流处理器中的每一个耦合到数据高速缓存。8.如权利要求7所述的存储介质,其中,数据端口耦合到所述数据高速缓存以针对经由所述数据端口的存储器访问对数据进行高速缓存。9.一种非暂态机器可读存储介质,具有存储于其上的可执行计算机程序指令,所述可执行计算机程序指令当由一个或多个机器执行时,使所述一个或多个机器执行包括以下各项的操作:执行用于系统的客户端的一个或多个上下文的处理,所述系统包括多个客户端;以及访问所述系统的用于所述一个或多个上下文的经调度的资源,所述多个客户端的所述上下文被分派至所述资源,其中,所述系统的所述资源包括多个流处理器;其中,所述一个或多个上下文对所述多个流处理器的访问受制于由所述系统设置的对使用的限制;其中,对使用的所述限制包括将用于所述一个或多个上下文的所述多个流处理器的线程限制为可用线程的指定部分,所述指定部分少于所...

【专利技术属性】
技术研发人员:A
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1