当前位置: 首页 > 专利查询>英特尔公司专利>正文

具有先进调度的可编程粗粒度化和稀疏矩阵计算硬件制造技术

技术编号:19427890 阅读:26 留言:0更新日期:2018-11-14 11:05
提供了具有先进调度的可编程粗粒度化和稀疏矩阵计算硬件。一个实施例提供执行机器学习操作的计算装置,所述计算装置包括解码单元以将单个指令解码成经解码的指令,所述经解码的指令要使得所述计算装置执行复杂机器学习计算操作。

【技术实现步骤摘要】
具有先进调度的可编程粗粒度化和稀疏矩阵计算硬件
实施例一般地涉及数据处理并且更特别地涉及经由通用图形处理单元的数据处理。
技术介绍
当前的并行图形数据处理包括被开发以对图形数据执行特定操作的系统和方法,这些特定操作诸如例如线性内插、镶嵌、栅格化、纹理映射、深度测试等。传统上,图形处理器使用了固定功能计算单元来处理图形数据;然而,最近,图形处理器的多个部分已变得可编程,从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。为了进一步提高性能,图形处理器通常实现处理技术(诸如,流水线操作),这些处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,多组并行线程试图尽可能经常地一起同步执行程序指令,以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在ShaneCook的CUDA编程(CUDAProgramming),第3章,第37-51页(2013年)和/或NicholasWilt的CUDA手册,对GPU编程的全面向导(CUDAHandbook,AComprehensiveGuidetoGPUProgramming),第2.6.2至3.1.2节(2013年6月)中找到。附图说明为了能够详细理解本专利技术的特征,可以通过参考实施例而有对本专利技术的更具体的描述,所述实施例中的一些在附图中被图示。然而,要注意,附图仅图示典型实施例,并因此不要被认为是对所有实施例的范围的限制。图1是图示了被配置成实现本文所述的实施例的一个或多个方面的计算机系统的框图;图2A-2D图示了根据实施例的并行处理器部件;图3A-3B是根据实施例的图形多处理器的框图;图4A-4F图示了其中多个GPU通信地耦合至多个多核处理器的示例性架构;图5图示了根据实施例的图形处理流水线;图6图示了根据实施例的机器学习软件堆栈;图7图示了根据实施例的高度并行的通用图形处理单元;图8图示了根据实施例的多GPU计算系统;图9A-9B图示了示例性深度神经网络的各层;图10图示了示例性递归神经网络;图11图示了深度神经网络的训练和部署;图12是图示了分布式学习的框图;图13图示了适合于通过使用已训练的模型而执行推断的示例性进行推断的片上系统(SOC);图14是根据实施例的数据处理系统的框图;图15A图示了根据实施例的机器学习指令和获取单元的细节;图15B图示了根据实施例的机器学习调度器控制器的细节;图16图示了根据实施例的示例性卷积运算;图17是根据实施例的用于执行对计算流水线的机器学习操作的粗粒度调度的逻辑的流程图;图18是图示了根据实施例的混合存储器计算系统的框图;图19A-19B是经由本文所述的实施例图示了用于执行近数据计算操作的逻辑的流程图;图20图示了本文所述的实施例内的示例性乘加逻辑;图21图示了根据一个实施例的稀疏计算加速器架构;图22图示了根据实施例的用于稀疏矩阵运算的附加稀疏计算架构;图23A-23B是图示了用于在由本文所述的实施例提供的GPGPU内执行稀疏计算操作的逻辑2300、2310的流程图;图24是根据实施例的处理系统的框图;图25是根据实施例的处理器的框图;图26是根据实施例的图形处理器的框图;图27是根据一些实施例的图形处理器的图形处理引擎的框图;图28是由附加实施例提供的图形处理器的框图;图29图示了包括在一些实施例中采用的处理元件阵列的线程执行逻辑;图30是图示了根据一些实施例的图形处理器指令格式的框图;图31是根据另一个实施例的图形处理器的框图;图32A-32B图示了根据一些实施例的图形处理器命令格式和命令序列;图33图示了根据一些实施例的数据处理系统的示例性图形软件架构;图34是图示了根据实施例的IP核开发系统的框图;图35是图示了根据实施例的示例性片上系统集成电路的框图;图36是图示了根据实施例的附加图形处理器的框图;以及图37是图示了根据实施例的片上系统集成电路的附加示例性图形处理器的框图。具体实施方式在一些实施例中,图形处理单元(GPU)通信地耦合到主机/处理器核以加速图形操作、机器学习操作、模式分析操作、以及各种通用GPU(GPGPU)功能。GPU可以通过总线或另一互连(例如,诸如PCIe或NVLink之类的高速互连)通信地耦合到主机处理器/核。在其他实施例中,GPU可以与核一样集成在相同封装或芯片上,并通过内部处理器总线/互连(即,在封装或芯片内部)通信地耦合到核。不管GPU连接的方式如何,处理器核都可以以工作描述符中所包含的命令/指令的序列的形式将工作分配给GPU。GPU随后使用专用电路/逻辑以用于高效地处理这些命令/指令。在以下描述中,阐述了很多特定细节以提供更透彻的理解。然而,本领域技术人员应当理解,没有这些特定细节中的一个或多个,也可以实践本文中所描述的实施例。在其他实例中,未描述公知的特征以避免使本专利技术实施例的细节变得模糊。系统概述图1是图示了被配置成实现本文所述的实施例的一个或多个方面的计算系统100的框图。计算系统100包括处理子系统101,所述处理子系统具有一个或多个处理器102和系统存储器104,所述一个或多个处理器和所述系统存储器经由互连路径进行通信,所述互连路径可以包括存储器中枢105。存储器中枢105可以是芯片组部件内的单独的部件,或者可以集成在一个或多个处理器102内。存储器中枢105经由通信链路106与I/O子系统111耦合。I/O子系统111包括I/O中枢107,所述I/O中枢可以使得计算系统100能够从一个或多个输入设备108接收输入。另外,I/O中枢107可以使得显示控制器(所述显示控制器可以被包括在一个或多个处理器102中)能够向一个或多个显示设备110A提供输出。在一个实施例中,与I/O中枢107耦合的一个或多个显示设备110A可以包括本地显示设备、内部显示设备或嵌入式显示设备。在一个实施例中,处理子系统101包括一个或多个并行处理器112,所述一个或多个并行处理器经由总线或其他通信链路113耦合至存储器中枢105。通信链路113可以是任意数量的基于标准的通信链路技术或协议(诸如但不限于PCIExpress)中的一个,或者可以是供应方特定的通信接口或通信结构。在一个实施例中,一个或多个并行处理器112形成以计算为中心的并行或向量处理系统,所述系统包括大量处理核和/或处理集群,诸如集成众核(MIC)处理器。在一个实施例中,一个或多个并行处理器112形成图形处理子系统,所述图形处理子系统可以向经由I/O中枢107耦合的一个或多个显示设备110A中的一个输出像素。一个或多个并行处理器112还可以包括显示控制器和显示接口(未示出)以实现到一个或多个显示设备110B的直接连接。在I/O子系统111内,系统存储单元114可以连接至I/O中枢107来为计算系统100提供存储机制。I/O开关116可以用于提供接口机制以实现I/O中枢107和可以集成到平台中的其他部件(诸如网络适配器118和/或无线网络适配器119)以及可以经由一个或多个插入式设备120添加的各种其他设备之间的连接。网络适配器118可以是以太网适配器或另一种有线网络适配器。无本文档来自技高网...

【技术保护点】
1.一种执行机器学习操作的计算装置,所述计算装置包括:解码单元,其用以将单个指令解码成经解码的指令,所述经解码的指令使得所述计算装置执行复杂机器学习计算操作。

【技术特征摘要】
2017.04.28 US 15/5811821.一种执行机器学习操作的计算装置,所述计算装置包括:解码单元,其用以将单个指令解码成经解码的指令,所述经解码的指令使得所述计算装置执行复杂机器学习计算操作。2.如权利要求1中所述的计算装置,此外包括用以获取所述单个指令的获取单元。3.如权利要求2中所述的计算装置,此外包括参数分析逻辑,其用以确定针对所述单个指令要执行的机器学习操作的类型。4.如权利要求3中所述的计算装置,此外包括机器学习加速逻辑,其用以确定为了执行所述经解码的指令要执行的一组操作。5.如权利要求4中所述的计算装置,此外包括执行固件指令的微控制器,所述固件指令用以实现所述参数分析逻辑和所述机器学习加速逻辑。6.如权利要求1中所述的计算装置,其中所述复杂机器学习计算操作是要为卷积神经网络执行卷积。7.如权利要求6中所述的计算装置,其中所述卷积包括多个矩阵运算。8.如权利要求7中所述的计算装置,此外包括调度器控制器,其用以将所述多个矩阵运算调度到多种类型的计算单元中的一个或多个。9.如权利要求8中所述的计算装置,其中所述多种类型的计算单元包括通用图形计算单元和稀疏计算单元。10.如权利要求8中所述的计算装置,其中所述多种类型的计算单元包括通用图形计算单元和近数据计算单元。11.一种执行机器学习操作的方法,所述方法包括:获取单个指令并且将所述单个指令解码成经解码的指令,所述经解码的指令相关联于将经由通用图形处理单元的计算流水线而被执行的多个机器学习操作的集合;确定用于执行所述多个机器学习操作的集合的一组流水线命令;将该组流水线命令调度到所述通用图形处理单元的计算流水线;以及响应于该组流水线命令的完成而引退所述经解码的指令。12.如权利要求11中所述的方法,其中确定用于执行所述多个机器学习操作的集合的一组流水线命令包括分析与所述经解码的指令相关联的参数。13.如权利要求11中所述的方法,其中所述单个指令是要使得所述通用图形处理单元为卷积神经网络的层...

【专利技术属性】
技术研发人员:E努尔维塔迪B温布NCG冯博里斯R巴里克TH林K辛哈NR萨蒂什J博特莱森F阿克巴里A科克N斯里尼瓦萨D金SS巴格索尔基JE戈奇利希F陈E奥尔德艾哈迈德瓦尔K尼利斯X陈姚安邦
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1