具有先进调度的可编程粗粒度化和稀疏矩阵计算硬件制造技术

技术编号：19427890 阅读：26 留言：0更新日期：2018-11-14 11:05

提供了具有先进调度的可编程粗粒度化和稀疏矩阵计算硬件。一个实施例提供执行机器学习操作的计算装置，所述计算装置包括解码单元以将单个指令解码成经解码的指令，所述经解码的指令要使得所述计算装置执行复杂机器学习计算操作。

全部详细技术资料下载

【技术实现步骤摘要】
具有先进调度的可编程粗粒度化和稀疏矩阵计算硬件
实施例一般地涉及数据处理并且更特别地涉及经由通用图形处理单元的数据处理。
技术介绍
当前的并行图形数据处理包括被开发以对图形数据执行特定操作的系统和方法，这些特定操作诸如例如线性内插、镶嵌、栅格化、纹理映射、深度测试等。传统上，图形处理器使用了固定功能计算单元来处理图形数据；然而，最近，图形处理器的多个部分已变得可编程，从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。为了进一步提高性能，图形处理器通常实现处理技术（诸如，流水线操作），这些处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程（SIMT）架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中，多组并行线程试图尽可能经常地一起同步执行程序指令，以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在ShaneCook的CUDA编程（CUDAProgramming），第3章，第37-51页（2013年）和/或NicholasWilt的CUDA手册，对GPU编程的全面向导（CUDAHandbook,AComprehensiveGuidetoGPUProgramming），第2.6.2至3.1.2节（2013年6月）中找到。附图说明为了能够详细理解本专利技术的特征，可以通过参考实施例而有对本专利技术的更具体的描述，所述实施例中的一些在附图中被图示。然而，要注意，附图仅图示典型实施例，并因此不要被认为是对所有实施例的范围的限制。图1是图示了被配置成实现本文所述的实施例的一个或多...

【技术保护点】
1.一种执行机器学习操作的计算装置，所述计算装置包括：解码单元，其用以将单个指令解码成经解码的指令，所述经解码的指令使得所述计算装置执行复杂机器学习计算操作。

【技术特征摘要】
2017.04.28 US 15/5811821.一种执行机器学习操作的计算装置，所述计算装置包括：解码单元，其用以将单个指令解码成经解码的指令，所述经解码的指令使得所述计算装置执行复杂机器学习计算操作。2.如权利要求1中所述的计算装置，此外包括用以获取所述单个指令的获取单元。3.如权利要求2中所述的计算装置，此外包括参数分析逻辑，其用以确定针对所述单个指令要执行的机器学习操作的类型。4.如权利要求3中所述的计算装置，此外包括机器学习加速逻辑，其用以确定为了执行所述经解码的指令要执行的一组操作。5.如权利要求4中所述的计算装置，此外包括执行固件指令的微控制器，所述固件指令用以实现所述参数分析逻辑和所述机器学习加速逻辑。6.如权利要求1中所述的计算装置，其中所述复杂机器学习计算操作是要为卷积神经网络执行卷积。7.如权利要求6中所述的计算装置，其中所述卷积包括多个矩阵运算。8.如权利要求7中所述的计算装置，此外包括调度器控制器，其用以将所述多个矩阵运算调度到多种类型的计算单元中的一个或多个。9.如权利要求8中所述的计算装置，其中所述多种类型的计算单元包括通用图形计算单元和稀疏计算单元。10.如权利要求8中所述的计算装置，其中所述多种类型的计算单元包括通用图形计算单元和近数据计算单元。11.一种执行机器学习操作的方法，所述方法包括：获取单个指令并且将所述单个指令解码成经解码的指令，所述经解码的指令相关联于将经由通用图形处理单元的计算流水线而被执行的多个机器学习操作的集合；确定用于执行所述多个机器学习操作的集合的一组流水线命令；将该组流水线命令调度到所述通用图形处理单元的计算流水线；以及响应于该组流水线命令的完成而引退所述经解码的指令。12.如权利要求11中所述的方法，其中确定用于执行所述多个机器学习操作的集合的一组流水线命令包括分析与所述经解码的指令相关联的参数。13.如权利要求11中所述的方法，其中所述单个指令是要使得所述通用图形处理单元为卷积神经网络的层...

【专利技术属性】
技术研发人员：E努尔维塔迪，B温布，NCG冯博里斯，R巴里克，TH林，K辛哈，NR萨蒂什，J博特莱森，F阿克巴里，A科克，N斯里尼瓦萨，D金，SS巴格索尔基，JE戈奇利希，F陈，E奥尔德艾哈迈德瓦尔，K尼利斯，X陈，姚安邦，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人