【技术实现步骤摘要】
机器学习稀疏计算机制
实施例一般涉及数据处理,并且更具体地涉及经由通用图形处理单元的数据处理。
技术介绍
当前的并行图形数据处理包括被开发用于对图形数据执行特定操作的系统和方法,这些特定操作诸如例如线性内插、曲面细分、光栅化、纹理映射、深度测试等。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,图形处理器的多个部分已变得可编程,从而使得此类处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。为进一步提高性能,图形处理器典型地实现处理技术(诸如,流水线化),所述处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,多组并行线程试图尽可能经常地一起同步执行程序指令,以提高处理效率。用于SIMT架构的软件和硬件的一般概述可以在ShaneCook的CUDA编程(CUDAProgramming),第3章,第37-51页(2013年)中找到。附图说明为了以能够 ...
【技术保护点】
1.一种包括指令的非暂态机器可读介质,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行与机器学习框架关联的操作,所述机器学习框架用于促进矩阵乘法,所述操作包括:/n将矩阵的元素加载到所述一个或多个处理器的图形处理器的第一存储器中,其中所述第一存储器是所述图形处理器的全局存储器;/n将所述矩阵的元素的子集从所述第一存储器转移到所述图形处理器的第二存储器中,所述第二存储器对于所述图形处理器的处理资源的集合是本地的;以及/n触发所述图形处理器上的计算内核的执行,其中所述计算内核对所述矩阵的元素的所述子集执行矩阵乘法操作,所述矩阵乘法操作与卷积操作关联,并且所述机器学习 ...
【技术特征摘要】 【专利技术属性】
20170409 US 15/4827911.一种包括指令的非暂态机器可读介质,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行与机器学习框架关联的操作,所述机器学习框架用于促进矩阵乘法,所述操作包括:
将矩阵的元素加载到所述一个或多个处理器的图形处理器的第一存储器中,其中所述第一存储器是所述图形处理器的全局存储器;
将所述矩阵的元素的子集从所述第一存储器转移到所述图形处理器的第二存储器中,所述第二存储器对于所述图形处理器的处理资源的集合是本地的;以及
触发所述图形处理器上的计算内核的执行,其中所述计算内核对所述矩阵的元素的所述子集执行矩阵乘法操作,所述矩阵乘法操作与卷积操作关联,并且所述机器学习框架使得所述计算内核能够指定一个或多个附加逐元素操作以在所述矩阵乘法的输出被转移到所述第一存储器之前对所述输出执行,所述一个或多个附加操作包括将激活函数应用于所述输出。
2.如权利要求1中所述的非暂态机器可读介质,其中在所述矩阵乘法被完成之后并且在所述输出被存储在所述第二存储器中时执行所述一个或多个附加逐元素操作。
3.如权利要求2中所述的非暂态机器可读介质,其中所述激活函数是修正线性单元函数。
4.如权利要求2中所述的非暂态机器可读介质,其中所述一个或多个附加操作另外包括在执行所述激活函数之前执行偏置操作。
5.如权利要求1中所述的非暂态机器可读介质,其中所述计算内核将经由一个或多个图元对所述矩阵的元素的所述子集执行所述矩阵乘法操作,所述一个或多个图元经由所述机器学习框架提供。
6.如权利要求5中所述的非暂态机器可读介质,其中所述机器学习框架将提供图元以使得所述计算内核能够指定要对所述矩阵乘法操作的所述输出执行的一个或多个附加操作。
7.如权利要求5中所述的非暂态机器可读介质,其中所述机器学习框架将提供图元以执行8位整数点积。
8.一种数据处理系统,包括
存储器装置;以及
一个或多个处理器,所述一个或多个处理器配置成执行存储在所述存储器装置中的指令,其中所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行与机器学习框架关联的操作,所述机器学习框架用于促进矩阵乘法,其中所述一个或多个处理器包括图像处理器,并且所述指令使所述一个或多个处理器:
将矩阵的元素加载到所述图形处理器的第一存储器中,其中所述第一存储器是所述图形处理器的全局存储器;
将所述矩阵的元素的子集从所述第一存储器转移到所述图形处理器的第二存储器中,所述第二存储器对于所述图形处理器的处理资源的集合是本地的;以及
触发所述图形处理器上的计算内核的执行,其中所述计算内核将使所述图像处理器对所述矩阵的元素的所述子集执行矩阵乘法操作,所述矩阵乘法操作与卷积操作关联,并且所述机器学习框架使得所述计算内核能够指定一个或多个附加逐元素操作以在所述矩阵乘法的输出被转移到所述第一存储器之前对所述输出执行,所述一个或多个附加操作包括将激活函数应用于所述输出。
9.如权利要求8中所述的数据处理系统,将在所述矩阵乘法被完成之后并且在所述输出被存储在所述第二存储器中时执行所述一个或多个附加逐元素操作。
技术研发人员:B·温布,R·巴里克,N·G·冯博里斯,TH·林,K·辛哈,E·努尔维塔迪,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。