【技术实现步骤摘要】
机器学习稀疏计算机制
实施例一般涉及数据处理,并且更具体地涉及经由通用图形处理单元的数据处理。
技术介绍
当前的并行图形数据处理包括被开发用于对图形数据执行特定操作的系统和方法,这些特定操作诸如例如线性内插、曲面细分、光栅化、纹理映射、深度测试等。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,图形处理器的多个部分已变得可编程,从而使得此类处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。为进一步提高性能,图形处理器典型地实现处理技术(诸如,流水线化),所述处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,多组并行线程试图尽可能经常地一起同步执行程序指令,以提高处理效率。用于SIMT架构的软件和硬件的一般概述可以在ShaneCook的CUDA编程(CUDAProgramming),第3章,第37-51页(2013年)中找到。附图说明为了以能够 ...
【技术保护点】
1. 一种设备,包括:/n存储器,所述存储器用于存储张量集合;以及/n张量加速器,所述张量加速器耦合到所述存储器,所述张量加速器包括:/n硬件单元,所述硬件单元用于检测所述张量集合的压缩表示内的稀疏性模式;/n缓冲器,所述缓冲器用于存储所述输入张量集合的元素;/n处理元件阵列,所述处理元件阵列用于对所述输入张量的所述元素执行操作,所述操作与点积操作关联,所述处理元件阵列中的每个处理元件包括用于存储所述操作的操作数的一个或多个寄存器,其中所述处理元件阵列将:/n从所述缓冲器接收所述张量集合的所述元素;/n将从所述缓冲器接收的所述元素存储在所述处理元件阵列内的所述处理元件的所述 ...
【技术特征摘要】
20170409 US 15/4827911.一种设备,包括:
存储器,所述存储器用于存储张量集合;以及
张量加速器,所述张量加速器耦合到所述存储器,所述张量加速器包括:
硬件单元,所述硬件单元用于检测所述张量集合的压缩表示内的稀疏性模式;
缓冲器,所述缓冲器用于存储所述输入张量集合的元素;
处理元件阵列,所述处理元件阵列用于对所述输入张量的所述元素执行操作,所述操作与点积操作关联,所述处理元件阵列中的每个处理元件包括用于存储所述操作的操作数的一个或多个寄存器,其中所述处理元件阵列将:
从所述缓冲器接收所述张量集合的所述元素;
将从所述缓冲器接收的所述元素存储在所述处理元件阵列内的所述处理元件的所述一个或多个寄存器内;
对从所述缓冲器接收的非零元素执行所述操作,所述非零元素至少部分基于在所述张量集合的所述压缩表示内检测到的所述稀疏性模式来确定;以及
输出所述操作的结果。
2.如权利要求1中所述的设备,另外包括硬件互连,所述硬件互连用于将所述缓冲器与所述处理元件阵列耦合。
3.如权利要求1中所述的设备,另外包括将经由检测所述张量集合的所述压缩表示的所述稀疏性模式内的稀疏区域来检测所述张量集合内的稀疏区域,以及旁路要对所述稀疏区域执行的操作。
4.如权利要求1中所述的设备,其中将检测所述张量集合内的所述稀疏性模式包括将确定所述输入张量集合内的非零值的坐标。
5.如权利要求4中所述的设备,其中所述处理元件阵列内的所述处理元件的所述检测器仅存储所述张量集合的非零元素。
6.如权利要求5中所述的设备,其中所述缓冲器仅存储所述张量集合的非零元素。
7.如权利要求1中所述的设备,其中所述存储器是动态随机存取存储器。
8.一种方法,包括:
在配置成加速与点积操作关联的矩阵乘法操作的计算加速器上:
将矩阵集合存储到存储器;
检测所述矩阵集合的压缩表示内的稀疏性模式;
将所述矩阵集合的元素存储到所述计算加速器上的缓冲器;以及
对所述矩阵的所述元素执行所述矩阵乘法操作,所述矩阵乘法操作经由包括一个或多个寄存器的处理元件阵列来执行,所述一个或多个寄存器用于存储所述矩阵乘法操作的操作数,其中执行所述矩阵乘法操作包括:
从所述缓冲器接收所述矩阵集合的所述元素;
将从所述缓冲器接收的所述元素存储在所述处理元件阵列内的所述处理元件的所述一个或多个寄存器内;
对从所述缓冲器接收的非零元素执行所述矩阵乘法操作,所述非零元素至少部分基于在所述矩阵集合的所述压缩表示内检测到的所述稀疏性模式来确定;以及
输出所述矩阵乘法操作的结果。
...
【专利技术属性】
技术研发人员:B温布,R巴里克,NG冯博里斯,TH林,K辛哈,E努尔维塔迪,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。