【技术实现步骤摘要】
任意神经网络的机器学习稀疏计算机制、用于训练机制的算术计算微架构以及稀疏性
实施例大体涉及数据处理,并且更具体地涉及经由通用图形处理单元的数据处理。
技术介绍
当前的并行图形数据处理包括开发用于对图形数据执行特定操作的系统和方法,所述特定操作诸如例如线性插值、曲面细分、光栅化、纹理映射、深度测试等。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,部分图形处理器已经被制作为可编程的,使得这种处理器能够支持更广泛种类的操作来处理顶点和片段数据。为了进一步提高性能,图形处理器通常实现诸如流水线操作之类的处理技术,这些处理技术尝试贯穿图形流水线的不同部分并行地处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成使图形流水线中的并行处理量最大化。在SIMT架构中,多组并行线程尝试尽可能经常地一起同步执行程序指令,以提高处理效率。可以在ShaneCook的CUDA编程(CUDAProgramming)第三章,第37-51页(2013)中找到SIMT架构的软件和硬件的一般概述。附图说明为了以能够详细理解本实施例的以上记载特征的方式, ...
【技术保护点】
1.一种用于促进处理任意图形数据的稀疏矩阵的装置,包括:图形处理单元,其包括:数据管理单元(DMU),所述数据管理单元具有:用于调度矩阵操作的调度器;用于跟踪有效输入操作数的有效电路;以及用于跟踪要由所述调度器跳过的不重要输入操作数的跳过电路;以及处理电路,被耦合到所述DMU,所述处理电路包括多个处理元件,所述处理元件包括用于读取操作数的电路和用于使所述任意图形数据的两个或更多个操作数相乘的乘法单元。
【技术特征摘要】
2017.12.29 US 15/859,2031.一种用于促进处理任意图形数据的稀疏矩阵的装置,包括:图形处理单元,其包括:数据管理单元(DMU),所述数据管理单元具有:用于调度矩阵操作的调度器;用于跟踪有效输入操作数的有效电路;以及用于跟踪要由所述调度器跳过的不重要输入操作数的跳过电路;以及处理电路,被耦合到所述DMU,所述处理电路包括多个处理元件,所述处理元件包括用于读取操作数的电路和用于使所述任意图形数据的两个或更多个操作数相乘的乘法单元。2.如权利要求1所述的装置,其特征在于,所述调度器用于在所述乘法单元处调度非零操作数。3.如权利要求1所述的装置,其特征在于,进一步包括:具有指针电路的存储器,所述指针电路用于存储输入向量和输出向量的基指针;以及用于存储输入向量和输出向量的存储器。4.如权利要求1所述的装置,其特征在于,每个处理元件包括:用于读取操作数的电路、用于提供指向矩阵的加权系数的存储器地址的列指针的指针电路、用于产生由列所述指针标识的加权系数值并将其发送到所述乘法单元的数据电路。5.如权利要求4所述的装置,其特征在于,所述数据电路将所述输出向量的存储器地址或位置的标识符发送到所述输出缓冲器。6.如权利要求1所述的装置,其特征在于,所述图形处理单元支持遍及任意不规则神经网络的任何层的任意连接。7.一种用于促进处理任意神经网络的稀疏矩阵的硬件加速器,包括:数据管理单元(DMU),所述数据管理单元具有用于调度矩阵操作的调度器和用于存储有效输入操作数的辅助缓冲器;以及多个处理元件,其耦合到所述DMU,每个处理元件包括用于边缘数据和消息数据的输入缓冲器,以及用于支持所述任意神经网络的输入顶点程序的可定制电路。8.如权利要求7所述的硬件加速器,其特征在于,用于支持输入顶点程序的所述可定制电路支持乘法、累加、激活和发送消息功能。9.如权利要求8所述的硬件加速器,其特征在于,每个处理元件进一步包括芯片上存储器,用于经由所述DMU从芯片外存储器接收向量数据。10.如权利要求9所述的硬件加速器,其特征在于,所述DMU用于基于所定制的函数...
【专利技术属性】
技术研发人员:E·努维塔蒂,A·布雷韦斯,D·马尔,E·王,S·德瓦拉卡普拉姆,S·加纳帕斯,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。