【技术实现步骤摘要】
计算优化机制本申请是国家申请号为201810382773.9,题为“计算优化机制”的专利技术专利申请的分案申请。
实施例总体涉及数据处理,并且更具体地涉及经由通用图形处理单元的数据处理。
技术介绍
当前的并行图形数据处理包括被开发用于对图形数据执行特定操作的系统和方法,这些特定操作如例如线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,图形处理器的多个部分已变得可编程,从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。为进一步提高性能,图形处理器通常实施处理技术(比如,流水线操作),这些处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,多组并行线程试图尽可能经常地一起同步执行程序指令,以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在ShaneCook的CUDA编程(CUDAProgr ...
【技术保护点】
1.一种装置,包括:/n互连结构,包括一个或多个开关;/n存储器接口,耦合到所述互连结构;/n输入/输出(IO)单元,耦合到所述互连结构;/n处理集群的阵列,耦合到所述互连结构,所述处理集群的阵列用于以可变精度处理指令,至少一个处理集群包括:/n多个寄存器,用于以可变精度存储源操作数;以及/n执行单元,包括多个算术逻辑单元(ALU),所述执行单元用于执行所述指令中的一个或多个以执行D=A*B+C的混合精度融合乘法累加(FMAC)操作,其中,每个源操作数A、B和C是FP64、FP32、FP16、INT32、INT16、INT8或INT4中的任一者;/n其中,ALU用于通过以下 ...
【技术特征摘要】
20170424 US 15/494,9051.一种装置,包括:
互连结构,包括一个或多个开关;
存储器接口,耦合到所述互连结构;
输入/输出(IO)单元,耦合到所述互连结构;
处理集群的阵列,耦合到所述互连结构,所述处理集群的阵列用于以可变精度处理指令,至少一个处理集群包括:
多个寄存器,用于以可变精度存储源操作数;以及
执行单元,包括多个算术逻辑单元(ALU),所述执行单元用于执行所述指令中的一个或多个以执行D=A*B+C的混合精度融合乘法累加(FMAC)操作,其中,每个源操作数A、B和C是FP64、FP32、FP16、INT32、INT16、INT8或INT4中的任一者;
其中,ALU用于通过以下步骤生成结果操作数D:
将源操作数A与源操作数B相乘以生成中间乘积,
将所述中间乘积加到源操作数C。
2.如权利要求1所述的装置,进一步包括:
并行处理器管芯,包括所述互连结构、所述存储器接口、所述输入/输出(IO)单元以及所述处理集群的阵列,
所述并行处理器管芯进一步包括:
本地存储器互连,用于将所述存储器接口耦合到堆叠的存储器管芯,所述本地存储器互连包括存储器接口的独立组,所述存储器接口的独立组与多个堆叠的存储器管芯的相应存储器管芯相关联。
3.如权利要求1所述的装置,其中,所述混合精度指令是机器学习框架的图元。
4.如权利要求3所述的装置,其中,所述多个压缩数据元素中的至少一些包括与所述机器学习框架的卷积层相关联的矩阵的数据元素。
5.如权利要求3所述的装置,其中,与所述机器学习框架的卷积层相关联的矩阵包括第一矩阵和第二矩阵,并且其中,多个乘法中的每一个包括来自所述第一矩阵的压缩数据元素与来自所述第二矩阵的压缩数据元素的乘法。
6.如权利要求3所述的装置,其中,所述机器学习框架包括神经网络。
7.如权利要求3所述...
【专利技术属性】
技术研发人员:A·R·阿普,A·考克,L·L·赫德,D·金,M·B·麦克弗森,J·C·韦斯特,陈峰,F·阿赫巴里,N·斯里尼瓦萨,N·R·萨蒂什,J·雷,P·T·唐,M·S·斯特里克兰,陈晓明,姚安邦,T·史佩斯曼,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。