【技术实现步骤摘要】
计算优化机制
本申请是申请日为2018年4月23日、优先权日为2017年4月24日、申请号为201810382773.9,题为“计算优化机制”的专利技术专利申请的分案申请。
[0001]实施例总体涉及数据处理,并且更具体地涉及经由通用图形处理单元的数据处理。
技术介绍
[0002]当前的并行图形数据处理包括被开发用于对图形数据执行特定操作的系统和方法,这些特定操作如例如线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,图形处理器的多个部分已变得可编程,从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。
[0003]为进一步提高性能,图形处理器通常实施处理技术(比如,流水线操作),这些处理技术试图贯穿图形流水线的不同部分来并行处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理量。在SIMT架构中,多组并行线程试图尽可能经常地一起同步执行程序指令,以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在Shane Cook的CUDA编程(CUDA Programming),第3章,第37
‑
51页(2013年)中找到。
附图说明
[0004]为了以能够详细理解本实施例的以上记载特征的方式,可以通过参考实施例来对以上简要概括的实施例进行更具体的描述,这些实施例中的一些在所附附图中被示出。然而,应当注意,所附附图仅示出典型实施例 ...
【技术保护点】
【技术特征摘要】
1.一种图形处理器,包括:存储器控制器;第二级L2高速缓存存储器,与所述存储器控制器耦合;多处理器,耦合至所述存储器控制器,所述多处理器具有包括硬件多线程的单指令多线程SIMT架构,所述多处理器包括用于存储操作数的寄存器堆、多个处理核、以及耦合至所述多个处理核的共享存储器,其中,所述多个处理核包括混合精度核,所述混合精度核用于响应于指令而执行混合精度矩阵乘法和累加操作,其中,为了执行所述混合精度阵乘法和累加操作,所述混合精度核用于执行操作D=A*B+C,其中,A、B、C和D是矩阵元素、A和B是8位整数元素,并且C是32位整数元素。2.如权利要求1所述的图形处理器,其中,所述多处理器用于将与所述操作D=A*B+C的操作数相关联的数据从存储器加载到所述寄存器堆中。3.如权利要求2所述的图形处理器,其中,所述多处理器用于将与所述操作D=A*B+C的操作数相关联的数据从共享存储器加载到所述寄存器堆中。4.如权利要求3所述的图形处理器,其中,所述多处理器用于响应于从所述共享存储器的加载而将与所述操作D=A*B+C的操作数相关联的数据从所述L2高速缓存存储器加载到所述寄存器堆中。5.如权利要求1所述的图形处理器,进一步包括指令高速缓存,用于存储用于在所述多处理器处执行的所述指令,其中,所述指令被执行为线程的经线。6.如权利要求1所述的图形处理器,其中,A和B能够被选择为有符号8位整数元素或无符号8位整数元素,并且C是有符号32位整数元素。7.如权利要求1所述的图形处理器,其中,A和B各自包括与神经网络的层相关联的值。8.如权利要求7所述的图形处理器,其中,A或B各自包括与所述神经网络的层的权重或所述神经网络的层的输入相关联的值。9.一种由图形处理器进行计算的方法,包括:响应于指令而执行混合精度矩阵乘法和累加操作,其中,所述图形处理器包括:存储器控制器;第二级L2高速缓存存储器,与所述存储器控制器耦合;多处理器,耦合至所述存储器控制器,所述多处理器具有包括硬件多线程的单指令多线程SIMT架构,所述多处理器包括用于存储操作数的寄存器堆、多个处理核、以及耦合至所述多个处理核的共享存储器,其中,所述多个处理核包括混合精度核,并且其中,为了执行所述混合精度阵乘法和累加操作,所述混合精度核用于执行操作D=A*B+C,其中,A、B、C和D是矩阵元素、A和B是8位整数元素,并且C是32位整数元素。10.如权利要求9所述的方法,其中,所述多处理器用于将与所述操作D=A*B+C的操作数相关联的数据从存储器加载到所述寄存器堆中。
11.如权利要求10所述的方法,其中,所述多处理器用于将与所述操作D=A*B+C的操作数相关联的数据从共享存储器加载到所述寄存器堆中。12.如权利要求11所述的方法,其中,所述多处理器用于响应于从所述共享存储器的加载而将与所述操作D=A*B+C的操作数相关联的数据从所述L2高速缓存存储器加载到所述寄存器堆中。13.如权利要求9所述的方法,其中,所述图形处理器进一步包括指令高速缓存,用于存储用于在所述多处理器处执行的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。