【技术实现步骤摘要】
低精度机器学习操作的计算优化本申请为于2018年4月27日提交的,申请号为201810392234.3的,标题为《低精度机器学习操作的计算优化》的申请的分案。
实施例一般涉及数据处理,并且更具体地涉及经由通用图形处理单元的数据处理。
技术介绍
当前并行图形数据处理包括开发成对图形数据执行特定操作(诸如例如线性内插、曲面细分、光栅化、纹理映射、深度测试等)的系统和方法。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,已经使图形处理器的部分可编程,使此类处理器能够支持用于处理顶点和片段数据的各种各样的操作。为了进一步增加性能,图形处理器通常实现诸如尝试并行处理遍及图形流水线的不同部分的尽可能多的图形数据的流水线操作的处理技术。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理的量。在SIMT架构中,并行线程组尝试尽可能经常地一起同步执行程序指令以增加处理效率。用于SIMT架构的软件和硬件的一般概述可以在ShaneCook的CUDAProgramming,第3章,第37-51页(2013)和/或NicholasWilt ...
【技术保护点】
1. 一种多芯片模块上的加速器,所述加速器包括:包括多个存储器管芯的存储器堆叠;以及经由一个或多个存储器控制器与所述存储器堆叠耦合的图形处理单元(GPU),所述GPU包括具有单指令多线程(SIMT)架构的多个多处理器,所述多处理器要执行至少一个单指令,所述至少一个单指令要加速与机器学习框架相关联的线性代数子程序;所述至少一个单指令要促使所述GPU的至少一部分对具有不同精度的输入执行浮点操作,所述浮点操作是二维矩阵乘法和累加操作;其中所述多个多处理器的至少一部分包括混合精度核,所述混合精度核要执行所述至少一个单指令的线程,所述混合精度核包括要以第一精度执行所述线程的第一操作并 ...
【技术特征摘要】
2017.04.28 US 15/5811671.一种多芯片模块上的加速器,所述加速器包括:包括多个存储器管芯的存储器堆叠;以及经由一个或多个存储器控制器与所述存储器堆叠耦合的图形处理单元(GPU),所述GPU包括具有单指令多线程(SIMT)架构的多个多处理器,所述多处理器要执行至少一个单指令,所述至少一个单指令要加速与机器学习框架相关联的线性代数子程序;所述至少一个单指令要促使所述GPU的至少一部分对具有不同精度的输入执行浮点操作,所述浮点操作是二维矩阵乘法和累加操作;其中所述多个多处理器的至少一部分包括混合精度核,所述混合精度核要执行所述至少一个单指令的线程,所述混合精度核包括要以第一精度执行所述线程的第一操作并且以第二精度执行所述线程的第二操作的浮点单元;以及其中所述第一操作是具有至少一个16位浮点输入的乘法并且所述第二操作是具有32位浮点输入的累加。2.如权利要求1所述的加速器,所述存储器堆叠包括高带宽存储器。3.如权利要求1所述的加速器,其中所述存储器堆叠位于与所述GPU相同的物理封装上。4.如权利要求1所述的加速器,所述混合精度核以16位精度执行所述第一操作并且以32位精度执行所述第二操作。5.如权利要求1所述的加速器,其中,所述第一操作具有两个或多于两个16位浮点输入。6.如权利要求1所述的加速器,所述混合精度核能够配置成从所述二维矩阵乘法和累加操作输出16位浮点值。7.一种加速机器学习操作的方法,所述方法包括:在图形处理单元(GPU)上解码单指令,所述GPU具有单指令多线程(SIMT)架构,所述GPU经由一个或多个存储器控制器与存储器堆叠耦合;以及经由所述GPU内的一个或多个多处理器执行所述单指令,所述单指令要促使所述GPU的至少一部分执行二维矩阵乘法和累加操作以加速与机器学习框架相关联的线性代数子程序,其中执行所述单指令包括在所述一个或多个多处理器的混合精度核上执行所述单指令的线程,所述混合精度核包括要以第一精度执行所述线程的第一操...
【专利技术属性】
技术研发人员:A科克,M麦克弗森,J雷,姚安邦,L马,L赫德,S巴格索尔基,J维斯特,A阿普,B阿什鲍格,D金,E奥尔德艾哈迈德瓦尔,P唐,X陈,B拉克什马南,K尼利斯,M斯特里克兰,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。