低精度机器学习操作的计算优化制造技术

技术编号：23212480 阅读：40 留言：0更新日期：2020-01-31 21:45

一个实施例提供了一种包括动态精度浮点单元的通用图形处理单元，所述动态精度浮点单元包括控制单元，所述控制单元具有精度跟踪硬件逻辑以跟踪与目标精度相关的计算数据的精度位的可用数量，其中动态精度浮点单元包括计算逻辑来以多个精度输出数据。

Calculation optimization of low precision machine learning operation

全部详细技术资料下载

【技术实现步骤摘要】
低精度机器学习操作的计算优化本申请为分案申请。其母案为2018年4月27日提交的申请，标题为“低精度机器学习操作的计算优化”，申请号为201810392234.3。
实施例一般涉及数据处理，并且更具体地涉及经由通用图形处理单元的数据处理。
技术介绍
当前并行图形数据处理包括开发成对图形数据执行特定操作（诸如例如线性内插、曲面细分、光栅化、纹理映射、深度测试等）的系统和方法。传统上，图形处理器使用固定功能计算单元来处理图形数据；然而，最近，已经使图形处理器的部分可编程，使此类处理器能够支持用于处理顶点和片段数据的各种各样的操作。为了进一步增加性能，图形处理器通常实现诸如尝试并行处理遍及图形流水线的不同部分的尽可能多的图形数据的流水线操作的处理技术。具有单指令多线程（SIMT）架构的并行图形处理器被设计成最大化图形流水线中的并行处理的量。在SIMT架构中，并行线程组尝试尽可能经常地一起同步执行程序指令以增加处理效率。用于SIMT架构的软件和硬件的一般概述可以在ShaneCook的CUDAProgrammi...

【技术保护点】
1. 一种加速器模块，包括：/n包括多个存储器管芯的存储器堆叠；以及/n与所述存储器堆叠耦合的图形处理单元（GPU），/n所述GPU包括用于执行指令流的并行线程的多个多处理器，所述指令流包括至少一个单指令以使所述GPU的至少一部分在具有不同精度的输入上执行混合的精度浮点操作，其中所述混合的精度浮点操作至少是多维矩阵乘法操作。/n

【技术特征摘要】
20170428 US 15/5811671.一种加速器模块，包括：
包括多个存储器管芯的存储器堆叠；以及
与所述存储器堆叠耦合的图形处理单元（GPU），
所述GPU包括用于执行指令流的并行线程的多个多处理器，所述指令流包括至少一个单指令以使所述GPU的至少一部分在具有不同精度的输入上执行混合的精度浮点操作，其中所述混合的精度浮点操作至少是多维矩阵乘法操作。

2.如权利要求1所述的加速器模块，其中所述混合的精度浮点操作至少是二维矩阵乘法操作。

3.如权利要求1或2所述的加速器模块，其中所述存储器堆叠包括高带宽存储器。

4.如权利要求1或2所述的加速器模块，其中所述存储器堆叠位于与所述GPU相同的物理封装上。

5.如权利要求1或2所述的加速器模块，
其中所述多个多处理器的至少一部分包括混合的精度核，所述混合的精度核用于执行所述单指令的至少一个线程。

6.如权利要求5所述的加速器模块，其中所述混合的精度核用于执行具有至少一个16位浮点输入和32位浮点输入的操作。

7.如权利要求1或2所述的加速器模块，其中所述单指令用于加速与机器学习框架相关联的线性代数子程序。

8.一种系统，包括：
加速器模块，包括：
包括多个存储器管芯的存储器堆叠；以及
与所述存储器堆叠耦合的图形处理单元（GPU），所述GPU包括用于执行指令流的并行线程的多个多处理器，所述指令流包括至少一个单指令以使所述GPU的至少一部分在具有不同精度的输入上执行混合的精度浮点操作，其中所述混合的精度浮点操作至少是多维矩阵乘法操作。

9.如权利要求8所述的系统，其中所述混合的精度浮点操作至少是二维矩阵乘法操作。

10.如权利要求8或9所述的系统，其中所述存储器堆叠包括高带宽存储器。

11.如权利要求8或9所述的系统，其中所述存储器堆叠位于与所述GPU相同的物理封装上。

12.如权利要求8或9所述的系统，其中所述多个多处理器的至少一部分包括混合的精度核，所述混合的精度核用于执行所述单指令的至少一个线程。

13.如权利要求12所述的系统，其中所述混合的精度核用于执行具有至少一个16位浮点输入和32位浮点输入的操作。

14.如权利要求8或9所述的系统，其中所述单指令用于加速与机器学习框架相关联的线性代数子程序。

15.一种方法，包括：
通过至少一个单指令使图形处理单元（GPU）的至少一部分在具有不同精度的输入上执行混合的精度浮点操作，
其中所述混合的精度浮点操作至少是多维矩阵乘法操作，
其中所述至少一个单指令被包括在指令流的并行线程中，所述指令流的并行线程由包括在所述GPU中的多个多处理器执行。

16.如权利要求15所述的方法，其中所述混合的精度浮点操作至少是二维矩阵乘法操作。

17.如权利要求15或16所述的方法，其中所述GPU被包括在加速器模块中，其中所述加速器模块进一步包括包含多个存储器管芯的存储器堆叠，并且其中所述GPU与所述存储器堆叠耦合。

18.如权利要求17所述的方法，其中所述存储器堆叠包括高带宽存储器。

19.如权利要求17所述的方法，其中所述存储器堆叠位于与所述GPU相同的物理封装上。

20...

【专利技术属性】
技术研发人员：A科克，M麦克弗森，J雷，姚安邦，L马，L赫德，S巴格索尔基，J维斯特，A阿普，B阿什鲍格，D金，E奥尔德艾哈迈德瓦尔，P唐，X陈，B拉克什马南，K尼利斯，M斯特里克兰，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人