用于机器学习操作的经优化计算硬件制造技术

技术编号：19427900 阅读：19 留言：0更新日期：2018-11-14 11:05

一个实施例提供了用于执行机器学习操作的计算设备，该计算设备包括：获取单元，用于获取具有多个输入操作数的单个指令，其中，所述多个操作数具有不相等的位长度，具有第一位长度的第一输入和具有第二位长度的第二输入；解码单元，用于将单个指令解码成经解码的指令；操作数长度单元，用于确定第一位长度和第二位长度中的较小位长度；以及计算单元，用于对多个输入操作数执行矩阵操作以生成具有较小位长度的位长度的输出值。

全部详细技术资料下载

【技术实现步骤摘要】
用于机器学习操作的经优化计算硬件交叉引用本申请要求2017年5月5日提交的印度临时专利申请号201741015868的权益，该专利申请据此通过引用纳入本文。
实施例大体上涉及数据处理，并且更具体地涉及经由通用图形处理单元的机器学习处理。
技术介绍
当前的并行图形数据处理包括被开发用于对图形数据执行特定操作的系统和方法，这些特定操作如例如线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统上，图形处理器使用固定功能计算单元来处理图形数据；然而，最近，图形处理器的多个部分已变得可编程，从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。为了进一步提高性能，图形处理器通常实现诸如流水线操作之类的处理技术，这些处理技术尝试贯穿图形流水线的不同部分并行地处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成使图形流水线中的并行处理量最大化。在SIMT架构中，多组并行线程尝试尽可能经常地一起同步执行程序指令，以提高处理效率。用于SIMT架构的软件和硬件的一般性概述可以在ShaneCook的《CUDA编程(CUDAProgramming)》，第3章，第37到51页(2013年)和/或NicholasWilt的《CUDA手册，GPU编程的综合指南(CUDAHandbook，AComprehensiveGuidetoGPUProgramming)》，章节2.6.2到3.1.2(2013年6月)中找到。附图说明为使得可以详细地理解本专利技术的特征，可通过参考实施例来具有对本专利技术的更具体的描述，在附图中展示了这些实施例中的一些。...

【技术保护点】
1.一种用于执行机器学习操作的计算设备，所述计算设备包括：获取单元，所述获取单元用于获取具有多个输出操作数的单个指令，其中，所述多个输入操作数具有不相等的位长度，第一输入操作数具有第一位长度，并且第二输入操作数具有第二位长度；解码单元，所述解码单元用于将所述单个指令解码成经解码的指令；操作数长度单元，所述操作数长度单元用于确定所述第一位长度和所述第二位长度中的较小位长度；以及计算单元，所述计算单元用于对所述多个输入操作数执行矩阵操作，以生成具有所述较小位长度的位长度的输出值。

【技术特征摘要】
2017.05.05 IN 201741015868;2018.01.12 US 15/869,561.一种用于执行机器学习操作的计算设备，所述计算设备包括：获取单元，所述获取单元用于获取具有多个输出操作数的单个指令，其中，所述多个输入操作数具有不相等的位长度，第一输入操作数具有第一位长度，并且第二输入操作数具有第二位长度；解码单元，所述解码单元用于将所述单个指令解码成经解码的指令；操作数长度单元，所述操作数长度单元用于确定所述第一位长度和所述第二位长度中的较小位长度；以及计算单元，所述计算单元用于对所述多个输入操作数执行矩阵操作，以生成具有所述较小位长度的位长度的输出值。2.如权利要求1所述的计算设备，其特征在于，所述单个指令用于使得所述计算单元对所述多个操作数执行至少二维的矩阵乘法操作。3.如权利要求2所述的计算设备，其特征在于，所述单个指令用于使得所述计算单元执行至少一次乘-加操作。4.如权利要求2所述的计算设备，其特征在于，所述单个指令用于使得所述计算单元执行至少一次乘法-累加操作。5.如权利要求2所述的计算设备，其特征在于，所述单个指令用于使得所述计算单元执行至少二维的矩阵点积操作。6.如权利要求1所述的计算设备，附加地包括精度配置单元，所述精度配置单元用于将精度配置提供给所述计算单元，所述精度配置单元用于配置所述计算单元内的功能单元的操作精度。7.如权利要求1所述的计算设备，所述计算单元用于对所述多个操作数执行矩阵乘法操作，其中所述计算单元用于：确定所述矩阵乘法操作的乘法操作是否具有零输入；以及绕过具有所述零输入的所述乘法操作。8.如权利要求7所述的计算设备，其特征在于，为了绕过具有所述零输入的所述乘法操作，所述计算单元绕过对具有所述零输入的所述乘法操作的调度。9.如权利要求7所述的计算设备，其特征在于，为了绕过具有所述零输入的所述乘法操作，所述计算单元：确定所述矩阵乘法操作的乘法操作是否具有零输入；并且对于与所述零输入相关联的功能单元，将乘法操作操作码替换成无操作操作码。10.一种执行数个轮次以在通用图形处理单元(GUGPU)上执行多轮次矩阵乘法操作的方法，所述方法包括：在所述GPGPU内获取要被执行的单个指令；解码所述指令以确定所述指令的类型；响应于确定所述指令的类型，确定所述指令是包括乘法操作的多轮次矩阵指令，并确定是否有阈值数量的乘法操作具有零值输入操作数；将不具有零值输入操作数的所述乘法操作压缩到减少数量的轮次中；以及以减少数量的轮次来执行所述指令。11.如权利要求10所述的方法，其特征在于，以所述减少数量的轮次来执行所述指令包括，当所述乘法操作中至少一半具有一个或多个零值输入操作数时，在单个轮次中执行双轮次矩阵乘法指令。12.如权利要求10所述的方法，其特征在于，确定是否...

【专利技术属性】
技术研发人员：D·达斯，R·格拉姆温特，M·斯密尔安斯基，J·考博尔，D·穆迪盖雷，N·K·梅勒普迪，A·F·海奈克，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人