当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于机器学习操作的经优化计算硬件制造技术

技术编号:26344110 阅读:54 留言:0更新日期:2020-11-13 20:53
本申请公开了用于机器学习操作的经优化计算硬件。一个实施例提供了用于执行机器学习操作的计算设备,该计算设备包括:获取单元,用于获取具有多个输入操作数的单个指令,其中,所述多个操作数具有不相等的位长度,具有第一位长度的第一输入和具有第二位长度的第二输入;解码单元,用于将单个指令解码成经解码的指令;操作数长度单元,用于确定第一位长度和第二位长度中的较小位长度;以及计算单元,用于对多个输入操作数执行矩阵操作以生成具有较小位长度的位长度的输出值。

Optimized computing hardware for machine learning operations

【技术实现步骤摘要】
用于机器学习操作的经优化计算硬件本专利技术专利申请是2018年5月7日提交的申请号为201810427080.7,名称为“用于机器学习操作的经优化计算硬件”的专利技术专利申请的分案申请。交叉引用本申请要求2017年5月5日提交的印度临时专利申请号201741015868的权益,该专利申请据此通过引用纳入本文。
实施例大体上涉及数据处理,并且更具体地涉及经由通用图形处理单元的机器学习处理。
技术介绍
当前的并行图形数据处理包括被开发用于对图形数据执行特定操作的系统和方法,这些特定操作如例如线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,图形处理器的多个部分已变得可编程,从而使得这样的处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。为了进一步提高性能,图形处理器通常实现诸如流水线操作之类的处理技术,这些处理技术尝试贯穿图形流水线的不同部分并行地处理尽可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被设计成使图形流水线本文档来自技高网...

【技术保护点】
1.一种装置,包括:/n互连结构;/n存储器接口,耦合到所述互连结构;/n输入/输出(IO)单元,耦合到所述互连结构;/n一个或多个处理集群的处理集群阵列,耦合到所述互连结构,/n所述处理集群阵列中的每个处理集群用于跨多个线程并行地执行指令;/n所述处理集群阵列中的处理集群包括:/n多个寄存器,用于存储向量输入操作数的输入值,所述向量输入操作数中的至少一些的输入值具有与其他向量输入操作数的其他输入值的位长度不同的位长度,以及/n计算单元,用于利用所述向量输入操作数执行点积指令以针对每个32位通道基于相对于32位通道的第一向量输入操作数的最小大小的输入值的位长度执行多个并行乘法操作和累加操作,/...

【技术特征摘要】
20170505 IN 201741015868;20180112 US 15/869,5641.一种装置,包括:
互连结构;
存储器接口,耦合到所述互连结构;
输入/输出(IO)单元,耦合到所述互连结构;
一个或多个处理集群的处理集群阵列,耦合到所述互连结构,
所述处理集群阵列中的每个处理集群用于跨多个线程并行地执行指令;
所述处理集群阵列中的处理集群包括:
多个寄存器,用于存储向量输入操作数的输入值,所述向量输入操作数中的至少一些的输入值具有与其他向量输入操作数的其他输入值的位长度不同的位长度,以及
计算单元,用于利用所述向量输入操作数执行点积指令以针对每个32位通道基于相对于32位通道的第一向量输入操作数的最小大小的输入值的位长度执行多个并行乘法操作和累加操作,
所述计算单元包括:
乘法器,用于执行最小大小的输入值中的每一个与第二向量输入操作数的对应输入值的并行乘法以生成对应的多个乘积;以及
加法器,用于将所述对应的多个乘积加到累加器值以生成累加结果。


2.如权利要求1所述的装置,进一步包括:
并行处理器管芯,包括所述互连结构、所述存储器接口、所述输入/输出(IO)单元以及所述处理集群的阵列,
所述并行处理器管芯进一步包括:本地存储器互连,用于将所述存储器接口耦合到堆叠的存储器管芯,所述本地存储器互连包括存储器接口的独立组,所述存储器接口的独立组与多个堆叠的存储器管芯的相应存储器管芯相关联。


3.如权利要求1所述的装置,其中,所述多个输入值中的至少一些包括矩阵的数据元素。


4.如权利要求3所述的装置,其中,所述混合精度点积指令是机器学习框架的图元。


5.如权利要求4所述的装置,其中,所述矩阵与所述机器学习框架的卷积层相关联。


6.如权利要求5所述的装置,其中,所述机器学习框架包括神经网络。


7.如权利要求6所述的装置,其中,所述神经网络包括递归神经网络(RNN)。


8.如权利要求1所述的装置,进一步包括:
虚拟化电路,用于与多个虚拟机共享所述处理集群的阵列。


9.如权利要求8所述的装置,其中,所述虚拟化电路包括控制寄存器的多个集合,所述控制寄存器的多个集合用于与多个对应的虚拟机相关联,一组控制寄存器用于存储一个或多个地址指针以标识与对应的虚拟机相关联的存储器区域。


10.如权利要求1所述的装置,其中,所述多个线程被布置为线程组,并且其中,第一线程组用于由所述计算单元处理。


11.如权利要求10所述的装置,其中,所述计算单元用于使用不同的32位SIMD通道在所述线程组中的每个线程中执行所述第一混合精度点积指令。


12.如权利要求11所述的装置,进一步包括:
调度电路,用于跨所述处理集群分布多个线程组,每个线程包括多个指令。


13.如权利要求12所述的装置,其中,所述计算单元用于被分配以处理包括第一多个线程的第一线程组,所述点积指令用于在所述第一多个线程中的每个线程中被执行。


14.如权利要求1所述的装置,其中,所述最小大小的输入值包括16位的值、8位的值、或4位的值。


15.如权利要求14所述的装置,其中,当所述最小大小的输入值为16位的值时,所述多个并行乘法操作包括两个并行乘法操作,当所述最小大小的输入值为8位的值时,所述多个并行乘法操作包括四个并行乘法操作,并且当所述最小大小的输入值为4位的值时,所述多个并行乘法操作包括八个并行乘法操作。


16.如权利要求1所述的装置,其中,当所述最小大小的输入值为4位的值时,八个并行乘法操作被执行。


17.一种方法,包括:
从存储器取出多个指令;
将所述多个指令存储在指令高速缓存中;
将所述指令的向量输入操作数存储在数据高速缓存中;
在处理集群阵列中的处理集群上执行所述多个指令中的指令,所述处理集群用于跨多个线程并行地执行所述指令,其中,执行所述指令进一步包括:
将所述向量输入操作数的输入值存储在多个寄存器中,所述向量输入操作数中的至少一些的输入值具有与其他向量输入操作数的其他输入值的位长度不同的位长度,以及
针对每个32位通道执行多个并行乘法操作和累加操作,并行乘法操作的数量基于相对于32位通道的第一向量输入操作数的最小大小的输入值的位长度,
其中,所述并行乘法包括最小大小的输入值中的每一个与第二向量输入操作数的对应输入值的乘法以生成对应的多个乘积,以及
将所述对应的多个乘积加到累加器值以生成累加结果。


18.如权利要求17所述的方法,其中,所述多个输入值中的至少一些包括矩阵的数据元素。


19.如权利要求18所述的方法,其中,所述混合精度点积指令是机器学习框架的图元。


20.如权利要求19所述的方法,其中,所述矩阵与所述机器学习框架的卷积层相关联。


21.如权利要求20所述的方法,其中,所述机器学习框架包括神经网络。


22.如权利要求21所述的方法,其中,所述神经网络包括递归神经网络(RNN)。


23.如权利要求1所述的方法,进一步包括:与多个虚拟机共享所述处理集群的阵列。


24.如权利要求23所述的方法,进一步包括:
将控制寄存器的多个集合与多个对应的虚拟机相关联;
将一个或多个地址指针存储在所述控制寄存器的集合中的一个集合中以标识与对应的虚拟机相关联的存储器区域。


25.如权利要求17所述的方法,其中,所述多个线程被布置为线程组,并且其中,第一线程组用于由所述计算单元处理。


26.如权利要求25所述的方法,其中,所述计算单元用于使用不同的32位SIMD通道在所述线程组中的每个线程中执行所述第一混合精度点积指令。


27.如权利要求26所述的方法,进一步包括:
经由调度电路跨所述处理集群分布多个线程组,每个线程包括多个指令。


28.如权利要求27所述的方法,其中,所述计算单元用于被分配以处理包括第一多个线程的第一线程组,所述点积指令用于在所述第一多个线程中的每个线程中被执行。


29.如权利要求17所述的方法,其中,所述最小大小的输入值包括16位的值、8位的值、或4位的值。


30.如权利要求29所述的方法,其中,当所述最小大小的输入值为16位的值时,所述多个并行乘法操作包括两个并行乘法操作,当所述最小大小的输入值为8位的值时,所述多个并行乘法操作包括四个并行乘法操作,并且当所述最小大小的输入值为4位的值时,所述多个并行乘法操作包括八个并行乘法操作。


31.如权利要求17所述的方法,其中,当所述最小大小的输入值为4位的值时,八个并行乘法操作被执行。


32.一种机器可读介质,具有存储于其上的指令,所述指令当由机器执行时,使所述机器执行以下操作:
从存储器取出所述...

【专利技术属性】
技术研发人员:D·达斯R·格拉姆温特M·斯密尔安斯基J·考博尔D·穆迪盖雷N·K·梅勒普迪A·F·海奈克
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1