当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于脉动阵列上的块稀疏操作的架构制造技术

技术编号:28706851 阅读:16 留言:0更新日期:2021-06-05 23:12
本申请公开了用于脉动阵列上的块稀疏操作的架构。本文中描述的实施例包括软件、固件、和硬件逻辑,这些软件、固件、和硬件逻辑提供用于经由脉动处理单元对稀疏数据执行算术的技术。一个实施例经由压缩的位流提供数据知晓稀疏度。一个实施例提供块稀疏点积指令。一个实施例提供用于脉动阵列的深度式适配器。施例提供用于脉动阵列的深度式适配器。施例提供用于脉动阵列的深度式适配器。

【技术实现步骤摘要】
用于脉动阵列上的块稀疏操作的架构
本专利技术专利申请是国际申请号为PCT/US2020/022847,国际申请日为 2020年3月14日,进入中国国家阶段的申请号为202080004288.3,名称为
ꢀ“
用于脉动阵列上的块稀疏操作的架构”的专利技术专利申请的分案申请。相关申请的交叉引用
[0001]本申请关于2019年3月15日提交的Abhishek Appu等人的题为
ꢀ“
GRAPHICS PROCESSING(图形处理)”的美国临时申请62/819,337(代 理人案卷号AC0271

Z)、2019年3月15日提交的LakshminarayananStriramassarma等人的题为“GRAPHICS DATA PROCESSING(图形数据处 理)”的美国临时申请62/819,435(代理人案卷号AC0285

Z)、2019年3 月15日提交的Subramaniam Maiyuran等人的题为“SYSTEMS ANDMETHODS FOR PARTITIONING CACHE TO REDUCE CACHE ACCESSLATENCY(用于对高速缓存分区以减少高速缓存访问等待时间的系统和方 法)”的美国临时申请62/819,361(代理人案卷号AC0286

Z)、以及2019 年11月15日提交的Abhishek Appu等人的题为“SYSTOLIC ARITHMETICON SPARSE DATA(对稀疏数据的脉动算术)”的美国临时申请62/935,670 (代理人案卷号AC5197

Z),并且根据35U.S.C.119(e)要求这些申请的权 益和优先权,所有这些申请的内容通过援引纳入于此。


[0002]本公开总体上关于数据处理,并且更具体地关于经由通用图形处 理单元的矩阵加速器进行的稀疏数据处理。

技术介绍

[0003]当前的并行图形数据处理包括被开发为用于对图形数据执行特定操 作的系统和方法,这些特定操作诸如例如,线性插值、曲面细分、栅格化、 纹理映射、深度测试等。传统上,图形处理器使用固定功能计算单元来处 理图形数据;然而,最近,图形处理器的多个部分已经变得可编程,使得 此类处理器能够支持用于处理顶点和片段数据的更广泛种类的操作。
[0004]为了进一步提高性能,图形处理器典型地实现诸如流水线操作之类 的处理技术,这些处理技术尝试贯穿图形流水线的不同部分并行地处理尽 可能多的图形数据。具有单指令多线程(SIMT)架构的并行图形处理器被 设计成使图形流水线中的并行处理的量最大化。在SIMT架构中,成组的 并行线程尝试尽可能频繁地一起同步地执行程序指令,以提高处理效率。 可以在Shane Cook的CUDA编程(CUDA Programming)第三章,第37

51 页(2013年)中找到对SIMT架构的软件和硬件的总体概述。
附图说明
[0005]为了以能够详细理解本实施例的以上记载特征的方式,可通过参考 实施例来对以上简要概括的实施例进行更具体的描述,这些实施例中的一 些在所附附图中被图示。然
而,应当注意,所附附图仅图示出典型实施例, 并且因此不应被认为是对其范围的限制。
[0006]图1是图示配置成用于实现本文中所描述的实施例的一个或多个方 面的计算机系统的框图;
[0007]图2A

图2D图示并行处理器组件;
[0008]图3A

图3C是图形多处理器和基于多处理的GPU的框图;
[0009]图4A

图4F图示在其中多个GPU通信地耦合至多个多核处理器的 示例性架构;
[0010]图5图示图形处理流水线;
[0011]图6图示机器学习软件栈;
[0012]图7图示通用图形处理单元;
[0013]图8图示多GPU计算系统;
[0014]图9A

图9B图示示例性深度神经网络的层;
[0015]图10图示示例性循环神经网络;
[0016]图11图示深度神经网络的训练和部署;
[0017]图12是图示分布式学习的框图;
[0018]图13图示适用于使用经训练的模型执行推断的示例性推断芯片上 系统(SOC);
[0019]图14是处理系统的框图;
[0020]图15A

图15C图示计算系统和图形处理器;
[0021]图16A

图16C图示附加的图形处理器和计算加速器架构的框图;
[0022]图17是图形处理器的图形处理引擎的框图;
[0023]图18A

图18B图示包括在图形处理器核中采用的处理元件阵列的 线程执行逻辑;
[0024]图19图示附加的执行单元;
[0025]图20是图示图形处理器指令格式的框图;
[0026]图21是附加图形处理器架构的框图;
[0027]图22A

图22B图示图形处理器命令格式和命令序列;
[0028]图23图示用于数据处理系统的示例性图形软件架构;
[0029]图24A是图示IP核开发系统的框图;
[0030]图24B图示集成电路封装组件的横截面侧视图;
[0031]图24C图示封装组件,该封装组件包括连接到衬底的多个单元的 硬件逻辑小芯片(例如,基础管芯);
[0032]图24D图示包括可互换小芯片的封装组件;
[0033]图25是图示示例性芯片上系统集成电路的框图;
[0034]图26A

图26B是图示用于在SoC内使用的示例性图形处理器的框 图;
[0035]图27图示根据实施例的附加的执行单元;
[0036]图28图示根据实施例的由指令流水线执行的矩阵操作;
[0037]图29A

图29B图示根据一些实施例的基于硬件的脉动阵列的细 节;
[0038]图30图示包括用于加速稀疏矩阵乘法的部分和回路及电路的脉 动阵列;
[0039]图31A

图31B图示包括用于实现以压缩格式读取稀疏数据的编 解码器的矩阵加速逻辑;
[0040]图32A

图32B图示根据实施例的用于稀疏神经网络数据的基于 零的SM编码;
[0041]图33A

图33B图示根据实施例的用于稀疏神经网络数据的指定 值的SM编码;
[0042]图34A

图34B图示用于神经网络的训练数据内的非结构化稀疏 度与块稀疏度之间的比较;
[0043]图35A

图35B图示可由点积逻辑执行的四元素点积指令;
[0044]图36A

图36B图示可由点积本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通用图形处理器,包括:计算集群,包括与高速缓存存储器耦合的多个处理资源,至少一个处理资源包括矩阵加速器,所述矩阵加速器配置为响应于稀疏点积指令而对第一稀疏矩阵和第二矩阵的多个元素执行点积操作,其中,所述第一稀疏矩阵的元素被紧缩为包括元素集合的压缩表示,所述元素集合包括至少一个非零值元素和对所述至少一个非零值元素的指示;其中,所述压缩表示要以压缩格式被存储至所述高速缓存存储器;以及其中,所述至少一个处理资源配置为:将所述压缩表示从所述高速缓存存储器加载到所述至少一个处理资源内的存储器中;将所述第二矩阵从所述高速缓存存储器加载到所述至少一个处理资源内的所述存储器中;对来自所述压缩表示的元素和所述第二矩阵的所选元素执行所述点积操作,其中,所述第二矩阵的所述所选元素对应于所述第一稀疏矩阵的存储在所述压缩表示内的非零值并且基于所述对所述至少一个非零值的指示而被选择;以及将所述点积操作的输出写入所述至少一个处理资源内的所述存储器。2.如权利要求1所述的通用图形处理器,其中,所述高速缓存存储器是第二级L2高速缓存存储器。3.如权利要求1所述的通用图形处理器,其中,所述至少一个处理资源内的所述存储器包括第一级L1高速缓存存储器。4.如权利要求1所述的通用图形处理器,其中,所述至少一个处理资源内的所述存储器包括共享存储器。5.如权利要求1所述的通用图形处理器,其中,所述至少一个处理资源内的所述存储器包括寄存器堆。6.如权利要求1所述的通用图形处理器,其中,所述至少一个处理资源内的所述存储器包括所述矩阵加速器内的存储器。7.如权利要求1所述的通用图形处理器,其中,所述第一稀疏矩阵包括与神经网络相关联的权重数据。8.如权利要求7所述的通用图形处理器,其中,所述第二矩阵包括与所述神经网络相关联的输入激活数据。9.如权利要求8所述的通用图形处理器,其中,所述点积操作的所述输出包括与所述神经网络相关联的输出激活数据。10.如权利要求9所述的通用图形处理器,其中,所述点积操作的所述输出是密集矩阵。11.如权利要求1所述的通用图形处理器,其中,所述矩阵加速器包括处理元件的脉动阵列。12.如权利要求1所述的通用图形处理器,其中,所述第...

【专利技术属性】
技术研发人员:A
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1