用于脉动阵列上的块稀疏操作的架构制造技术

技术编号：28706851 阅读：27 留言：0更新日期：2021-06-05 23:12

本申请公开了用于脉动阵列上的块稀疏操作的架构。本文中描述的实施例包括软件、固件、和硬件逻辑，这些软件、固件、和硬件逻辑提供用于经由脉动处理单元对稀疏数据执行算术的技术。一个实施例经由压缩的位流提供数据知晓稀疏度。一个实施例提供块稀疏点积指令。一个实施例提供用于脉动阵列的深度式适配器。施例提供用于脉动阵列的深度式适配器。施例提供用于脉动阵列的深度式适配器。

全部详细技术资料下载

【技术实现步骤摘要】
用于脉动阵列上的块稀疏操作的架构
本专利技术专利申请是国际申请号为PCT/US2020/022847，国际申请日为 2020年3月14日，进入中国国家阶段的申请号为202080004288.3，名称为
ꢀ“
用于脉动阵列上的块稀疏操作的架构”的专利技术专利申请的分案申请。相关申请的交叉引用
[0001]本申请关于2019年3月15日提交的Abhishek Appu等人的题为
ꢀ“
GRAPHICS PROCESSING(图形处理)”的美国临时申请62/819,337(代理人案卷号AC0271
‑
Z)、2019年3月15日提交的LakshminarayananStriramassarma等人的题为“GRAPHICS DATA PROCESSING(图形数据处理)”的美国临时申请62/819,435(代理人案卷号AC0285
‑
Z)、2019年3 月15日提交的Subramaniam Maiyuran等人的题为“SYSTEMS ANDMETHODS FOR PARTITIONING CACHE TO R本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种通用图形处理器，包括：计算集群，包括与高速缓存存储器耦合的多个处理资源，至少一个处理资源包括矩阵加速器，所述矩阵加速器配置为响应于稀疏点积指令而对第一稀疏矩阵和第二矩阵的多个元素执行点积操作，其中，所述第一稀疏矩阵的元素被紧缩为包括元素集合的压缩表示，所述元素集合包括至少一个非零值元素和对所述至少一个非零值元素的指示；其中，所述压缩表示要以压缩格式被存储至所述高速缓存存储器；以及其中，所述至少一个处理资源配置为：将所述压缩表示从所述高速缓存存储器加载到所述至少一个处理资源内的存储器中；将所述第二矩阵从所述高速缓存存储器加载到所述至少一个处理资源内的所述存储器中；对来自所述压缩表示的元素和所述第二矩阵的所选元素执行所述点积操作，其中，所述第二矩阵的所述所选元素对应于所述第一稀疏矩阵的存储在所述压缩表示内的非零值并且基于所述对所述至少一个非零值的指示而被选择；以及将所述点积操作的输出写入所述至少一个处理资源内的所述存储器。2.如权利要求1所述的通用图形处理器，其中，所述高速缓存存储器是第二级L2高速缓存存储器。3.如权利要求1所述的通用图形处理器，其中，所述至少一个处理资源内的所述存储器包括第一级L1高速缓存存储器。4.如权利要求1所述的通用图形处理器，其中，所述至少一个处理资源内的所述存储器包括共享存储器。5.如权利要求1所述的通用图形处理器，其中，所述至少一个处理资源内的所述存储器包括寄存器堆。6.如权利要求1所述的通用图形处理器，其中，所述至少一个处理资源内的所述存储器包括所述矩阵加速器内的存储器。7.如权利要求1所述的通用图形处理器，其中，所述第一稀疏矩阵包括与神经网络相关联的权重数据。8.如权利要求7所述的通用图形处理器，其中，所述第二矩阵包括与所述神经网络相关联的输入激活数据。9.如权利要求8所述的通用图形处理器，其中，所述点积操作的所述输出包括与所述神经网络相关联的输出激活数据。10.如权利要求9所述的通用图形处理器，其中，所述点积操作的所述输出是密集矩阵。11.如权利要求1所述的通用图形处理器，其中，所述矩阵加速器包括处理元件的脉动阵列。12.如权利要求1所述的通用图形处理器，其中，所述第...

【专利技术属性】
技术研发人员：A，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人