使用灵活精度运算的矩阵乘法单元制造技术

技术编号：33301710 阅读：20 留言：0更新日期：2022-05-06 12:08

处理单元(140)包括多个矢量信号处理器(VSP)(151

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用灵活精度运算的矩阵乘法单元

技术介绍

[0001]使用深度学习、高性能计算(HPC)、云计算和图形渲染等数据密集型应用来解决包括大规模模拟、气候变化、计算生物学、疾病预防、金融建模等的挑战。例如图形处理单元(GPU)的处理单元被设计成提供高浮点性能和高内存带宽速度，以支持数据密集型应用。例如，GPU中的每个单指令多数据(SIMD)元件包括四个矢量信号处理器(VSP)以执行例如矩阵乘法的并行运算。对应软件平台允许工程师利用高性能GPU的资源。在一些情况下，软件平台支持深度学习操作(dlop)，所述dlop提供灵活混合精度功能以支持动态工作负载，例如训练神经网络和对训练后的神经网络运行推理。实现灵活混合精度功能需要结合复杂多路复用器、GPU中VSP之间的交叉开关以及增加例如矢量通用寄存器(VGPR)的寄存器布局的复杂性。
附图说明
[0002]通过参考附图，更好地理解本公开，并且使得本领域技术人员明白其许多特征和优点。在不同附图中使用相同附图标记来指示相似或相同项。
[0003]图1是根据一些实施方案的支持灵活精度矩阵运算的处理系统的框图。
[0004]图2是根据一些实施方案的两个矩阵的矩阵乘法的框图。
[0005]图3是根据一些实施方案的包括四个矢量信号处理器(VSP)的单指令多数据(SIMD)单元的框图，所述VSP协同地从系统存储器中提取矩阵的部分以执行矩阵乘法。
[0006]图4是根据一些实施方案的在一轮矩阵乘法中的迭代序列的第一次和第二次迭代期间的VSP缓冲器的框图。
[0007...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种设备，其包括：多个矢量信号处理器(VSP)，其包括乘法/累加元件；以及与所述多个VSP相关联的多个寄存器，其中在包括多次迭代的第一轮之前将第一和第二矩阵的第一部分提取到所述多个寄存器中，其中在将所述第一和第二矩阵的第二部分提取到所述多个寄存器中以进行第二轮之前，所述乘法/累加元件在所述多次迭代中对所述第一和第二矩阵的所述第一部分的子集的不同组合执行矩阵乘法和累加。2.如权利要求1所述的设备，其中所述多个VSP还包括第一缓冲器、第二缓冲器和输出缓冲器，并且其中在发起所述多次迭代之前将所述第一和第二矩阵的所述第一部分的所述子集从所述多个寄存器复制到所述多个VSP中的所述第一和第二缓冲器。3.如权利要求2所述的设备，其中在所述多次迭代的当前迭代期间，所述乘法/累加元件对所述当前迭代期间对应第一和第二缓冲器中存储的所述第一和第二矩阵的所述第一部分的所述子集执行矩阵乘法和累加。4.如权利要求3所述的设备，其中在所述当前迭代期间，在所述乘法/累加元件针对所述当前迭代执行所述矩阵乘法和累加之后，将所述第一矩阵的所述第一部分的所述子集循环到不同VSP。5.如权利要求4所述的设备，还包括：交叉开关，其将所述多个VSP互连，其中所述第一矩阵的所述第一部分的所述子集经由所述交叉开关循环到所述不同VSP。6.如权利要求1所述的设备，其中所述多次迭代对应于所述多个VSP，使得所述乘法/累加元件在所述第一轮的所述多次迭代期间对所述第一和第二部分中的所述第一部分的所述子集的所有组合执行所述矩阵乘法和累加。7.如权利要求1至6中任一项所述的设备，其中所述多个VSP还包括：输出缓冲器，其中在对所述第一轮中的所述多次迭代执行所述矩阵乘法和累加之后并且在开始所述第二轮之前，所述乘法/累加元件将所述乘法的累加结果写入到所述输出缓冲器。8.如权利要求7所述的设备，其中响应于所述乘法/累加元件将所述累加结果写入...

【专利技术属性】
技术研发人员：何斌，迈克尔，
申请(专利权)人：超威半导体公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人