分块矩阵乘法运算系统技术方案

技术编号：24708359 阅读：51 留言：0更新日期：2020-07-01 00:01

一种分块矩阵乘法运算系统，涉及一种处理器，其包括：N位数据总线，被配置为访问存储器；中央处理单元CPU，被连接到数据总线；协处理器，被耦合到CPU，该协处理器包括具有N位寄存器(V)的寄存器文件；CPU中的指令处理单元，被配置为响应于由CPU接收到的负载分散机器指令，读取对存储器地址的访问，并将对数据总线上呈现的对应的N位字(W)的处理委托给协处理器；和协处理器中的寄存器控制单元，由CPU响应于负载分散指令而被配置为将数据总线上呈现的字(W)划分成K个分段，并将该K个分段写入K个相应寄存器(V0‑V3)中的相同位置，该位置和寄存器由负载分散指令指定。

全部详细技术资料下载

【技术实现步骤摘要】
分块矩阵乘法运算系统
本专利技术涉及数字矩阵的乘法运算，尤其涉及由专用硬件加速器辅助进行矩阵运算的处理器。
技术介绍
人工智能技术，尤其是深度学习，对于可以具有几百行和几百列的大矩阵的乘法运算(multiplication)要求特别高。因此，出现了专用于混合精度矩阵的乘法运算的硬件加速器。大矩阵的乘法运算通常在块(block)中执行，即通过将矩阵分解成尺寸适合于计算资源的子矩阵。加速器因此被设计成有效地计算这些子矩阵的乘积。例如，NVidia在其Volta图形处理器中提供被称为张量核(tensorcore)的硬件操作符，每个操作符独占处理器的数个图形核的资源，以并行执行子矩阵乘法运算中涉及的许多计算。NVidia还在其集成的Xavier处理器中提供了具有独立于图形核的张量核的NVDLA(“NVidia深度学习加速器”)单元，并且专用于加速神经推理这种加速器被称为“弱耦合”，因为它接收由主处理器(hostprocessor)准备的成批执行的任务，然后独立于主处理器管理任务，包括访问共享存储器以读取矩阵数...

【技术保护点】
1.一种用于矩阵相乘的方法，包括以下步骤：/na)在共享存储器中以行优先格式存储第一源矩阵，由此矩阵的行的连续元素被存储在连续的存储器地址；/nb)在共享存储器中以列优先格式存储第二源矩阵，由此矩阵的列的连续元素被存储在连续的存储器地址；/nc)在通过N位存储器总线从共享存储器到处理器寄存器的单个传输周期中：/n读取源矩阵中的N位字；/n将所述字的K个连续分段写入K个相应的N位寄存器中的指定位置，K使得N可被K整除；/ne)对第一源矩阵的K＝R个不同行执行步骤c)，以便填充R个第一寄存器，由此R个第一寄存器中的每一个寄存器包含：在寄存器的R个连续分段中组织的N/R个位的R个行的不同子矩阵；/n...

【技术特征摘要】
20181220 FR 18735941.一种用于矩阵相乘的方法，包括以下步骤：
a)在共享存储器中以行优先格式存储第一源矩阵，由此矩阵的行的连续元素被存储在连续的存储器地址；
b)在共享存储器中以列优先格式存储第二源矩阵，由此矩阵的列的连续元素被存储在连续的存储器地址；
c)在通过N位存储器总线从共享存储器到处理器寄存器的单个传输周期中：
读取源矩阵中的N位字；
将所述字的K个连续分段写入K个相应的N位寄存器中的指定位置，K使得N可被K整除；
e)对第一源矩阵的K＝R个不同行执行步骤c)，以便填充R个第一寄存器，由此R个第一寄存器中的每一个寄存器包含：在寄存器的R个连续分段中组织的N/R个位的R个行的不同子矩阵；
f)对第二源矩阵的K＝Q个不同列执行步骤c)，以便填充Q个第二寄存器，由此Q个第二寄存器中的每一个寄存器包含：在寄存器的Q个连续分段中组织的N/Q个位的Q个列的不同子矩阵；和
g)响应于子矩阵乘法机器指令的执行，使用专用硬件操作符并行地执行第一操作数寄存器的每个分段与第二操作数寄存器的每个分段的标量乘积，所述子矩阵乘法机器指令将R个第一寄存器中的一个指定为第一操作数，并且将Q个第二寄存器中的一个指定为第二操作数，操作数寄存器的分段被视为向量。

2.根据权利要求1所述的方法，包括以下步骤：
在处理器的中央处理单元CPU中接收负载分散机器指令；
响应于负载分散指令，将步骤c)委托给耦合到CPU的协处理器，寄存器和分段的位置由负载分散指令指定；
在CPU中接收子矩阵乘法指令；和
响应于子矩阵乘法指令，将步骤g)委托给协处理器。

3.根据权利要求2所述的方法，其中，所述CPU和协处理器根据VLIW架构而耦合，所述方法包括同时执行被包含在由CPU接收到的相同指令分组中的负载分散指令和子矩阵乘法指令的步骤，由此负载分散指令准备下一...

【专利技术属性】
技术研发人员：B杜蓬特德丁奇恩，J勒迈尔，N布鲁尼，
申请(专利权)人：卡雷公司，
类型：发明
国别省市：法国;FR

全部详细技术资料下载我是这个专利的主人