一种混洗融合矩阵乘指令实现方法及系统技术方案

技术编号:41140207 阅读:20 留言:0更新日期:2024-04-30 18:10
本发明专利技术提供的混洗融合矩阵乘指令实现方法及系统,是通过根据预设的混洗融合矩阵乘指令中的分块参数,分别对源操作数矩阵和目标操作数矩阵进行分块,并且分别为每个处理单元分配多个源操作数矩阵分块和目标矩阵分块;从每个处理单元中的源操作数矩阵分块对应的寄存器中加载相应的矩阵数据,并对相应的矩阵数据进行更新,通过将更新后的矩阵数据执行矩阵乘操作,从而获得目标矩阵的矩阵分块数据;通过在每个处理单元之间执行混洗操作;重复上述步骤,得到每个处理单元对应的目标矩阵分块数据;合并每个处理单元对应的目标矩阵分块数据,从而得到目标矩阵数据,并写入目标矩阵数据对应的寄存器中。该方法及系统可以提高了数据复用性和计算密度。

【技术实现步骤摘要】

本专利技术涉及处理器,特别是涉及一种混洗融合矩阵乘指令实现方法及系统


技术介绍

1、gemm(general matr ix mu lt ip ly,通用矩阵乘法)是一种重要的科学计算内核,在科学计算、数值方程求解等方面有着广泛的应用。近年以来随着人工智能的热潮,神经网络模型迅速发展,网络规模呈指数级增长,对算力的要求已经远远超过摩尔定律预测的硬件性能增长速度。在以cnn(convol utional neural network,卷积神经网络)为代表的诸多神经网络模型中,gemm覆盖了其中大部分的计算过程。因此如何提高gemm效率成为了研究的热点。

2、gemm作为一种数据排列规整,近似流式访存的计算内核,在通用处理器中通常采用simd(single i nstruction mu ltip le data,单指令多数据)的方式进行计算,向量处理部件(vector processing unit,vpu)中并列的多个处理单元(processing element,pe)根据指令各自从向量访存部件(array memory,am)中加载源操作本文档来自技高网...

【技术保护点】

1.一种混洗融合矩阵乘指令实现方法,其特征在于,包括如下步骤:

2.如权利要求1所述的混洗融合矩阵乘指令实现方法,,其特征在于,所述分块参数包括:数据精度、矩阵规模、处理单元并行度、寄存器资源和数据带宽。

3.如权利要求1所述的混洗融合矩阵乘指令实现方法,,其特征在于,所述分别为每个处理单元分配若干个源操作数矩阵分块和目标矩阵分块中的分配规则是基于协同性、交互性、局部性、负载均衡而设置的。

4.如权利要求2所述的混洗融合矩阵乘指令实现方法,,其特征在于,所述步骤S2中加载相应的矩阵数据,包括如下步骤:

5.如权利要求4所述的混洗融合矩阵乘指...

【技术特征摘要】

1.一种混洗融合矩阵乘指令实现方法,其特征在于,包括如下步骤:

2.如权利要求1所述的混洗融合矩阵乘指令实现方法,,其特征在于,所述分块参数包括:数据精度、矩阵规模、处理单元并行度、寄存器资源和数据带宽。

3.如权利要求1所述的混洗融合矩阵乘指令实现方法,,其特征在于,所述分别为每个处理单元分配若干个源操作数矩阵分块和目标矩阵分块中的分配规则是基于协同性、交互性、局部性、负载均衡而设置的。

4.如权利要求2所述的混洗融合矩阵乘指令实现方法,,其特征在于,所述步骤s2中加载相应的...

【专利技术属性】
技术研发人员:刘胜郭阳崔剑峰雷元武袁珩洲曹壮汤先拓汪志田甜徐恩
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1