【技术实现步骤摘要】
本专利技术涉及处理器,特别是涉及一种混洗融合矩阵乘指令实现方法及系统。
技术介绍
1、gemm(general matr ix mu lt ip ly,通用矩阵乘法)是一种重要的科学计算内核,在科学计算、数值方程求解等方面有着广泛的应用。近年以来随着人工智能的热潮,神经网络模型迅速发展,网络规模呈指数级增长,对算力的要求已经远远超过摩尔定律预测的硬件性能增长速度。在以cnn(convol utional neural network,卷积神经网络)为代表的诸多神经网络模型中,gemm覆盖了其中大部分的计算过程。因此如何提高gemm效率成为了研究的热点。
2、gemm作为一种数据排列规整,近似流式访存的计算内核,在通用处理器中通常采用simd(single i nstruction mu ltip le data,单指令多数据)的方式进行计算,向量处理部件(vector processing unit,vpu)中并列的多个处理单元(processing element,pe)根据指令各自从向量访存部件(array memory
...【技术保护点】
1.一种混洗融合矩阵乘指令实现方法,其特征在于,包括如下步骤:
2.如权利要求1所述的混洗融合矩阵乘指令实现方法,,其特征在于,所述分块参数包括:数据精度、矩阵规模、处理单元并行度、寄存器资源和数据带宽。
3.如权利要求1所述的混洗融合矩阵乘指令实现方法,,其特征在于,所述分别为每个处理单元分配若干个源操作数矩阵分块和目标矩阵分块中的分配规则是基于协同性、交互性、局部性、负载均衡而设置的。
4.如权利要求2所述的混洗融合矩阵乘指令实现方法,,其特征在于,所述步骤S2中加载相应的矩阵数据,包括如下步骤:
5.如权利要求4所
...【技术特征摘要】
1.一种混洗融合矩阵乘指令实现方法,其特征在于,包括如下步骤:
2.如权利要求1所述的混洗融合矩阵乘指令实现方法,,其特征在于,所述分块参数包括:数据精度、矩阵规模、处理单元并行度、寄存器资源和数据带宽。
3.如权利要求1所述的混洗融合矩阵乘指令实现方法,,其特征在于,所述分别为每个处理单元分配若干个源操作数矩阵分块和目标矩阵分块中的分配规则是基于协同性、交互性、局部性、负载均衡而设置的。
4.如权利要求2所述的混洗融合矩阵乘指令实现方法,,其特征在于,所述步骤s2中加载相应的...
【专利技术属性】
技术研发人员:刘胜,郭阳,崔剑峰,雷元武,袁珩洲,曹壮,汤先拓,汪志,田甜,徐恩,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。