一种基于昇腾910平台的复数矩阵向量乘法计算方案制造技术

技术编号:40912257 阅读:29 留言:0更新日期:2024-04-18 14:40
本发明专利技术公开了一种在华为昇腾910NPU平台上计算复数矩阵向量乘法的方案。包含以下步骤:S1、计算任务划分,将计算任务均匀分配给910NPU的各个计算核心并行计算;S2、从全局内存读取复数矩阵和复数向量,采用vector运算单元进行虚实分离,将复数矩阵拆分为实部矩阵和虚部矩阵;S3、调用vector运算单元完成矩阵向量乘法运算;S4、使用vector指令合并实部向量和虚部向量得到最终的复数向量;本方法与传统方法相比,采用vector计算单元完成矩阵向量乘法的所有计算步骤,特别地,本方法提出了基于vector运算单元的虚实分离和合并策略,提高了复数矩阵向量乘法在NPU上的计算效率。

【技术实现步骤摘要】

本专利技术属于高性能计算、算力优化领域,提出了一种基于国产昇腾910npu的复数矩阵向量乘法优化计算方案。


技术介绍

1、矩阵向量乘法(gemv)是线性代数中的一个基本操作,它在科学计算、工程计算和数据分析等领域都有广泛的应用。例如,在机器学习中,矩阵向量乘法被广泛用于神经网络的前向传播和反向传播过程中;在信号处理中,矩阵向量乘法被用于滤波器设计和信号重构等任务中。矩阵向量乘法的计算复杂度为o(n2),其中n表示矩阵的维数。因此,当矩阵较大时,其计算成本会非常高。为了加速矩阵向量乘法的计算,许多优化技术被提出来,例如基于缓存的优化、基于向量化指令的优化、基于并行计算的优化等。

2、npu是神经网络处理单元(neural processing unit)的缩写,是一种专门用于加速人工神经网络计算的处理器。与通用处理器(cpu)和图形处理器(gpu)不同,npu采用高度优化的硬件架构,能够在相同的功耗和面积下提供更高的计算性能和能效比。npu的出现主要是为了满足人工智能应用对计算性能和能效比的极高要求。随着人工智能技术的快速发展,传统的cpu和gp本文档来自技高网...

【技术保护点】

1.本专利技术提出的基于华为昇腾910NPU的复数矩阵向量乘法计算方案,其特征在于,包含以下步骤:

2.根据权利要求1所述复数矩阵向量乘法计算方案,其特征在于,所述步骤S1具体为:

3.根据权利要求1本专利技术所述的方法,其特征在于,步骤S2中具体为:

4.根据权利要求1所述的方法,其特征在于,步骤S3中,采用vector运算单元完成矩阵向量乘法运算。经过上一步骤,复数矩阵已经拆分为实部矩阵和虚部矩阵,复数向量也拆分为实部向量和虚部向量。vector运算单元可以高效计算两个向量之间的元素相乘,由于矩阵数据在内存中的存储方式是列优先存储,在转置情况下,采...

【技术特征摘要】

1.本发明提出的基于华为昇腾910npu的复数矩阵向量乘法计算方案,其特征在于,包含以下步骤:

2.根据权利要求1所述复数矩阵向量乘法计算方案,其特征在于,所述步骤s1具体为:

3.根据权利要求1本发明所述的方法,其特征在于,步骤s2中具体为:

4.根据权利要求1所述的方法,其特征在于,步骤s3中,采用vector运算单元完成矩阵向量乘法运算。经过上一步骤,复数矩阵已经拆分为实部矩阵和虚部矩阵,复数向量也拆分为实部向量和虚部向量。vector运算单元可以高效计算两个向量之间的元素相...

【专利技术属性】
技术研发人员:陆璐钟昊阳
申请(专利权)人:深圳爱特思信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1