System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于局部采样的众核架构半精度稠密矩阵乘方法及装置制造方法及图纸_技高网

基于局部采样的众核架构半精度稠密矩阵乘方法及装置制造方法及图纸

技术编号:41261257 阅读:6 留言:0更新日期:2024-05-11 09:19
本申请实施例公开了基于局部采样的众核架构半精度稠密矩阵乘方法及装置。该方法包括:从至少两个目标矩阵中分别取目标子矩阵,并将至少两个目标子矩阵进行相乘得到目标子乘积矩阵;根据所述目标子乘积矩阵中元素的最值以及预设阈值,确定是否需要对目标矩阵进行缩放处理;若是,则基于众核架构根据预设缩放比例对所述目标矩阵进行缩放处理,并进行乘积运算。上述方案能够通过局部采样的方式获取目标矩阵中的目标子矩阵,进而根据目标子矩阵的乘积的元素最值判断是否需要对目标矩阵进行缩放,从而有效降低计算量,提高判断效率,实现了高效率的半精度矩阵乘计算。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及基于局部采样的众核架构半精度稠密矩阵乘方法及装置


技术介绍

1、近些年,随着人工智能的蓬勃发展,半精度矩阵乘法部件因其超高计算性能成为gpu等协处理器的主流配置和核心特征。与此同时,半精度16位浮点数作为一种标准的浮点数据存储格式,于2008年被修订入ieee 754浮点数标准,意味着半精度计算逐渐被业界接纳。除了人工智能应用,半精度浮点计算超强的计算能力也吸引了科学与工程计算的关注。如何在保证计算结果满足科学与工程计算精度要求的前提下,发挥国产众核处理器半精度浮点数指令的性能优势,从而提高应用软件计算效率,是目前高性能计算发展的关键问题之一。

2、对于国产众核高性能处理器,理论上半精度矩阵乘性能为单精度的4倍,但是与人工智能应用不同,科学与工程计算对计算精度要求较高,直接使用半精度浮点数指令计算,难以得到满足应用精度要求的计算结果,必须通过混合精度算法创新,使半精度矩阵乘满足科学计算精度要求。同时,与gpu不同,国产众核高性能处理器尽管提供了半精度浮点计算指令,但没有专门的高效率的半精度矩阵乘方法。


技术实现思路

1、本申请实施例提供了基于局部采样的众核架构半精度稠密矩阵乘方法及装置,以高效率实现半精度矩阵乘的计算。

2、根据本申请的一方面,提供了一种基于局部采样的众核架构半精度稠密矩阵乘方法,该方法包括:

3、从至少两个目标矩阵中分别取目标子矩阵,并将至少两个目标子矩阵进行相乘得到目标子乘积矩阵;

4、根据所述目标子乘积矩阵中元素的最值以及预设阈值,确定是否需要对目标矩阵进行缩放处理;

5、若是,则基于众核架构根据预设缩放比例对所述目标矩阵进行缩放处理,并进行乘积运算。

6、根据本申请的一方面,提供了一种基于局部采样的众核架构半精度稠密矩阵乘装置,所述装置包括:

7、采样模块,用于从至少两个目标矩阵中分别取目标子矩阵,并将至少两个目标子矩阵进行相乘得到目标子乘积矩阵;

8、缩放确定模块,用于根据所述目标子乘积矩阵中元素的最值以及预设阈值,确定是否需要对目标矩阵进行缩放处理;

9、运算模块,用于若是,则基于众核架构根据预设缩放比例对所述目标矩阵进行缩放处理,并进行乘积运算。

10、根据本申请的另一方面,提供了一种电子设备,该电子设备包括:

11、至少一个处理器;以及

12、与至少一个处理器基于局部采样的众核架构半精度稠密矩阵乘连接的存储器;其中,

13、存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本申请任一实施例的基于局部采样的众核架构半精度稠密矩阵乘方法。

14、根据本申请的另一方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本申请任一实施例的基于局部采样的众核架构半精度稠密矩阵乘方法。

15、本申请实施例的技术方案,从至少两个目标矩阵中分别取目标子矩阵,并将至少两个目标子矩阵进行相乘得到目标子乘积矩阵;根据所述目标子乘积矩阵中元素的最值以及预设阈值,确定是否需要对目标矩阵进行缩放处理;若是,则基于众核架构根据预设缩放比例对所述目标矩阵进行缩放处理,并进行乘积运算。上述方案能够通过局部采样的方式获取目标矩阵中的目标子矩阵,进而根据目标子矩阵的乘积的元素最值判断是否需要对目标矩阵进行缩放,从而有效降低计算量,提高判断效率,实现了高效率的半精度矩阵乘计算。

16、应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种基于局部采样的众核架构半精度稠密矩阵乘方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据所述子乘积矩阵中元素的最值以及预设阈值,确定是否需要对目标矩阵进行缩放处理,包括:

3.根据权利要求2所述的方法,其特征在于,根据绝对值的最大值与第一预设阈值的比较结果,以及绝对值的最大值与第二预设阈值的比较结果,确定是否需要对目标矩阵进行缩放处理,包括:

4.根据权利要求1所述的方法,其特征在于,基于众核架构根据预设缩放比例对所述目标矩阵进行缩放处理,并进行乘积运算,包括:

5.根据权利要求4所述的方法,其特征在于,通过一个从核计算得到一个子空矩阵对应的子乘积矩阵的结果,包括:

6.根据权利要求5所述的方法,其特征在于,通过从核获取计算子空矩阵对应的子乘积矩阵所需的各目标矩阵的数据,包括:

7.根据权利要求5所述的方法,其特征在于,通过从核获取计算子空矩阵对应的子乘积矩阵所需的各目标矩阵的数据,包括:

8.根据权利要求1所述的方法,其特征在于,基于众核架构根据预设缩放比例对所述目标矩阵进行缩放处理,并进行乘积运算,包括:

9.根据权利要求8所述的方法,其特征在于,对所述缩放乘积矩阵进行缩放还原,包括:

10.一种基于局部采样的众核架构半精度稠密矩阵乘装置,其特征在于,所述装置包括:

...

【技术特征摘要】

1.一种基于局部采样的众核架构半精度稠密矩阵乘方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据所述子乘积矩阵中元素的最值以及预设阈值,确定是否需要对目标矩阵进行缩放处理,包括:

3.根据权利要求2所述的方法,其特征在于,根据绝对值的最大值与第一预设阈值的比较结果,以及绝对值的最大值与第二预设阈值的比较结果,确定是否需要对目标矩阵进行缩放处理,包括:

4.根据权利要求1所述的方法,其特征在于,基于众核架构根据预设缩放比例对所述目标矩阵进行缩放处理,并进行乘积运算,包括:

5.根据权利要求4所述的方法,其特征在于,通过一个从核计算得到...

【专利技术属性】
技术研发人员:赵朋朋李芳刘鑫孙唯哲郭恒陈鑫徐占杨雨灵韩笑颖王臻
申请(专利权)人:无锡江南计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1