张量处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40035313 阅读:28 留言:0更新日期:2024-01-16 18:52
本申请实施例公开了一种张量处理方法、装置、电子设备及存储介质。所述方法包括:获取神经网络的一层输出的激活张量和第一权重张量,所述第一权重张量为定点数据类型的张量,所述激活张量为浮点数据类型的张量;在预设数据维度,按照目标切分尺寸对所述第一权重张量进行切分,得到多个第一张量;对所述多个第一张量进行重排,得到重排后的多个第一张量;基于所述重排后的多个第一张量,确定第二权重张量;对所述激活张量和所述第二权重张量执行矩阵乘计算,得到所述神经网络的一层的输出张量。直接通过浮点类型的激活张量和整数类型的权重张量进行张量处理,无需额外的反量化计算,可以降低推理时的内存占用大小,同时可以提升矩阵乘的性能。

【技术实现步骤摘要】

本申请属于计算机,具体涉及一种张量处理方法、装置、电子设备及存储介质


技术介绍

1、对于语言模型特别是大语言模型(large language model,llm)的推理部署,一种常用的方法是把模型权重用分组量化的方式从浮点类型量化到4比特整数。由于量化后的权重张量需要与激活张量进行矩阵乘计算,而传统的矩阵乘只支持相同的数据类型的输入,因此需要将量化后的权重张量采用独立的反量化算子进行反量化后再与激活张量进行矩阵乘计算,这使得计算所需要的内存占用显著增加。


技术实现思路

1、鉴于上述问题,本申请提出了一种张量处理方法、装置、电子设备以及存储介质,以实现改善上述问题。

2、第一方面,本申请实施例提供了一种张量处理方法,所述方法包括:获取神经网络的一层输出的激活张量和第一权重张量,所述第一权重张量为定点数据类型的张量,所述激活张量为浮点数据类型的张量;在预设数据维度,按照目标切分尺寸对所述第一权重张量进行切分,得到多个第一张量;对所述多个第一张量进行重排,得到重排后的多个第一张量;基于所述重排后的多本文档来自技高网...

【技术保护点】

1.一种张量处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取神经网络的一层输出的激活张量和第一权重张量,包括:

3.根据权利要求1所述的方法,其特征在于,所述在预设数据维度,按照目标切分尺寸对所述第一权重张量进行切分,得到多个第一张量之前还包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述多个第一张量进行重排,得到重排后的多个第一张量,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于预设数据排布方式,对所述多个第一张量进行重排,得到重排后的多个第一张量之前还包括

6....

【技术特征摘要】

1.一种张量处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取神经网络的一层输出的激活张量和第一权重张量,包括:

3.根据权利要求1所述的方法,其特征在于,所述在预设数据维度,按照目标切分尺寸对所述第一权重张量进行切分,得到多个第一张量之前还包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述多个第一张量进行重排,得到重排后的多个第一张量,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于预设数据排布方式,对所述多个第一张量进行重排,得到重排后的多个第一张量之前还包括:

6.根据权利要求5所述的方法,其特征在于...

【专利技术属性】
技术研发人员:李路长袁伦喜
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1