当前位置: 首页 > 专利查询>清华大学专利>正文

支持混合比特量化的矩阵向量乘算子实现方法及装置制造方法及图纸

技术编号:41334187 阅读:20 留言:0更新日期:2024-05-20 09:54
本申请涉及深度神经网络技术领域,特别涉及一种支持混合比特量化的矩阵向量乘算子实现方法及装置,其中,方法包括:获取经量化的大语言模型的权重矩阵和半精度浮点数精度的激活向量;使用面向混合比特精度数据的向量访问方法,将权重矩阵加载到寄存器中;使用基于交织状线程排布策略的解量化方法,将寄存器中权重矩阵解量化到半精度浮点数精度,并结合半精度浮点数精度的激活向量获取矩阵向量乘计算结果。由此,解决了相关技术中,由于混合精度量化引入权重矩阵,容易导致访问低效且容易造成解量化过程中指令分支等问题。

【技术实现步骤摘要】

本申请涉及深度神经网络,特别涉及一种支持混合比特量化的矩阵向量乘算子实现方法及装置


技术介绍

1、近年来,基于transformer结构的llm(large language model,大语言模型)在智能问答、文本生成等自然语言处理任务中具有突出的性能表现,但是其十亿级别的大规模参数量往往给实际落地部署带来挑战。量化、稀疏等参数压缩技术能够有效降低llm参数规模带来的巨大存储、访存和计算代价,其中,量化技术已经发展得较为成熟,大量量化相关工作能够在保持llm推理质量的情况下,有效降低参数规模,通过几种有效的基于ptq(posttraining quantization,训练后量化)权重量化的gemv(generalized matrix-vectormultiplication,广义矩阵-向量乘法)/gemm(generalized matrix-matrixmultiplication,广义矩阵-矩阵乘法)算子,可以实现llm的推理加速,但是其权重都是单精度量化,无法有效处理混合比特精度量化的权重对应的gemv/gemm计算。p>

2、相关技本文档来自技高网...

【技术保护点】

1.一种支持混合比特量化的矩阵向量乘算子实现方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的支持混合比特量化的矩阵向量乘算子实现方法,其特征在于,所述获取经量化的权重矩阵和半精度浮点数精度的激活向量,包括:

3.根据权利要求2所述的支持混合比特量化的矩阵向量乘算子实现方法,其特征在于,所述生成所述权重矩阵,包括:

4.根据权利要求1-3中任一项所述的支持混合比特量化的矩阵向量乘算子实现方法,其特征在于,所述使用面向混合比特精度数据的向量访问方法,将所述权重矩阵加载到寄存器中,包括:

5.根据权利要求1-3中任一项所述的支持混合比特...

【技术特征摘要】

1.一种支持混合比特量化的矩阵向量乘算子实现方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的支持混合比特量化的矩阵向量乘算子实现方法,其特征在于,所述获取经量化的权重矩阵和半精度浮点数精度的激活向量,包括:

3.根据权利要求2所述的支持混合比特量化的矩阵向量乘算子实现方法,其特征在于,所述生成所述权重矩阵,包括:

4.根据权利要求1-3中任一项所述的支持混合比特量化的矩阵向量乘算子实现方法,其特征在于,所述使用面向混合比特精度数据的向量访问方法,将所述权重矩阵加载到寄存器中,包括:

5.根据权利要求1-3中任一项所述的支持混合比特量化的矩阵向量乘算子实现方法,其特征在于,所述使用基于交织状线程排布策略的解量化方法,将所述寄存器中所述权重矩阵解量化到半精度浮点数精度,并结合所述半精度浮点数精度的激活向量获取矩阵向量乘计算结果,包括:

6.一种支持混合比特量化的矩阵向量乘算子实现装置,其特征在于,包括:

7.根据权利要求6所述的支持混合比特量化的矩阵向量乘算子实现装置,其特征在...

【专利技术属性】
技术研发人员:汪玉洪可毛秋力
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1