用于大模型的量化矩阵乘的优化方法、优化设备及可读存储介质技术

技术编号:42875802 阅读:29 留言:0更新日期:2024-09-30 15:01
本申请提供一种用于大模型的量化矩阵乘的优化方法、优化设备及可读存储介质。所述优化方法包括:步骤一:获取第一量化数据、掩码数据以及魔数数据,其中所述第一量化数据具有第一精度,并且是基于量化参数对原始数据进行量化后得到的;步骤二:将所述第一量化数据与所述掩码数据以及所述魔数数据进行逻辑运算,得到具有第二精度的第二量化数据,所述逻辑运算包括按位与计算以及按位或计算;步骤三:基于所述第二量化数据和所述量化参数,进行解量化计算,得到解量化数据。基于本用于大模型的量化矩阵乘的优化方法,能够提高量化矩阵乘的计算效率。

【技术实现步骤摘要】

本申请涉及人工智能领域,具体而言,涉及一种用于大模型的量化矩阵乘的优化方法、优化设备及可读存储介质


技术介绍

1、自从transformer结构问世,基于其开发出的大语言模型(llm)在文本生成、智能问答等自然语言处理任务中具有突出的性能表现,并对人类生活产生了重要影响。然而,大语言模型往往拥有数十亿级别的参数量,这给实际的落地部署带来了巨大的挑战。如今,研究人员已开发了诸如参数量化、稀疏等压缩技术,有效地减少了llm参数规模引发的巨大存储、访存和计算代价。

2、现被广泛应用的大模型如gpt,opt,llama等,其推理阶段包括2个阶段:预填充(prefill)和解码(decoding)。采用合适的量化技术,可显著减少llm推理阶段中权重的gpu显存占用。然而,量化矩阵乘在推理过程中的耗时占比可达60%以上,如何高效地实现量化矩阵乘算子,对实际的推理性能有着重要影响。

3、由于引入量化算法后,实际的推理过程需要先解量化,而后进行矩阵乘运算。针对如amd gpu,nvidia gpu等大规模线程并行的硬件平台,额外的解量化操作和矩阵本文档来自技高网...

【技术保护点】

1.一种用于大模型的量化矩阵乘的优化方法,其特征在于,包括以下步骤:

2.如权利要求1所述的用于大模型的量化矩阵乘的优化方法,所述第一精度为4比特整型,所述第二精度为16位浮点型,并且所述第一量化数据包括8个4比特整型数据。

3.如权利要求2所述的用于大模型的量化矩阵乘的优化方法,其特征在于,所述将所述第一量化数据与所述掩码数据以及所述魔数数据进行逻辑运算包括:

4.如权利要求1-3任一项所述的用于大模型的量化矩阵乘的优化方法,其特征在于,所述魔数数据的16进制表示包括0x54005400或0x00540054;所述掩码数据的16进制表示包括0x00f...

【技术特征摘要】

1.一种用于大模型的量化矩阵乘的优化方法,其特征在于,包括以下步骤:

2.如权利要求1所述的用于大模型的量化矩阵乘的优化方法,所述第一精度为4比特整型,所述第二精度为16位浮点型,并且所述第一量化数据包括8个4比特整型数据。

3.如权利要求2所述的用于大模型的量化矩阵乘的优化方法,其特征在于,所述将所述第一量化数据与所述掩码数据以及所述魔数数据进行逻辑运算包括:

4.如权利要求1-3任一项所述的用于大模型的量化矩阵乘的优化方法,其特征在于,所述魔数数据的16进制表示包括0x54005400或0x00540054;所述掩码数据的16进制表示包括0x00f000f0或0x000f000f。

5.如权利要求1-3任一项所述的用于大模型的量化矩阵乘的优化方法,其特征在于,所述量化参数包括缩放因子scale和零点zero,并且...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:上海无问芯穹智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1