大语言模型的推理方法和装置制造方法及图纸

技术编号:46619187 阅读:0 留言:0更新日期:2025-10-14 21:14
本公开涉及一种大语言模型的推理方法和装置,该方法包括:将待推理数据输入大语言模型中的自注意推理模块,得到自注意特征矩阵数据;将自注意特征矩阵数据输入多层感知器中的第一全连接层,通过第一均衡权重矩阵得到第一全连接推理数据;将根据第一全连接推理数据得到的非线性激活数据输入多层感知器中的第二全连接层,通过第二均衡权重矩阵得到多层感知器的推理特征结果,其中,第一均衡权重矩阵和第二均衡权重矩阵是由第一全连接层的权重矩阵和第二全连接层的权重矩阵之间通过权重均衡得到的。本公开有助于缩小大语言模型推理过程中的激活值的范围,有助于减小由于激活值的异常导致的量化误差。

【技术实现步骤摘要】

本公开涉及计算机及神经网络,特别涉及一种大语言模型的推理方法和装置


技术介绍

1、随着深度学习技术的发展,大语言模型(large language model,llm)在自然语言处理、机器翻译、问答系统等领域取得了显著的成果。然而,大语言模型通常具有大量的参数,导致模型的存储和计算需求较高,不利于在资源受限的设备上部署和应用。因此,对大语言模型进行量化以降低模型的存储和计算需求具有重要意义。

2、激活值是神经网络中每个神经元的输出信号值。在大语言模型的量化需要确保激活值的范围和异常值,如果激活值超出范围或者异常,会导致大语言模型的性能下降、模型输出与预期不符、量化困难、模型鲁棒性能降低、泛化能力降低、可靠性降低等问题。因此,需要通过对大语言模型的均衡调整,以确保激活值能够在合理的范围之内。


技术实现思路

1、有鉴于此,本公开提供一种大语言模型的推理方法和装置,以助于缩小大语言模型推理过程中的激活值的范围,并在此基础上,帮助减小由于激活值的异常导致的量化误差。

2、本公开的技术方案是这本文档来自技高网...

【技术保护点】

1.一种大语言模型的推理方法,其中,所述大语言模型包括自注意推理模块和多层感知器,其中,所述自注意推理模块包括大语言模型中位于所述多层感知器之前的全部神经网络结构,所述多层感知器包括第一全连接层和第二全连接层,所述方法包括:

2.根据权利要求1所述的大语言模型的推理方法,其特征在于,所述权重均衡的过程包括:

3.根据权利要求2所述的大语言模型的推理方法,其特征在于,在所述得到所述第一均衡权重矩阵和所述第二均衡权重矩阵之后,还包括:

4.根据权利要求2所述的大语言模型的推理方法,其特征在于,在所述得到所述第一均衡权重矩阵和所述第二均衡权重矩阵之后,还包括...

【技术特征摘要】

1.一种大语言模型的推理方法,其中,所述大语言模型包括自注意推理模块和多层感知器,其中,所述自注意推理模块包括大语言模型中位于所述多层感知器之前的全部神经网络结构,所述多层感知器包括第一全连接层和第二全连接层,所述方法包括:

2.根据权利要求1所述的大语言模型的推理方法,其特征在于,所述权重均衡的过程包括:

3.根据权利要求2所述的大语言模型的推理方法,其特征在于,在所述得到所述第一均衡权重矩阵和所述第二均衡权重矩阵之后,还包括:

4.根据权利要求2所述的大语言模型的推理方法,其特征在于,在所述得到所述第一均衡权重矩阵和所述第二均衡权重矩阵之后,还包括:

5.根据权利要求4所述的大语言模型的推理方法,其特征在于:

6.根据权利要求2所述的大语言模型的推理方法,其特征在于,所述根据所述整合样本特征矩阵数据集的每一个嵌入维度中的特征参数绝对值的最大值、所述第二权重矩阵的...

【专利技术属性】
技术研发人员:王程艾国杨作兴
申请(专利权)人:深圳比特微电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1