大语言模型训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:42496435 阅读:18 留言:0更新日期:2024-08-22 14:06
本公开提供了一种大语言模型训练方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及深度学习领域、自然语言处理领域以及大模型领域。具体实现方案为:对第一大语言模型中各个网络层中每个通道上的二维参数矩阵分别进行降维参数融合,得到第二大语言模型;基于第二大语言模型中各个网络层的三维参数矩阵,对第二大语言模型中的网络层进行降层参数融合,得到第三大语言模型;在基于第一大语言模型和第三大语言模型所确定的目标损失函数满足第一函数条件的情况下,对第三大语言模型进行训练,得到目标大语言模型。采用本公开,可以减少大语言模型训练过程占用的计算资源和内存资源。

【技术实现步骤摘要】

本公开涉及人工智能,尤其涉及深度学习领域、自然语言处理领域以及大模型领域。本公开具体涉及一种大语言模型训练方法、装置、电子设备和存储介质


技术介绍

1、随着人工智能技术的不断改进,自然语言处理(nlp)模型也走向了超大规模模型时代。通过超强算力,在海量文本数据上训练得到超大参数量规模的大语言模型(largelanguage model,llm),可以使该大语言模型具有多任务、少样本学习的语义理解与生成能力。然而,考虑到模型训练涉及的计算资源和内存占用量,在商业落地的过程中,使用参数规模相对较小的大语言模型是更加经济实惠的选择。


技术实现思路

1、本公开提供了一种大语言模型训练方法、装置、电子设备和存储介质。

2、根据本公开的一方面,提供了一种大语言模型训练方法,包括:

3、对第一大语言模型中各个网络层中每个通道上的二维参数矩阵分别进行降维参数融合,得到第二大语言模型;

4、基于所述第二大语言模型中各个网络层的三维参数矩阵,对所述第二大语言模型中的网络层进行降层参数融合,得本文档来自技高网...

【技术保护点】

1.一种大语言模型训练方法,包括:

2.根据权利要求1所述的方法,其中,所述对第一大语言模型中各个网络层中每个通道上的二维参数矩阵分别进行降维参数融合,得到第二大语言模型,包括:

3.根据权利要求2所述的方法,其中,所述基于所述第一大语言模型中各个网络层中每个通道对应的列转换矩阵,分别对所述第一大语言模型中各个网络层中每个通道上的二维参数矩阵进行列维度的降维参数融合,得到第四大语言模型,包括:

4.根据权利要求2所述的方法,其中,所述基于所述第一大语言模型中各个网络层中每个通道对应的行转换矩阵,分别对所述第四大语言模型中各个网络中每个通道上的二维参数矩...

【技术特征摘要】

1.一种大语言模型训练方法,包括:

2.根据权利要求1所述的方法,其中,所述对第一大语言模型中各个网络层中每个通道上的二维参数矩阵分别进行降维参数融合,得到第二大语言模型,包括:

3.根据权利要求2所述的方法,其中,所述基于所述第一大语言模型中各个网络层中每个通道对应的列转换矩阵,分别对所述第一大语言模型中各个网络层中每个通道上的二维参数矩阵进行列维度的降维参数融合,得到第四大语言模型,包括:

4.根据权利要求2所述的方法,其中,所述基于所述第一大语言模型中各个网络层中每个通道对应的行转换矩阵,分别对所述第四大语言模型中各个网络中每个通道上的二维参数矩阵进行行维度的降维参数融合,得到所述第二大语言模型,包括:

5.根据权利要求2-4中任一项所述的方法,还包括:

6.根据权利要求1所述的方法,其中,所述基于所述第二大语言模型中各个网络层的三维参数矩阵,对所述第二大语言模型中的网络层进行降层参数融合,得到第三大语言模型,包括:

7.根据权利要求6所述的方法,其中,所述基于所述第二大语言模型中各个网络层的三维参数矩阵,以及所述第一模型中各个网络层映射到所述第二网络层的映射系数,得到所述第二网络层的三维参数矩阵,包括:

8.根据权利要求6-7中任一项所述的方法,还包括:

9.根据权利要求1-8中任一项所述的方法,其中,所述基于所述第一大语言模型和所述第三大语言模型,确定目标损失函数,包括:

10.一种大语言模型训练装置,包括:

11.根...

【专利技术属性】
技术研发人员:尚骏远陈奕龙张振宇王硕寰孙宇吴华
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1