大语言模型膨胀预训练方法、系统、电子设备及存储介质技术方案

技术编号:42699634 阅读:30 留言:0更新日期:2024-09-13 11:55
本申请实施例提供了一种大语言模型膨胀预训练方法、系统、电子设备及存储介质,属于人工智能技术领域。该方法通过预先训练参数较小的第一语言模型,然后根据第一语言模型中目标网络的参数集合将目标网络拓展为第一专家网络和第二专家网络,将低秩矩阵映射单元添加到第二专家网络的输出层得到第三专家网络,将第三专家网络与第一语言模型中的第一专家网络进行拼接得到第二语言模型,再通过第二文本数据集对第二语言模型进行预训练得到大语言模型。通过对第二专家网络添加低秩矩阵映射单元,从而给两个专家网络结构进行差异化,使得两个专家网络具有不同的参数方向,增加大模型的拟合和表征能力。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种大语言模型膨胀预训练方法、系统、电子设备及存储介质


技术介绍

1、大语言模型的预训练过程需要消耗大量的算力资源和时间,即使是使用千卡的集群,将一个百亿级别参数的模型在1t词片段(token)上进行预训练也需要数月的时间。为了能够降低模型预训练的资源消耗,一种可行的方式是在训练的过程中分阶段地膨胀模型。即先训练参数量较小的小模型,然后将小模型膨胀成参数量较大的大模型继续训练。小模型的参数可以作为大模型参数的良好初始化,使得大模型的训练成本低于从零开始训练。

2、目前,小模型膨胀成大模型主要有两种方式,一种是纵向拓展,另一种是横向拓展,也可以同时采用两种方式进行模型膨胀。相关技术中的横向扩展技术复制小模型的网络参数集合,相当于使用多个相同初始化的专家网络,然后再将每个专家网络的输出进行加权求和,正则化技术dropout固有的随机性,使得扩展后的参数具有不同的梯度方向。但多个专家网络结构同质化,不能引入足够的随机性,导致每个专家网络得到的中间激活语义表征都是相似的,降低了扩展后大模型的表征能力。</p>
...

【技术保护点】

1.一种大语言模型膨胀预训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的大语言模型膨胀预训练方法,其特征在于,所述获取预先训练完成的第一语言模型,包括以下步骤:

3.根据权利要求2所述的大语言模型膨胀预训练方法,其特征在于,所述根据所述第一语言模型中目标网络的参数集合对所述第一语言模型的目标网络进行拓展,得到第一专家网络和第二专家网络,包括以下步骤:

4.根据权利要求2所述的大语言模型膨胀预训练方法,其特征在于,所述根据所述第一语言模型中目标网络的参数集合对所述第一语言模型的目标网络进行拓展,得到第一专家网络和第二专家网络,包括以下步骤:...

【技术特征摘要】

1.一种大语言模型膨胀预训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的大语言模型膨胀预训练方法,其特征在于,所述获取预先训练完成的第一语言模型,包括以下步骤:

3.根据权利要求2所述的大语言模型膨胀预训练方法,其特征在于,所述根据所述第一语言模型中目标网络的参数集合对所述第一语言模型的目标网络进行拓展,得到第一专家网络和第二专家网络,包括以下步骤:

4.根据权利要求2所述的大语言模型膨胀预训练方法,其特征在于,所述根据所述第一语言模型中目标网络的参数集合对所述第一语言模型的目标网络进行拓展,得到第一专家网络和第二专家网络,包括以下步骤:

5.根据权利要求4所述的大语言模型膨胀预训练方法,其特征在于,所述根据所述目标网络、复制的所述查询向量映射矩阵、所述键向量映射矩阵、所述值向量映射矩阵和所述输出映射矩阵确定第一专家网络和第二专家...

【专利技术属性】
技术研发人员:王子涵王超宋双永
申请(专利权)人:中电信人工智能科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1