预训练大模型的训练方法、装置及设备制造方法及图纸

技术编号:44973742 阅读:12 留言:0更新日期:2025-04-12 01:48
本申请提供一种预训练大模型的训练方法、装置及设备,涉及人工智能技术领域,该方法通过在对预训练大模型进行微调的过程中,基于预设梯度矩阵的类型,对第一低秩矩阵和第二低秩进行初始化,并基于初始化后的第一低秩矩阵和第二低秩矩阵对待更新模型进行迭代训练,可以避免对低秩矩阵进行全零初始化导致在模型训练过程中梯度消失或爆炸的问题,可以达到提高收敛速度的效果。

【技术实现步骤摘要】

本申请涉及人工智能,具体涉及一种预训练大模型的训练方法、装置及设备


技术介绍

1、近年来,拥有数千亿参数的大型语言模型在各种任务中展现出了卓越的性能。自然语言处理中的许多应用依赖于将这些大规模预训练模型适应于多个下游应用,而这种适应通常是通过微调来实现的。传统的微调过程会更新预训练大模型的所有参数,从而提高模型在特定任务上的表现,现在将此过程称为全量微调。设计高效且精准的微调方法是当前的重要目标,这不仅能提升大语言模型的应用效果,还将推动其在各领域的广泛应用。

2、目前,在对预训练大模型进行微调的过程中,第一低秩矩阵和第二低秩矩阵的初始化方法采用全零与高斯初始化相结合,这种方式可能会导致优化过程中的收敛困难,从而影响模型性能。


技术实现思路

1、本申请提供一种预训练大模型的训练方法、装置及设备,能够消除在对预训练大模型进行微调的过程中,采用全零初始化或高斯初始化导致梯度消失或爆炸的问题。

2、本申请提供的一种预训练大模型的训练方法,包括:

3、获取训练数据、预设梯度矩阵;本文档来自技高网...

【技术保护点】

1.一种预训练大模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的预训练大模型的训练方法,其特征在于,基于预训练大模型得到包括低秩模块的待更新模型,包括:

3.根据权利要求2所述的预训练大模型的训练方法,其特征在于,在所述目标层添加低秩模块得到所述待更新模型,包括:

4.根据权利要求3所述的预训练大模型的训练方法,其特征在于,在所述目标层添加两个低秩模块,得到所述待更新模型,包括:

5.根据权利要求3所述的预训练大模型的训练方法,其特征在于,在所述目标层添加两个低秩模块,得到所述待更新模型,包括:

6.根据权利要求5所...

【技术特征摘要】

1.一种预训练大模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的预训练大模型的训练方法,其特征在于,基于预训练大模型得到包括低秩模块的待更新模型,包括:

3.根据权利要求2所述的预训练大模型的训练方法,其特征在于,在所述目标层添加低秩模块得到所述待更新模型,包括:

4.根据权利要求3所述的预训练大模型的训练方法,其特征在于,在所述目标层添加两个低秩模块,得到所述待更新模型,包括:

5.根据权利要求3所述的预训练大模型的训练方法,其特征在于,...

【专利技术属性】
技术研发人员:孙月石薪霖
申请(专利权)人:熵减成都智能科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1