当前位置: 首页 > 专利查询>厦门大学专利>正文

基于学习率路径切换的大语言模型版本迭代方法及装置制造方法及图纸

技术编号:44489739 阅读:33 留言:0更新日期:2025-03-04 17:54
本发明专利技术提出了一种基于学习率路径切换的大语言模型版本迭代方法及装置,该方法包括获取当前版本的大语言模型;根据新的数据集和当前版本的大语言模型对应的学习率主路径的检查点对当前版本的大语言模型进行继续预训练,以得到迭代好的下一版本的大语言模型,其中,在进行继续预训练时学习率路径从主路径切换到分支路径上,以采用快速衰减的学习率对当前版本的大语言模型进行继续预训练;根据新的数据集和当前版本的大语言模型对应的主路径检查点继续在主路径上以预设的最大学习率预训练当前版本的大语言模型,以得到迭代好的下一版本的大语言模型对应的检查点;从而在保持大语言模型版本迭代高性能的同时还降低了版本迭代的总预训练成本。

【技术实现步骤摘要】

本专利技术涉及计算机,特别涉及一种基于学习率路径切换的大语言模型版本迭代方法、一种计算机可读存储介质、一种计算机设备和一种基于学习率路径切换的大语言模型版本迭代装置。


技术介绍

1、相关技术中,由于新数据的不断出现,版本更新迭代已成为大型语言模型(llms)不可或缺的需求;现有的大语言模型版本更新迭代的预训练范式包括从头预训练(pre-training from scratch,ptfs)和继续预训练(continual pre-training,cpt),其中,从头预训练是在新旧数据上重新训练语言模型的新版本,这意味着每次模型更新时,都会从头开始训练,包括之前版本的数据和新加入的数据;这种方法通常能够实现较好的预训练性能,但训练成本较高,因为它需要在所有数据上重新训练模型;而继续预训练仅在新数据上基于旧版本的检查点进一步预训练模型的新版本;这种方法通常在资源受限的情况下使用,例如当计算资源有限或旧数据不可用时,继续预训练的训练成本较低,因为它不需要在整个数据集重新训练,但是可能会遇到预训练性能较差的问题,尤其是随着多次版本更新,性能可能会逐渐下降;为此,本文档来自技高网...

【技术保护点】

1.一种基于学习率路径切换的大语言模型版本迭代方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于学习率路径切换的大语言模型版本迭代方法,其特征在于,在采用快速衰减的学习率对所述当前版本的大语言模型进行继续预训练时采用超参数调节学习率衰减的步数占总步数的比例,以控制更新迭代中学习率的衰减速度。

3.如权利要求1所述的基于学习率路径切换的大语言模型版本迭代方法,其特征在于,在进行初次大语言模型版本迭代时,在主路径上采用预设的最大学习率从头开始预训练待版本迭代的大语言模型。

4.如权利要求1-3中任一项所述的基于学习率路径切换的大语言模型版本迭代方...

【技术特征摘要】

1.一种基于学习率路径切换的大语言模型版本迭代方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于学习率路径切换的大语言模型版本迭代方法,其特征在于,在采用快速衰减的学习率对所述当前版本的大语言模型进行继续预训练时采用超参数调节学习率衰减的步数占总步数的比例,以控制更新迭代中学习率的衰减速度。

3.如权利要求1所述的基于学习率路径切换的大语言模型版本迭代方法,其特征在于,在进行初次大语言模型版本迭代时,在主路径上采用预设的最大学习率从头开始预训练待版本迭代的大语言模型。

4.如权利要求1-3中任一项所述的基于学习率路径切换的大语言模型版本迭代方法,其特征在于,所述学习率包括第一学习率和第二学习率,所述第一学习率大于所述第二学习率,所述第一学习率作为所述预设的最大学习率,在进行继续预训练时,从所述第一学习率快速衰减到所述第二学习率,以得到迭代好的下一版本的大语言模型。

5.一种计算机可读存储介质,其特征在于,其上存储有基于学习率路径切换的大语言模型版本迭代程序,该基于学习率路径切换的大语言模型版本迭代程序被处理器执行时实现如权利要求1-4中任一项所述的基于学习率路径切换的大语言模型版本迭...

【专利技术属性】
技术研发人员:苏劲松王志豪刘诗雨
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1