基于Lora层数组合的大模型微调方法、装置、设备及介质制造方法及图纸

技术编号：41072598 阅读：4 留言：0更新日期：2024-04-24 11:29

本发明专利技术公开了一种基于Lora层数组合的大模型微调方法、装置、设备及介质，方法包括：获取待训练的任务；根据所述任务的需求参数，提取大模型的对应Lora层数并进行组合，得到目标Lora模型；根据训练数据对所述目标Lora模型进行训练，以实现对所述大模型的微调。本发明专利技术可以针对特定的任务，只通过不同层之间的组合以及对不同层的权重系统的设置，达到使用更少的参数和训练数据对模型进行微调的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大模型领域，特别公开了一种基于lora层数组合的大模型微调方法、装置、设备及介质。

技术介绍

1、目前，深度学习的许多应用依赖于使一个大规模的、预先训练的模型适应多个下游应用。比如文本类的gpt大模型，视觉类的stablediffusion模型，通过预训练模型可以更好的适配具体的任务。当预训练更大的模型时，重新训练所有模型参数的完全微调变得不太可行。以gpt-3 175b为例，部署经过精细调整的模型的独立实例(每个实例都有175b参数)成本高昂。

2、最近几年这种调整通常通过微调来完成，微调会更新预训练模型的所有参数。微调的主要缺点是新模型包含与原始模型相同多的参数。但是随着技术发展，最近一年出现了巨大的模型，这些模型有上亿的参数，而且更大的模型每隔几个月进行一次训练，目前很多模型具有百亿，千亿的可训练参数。

3、当前大模型存在参数量大，计算复杂，推理速度慢的问题，尤其对于微调的场景。在应用到具体任务事，需要准备大量的数据和大量的训练资源。基于传统的计算机技术，很难在大模型领域达到快速训练和高性能的结果。综上所述，现有的微调算法很难达到很好的效果且参数较大。许多人试图通过仅调整一些参数或学习外部模块以适应新任务来缓解这种情况。这样，除了每个任务的预训练模型外，只需要存储和加载少量特定于任务的参数，大大提高了部署时的操作效率。然而，现有技术通常通过扩展模型深度或减少模型的可用序列长度来引入推理延迟。更重要的是，这些方法往往无法与微调基线相匹配，从而在效率和模型质量之间产生了权衡。