System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于Lora层数组合的大模型微调方法、装置、设备及介质制造方法及图纸_技高网

基于Lora层数组合的大模型微调方法、装置、设备及介质制造方法及图纸

技术编号:41072598 阅读:4 留言:0更新日期:2024-04-24 11:29
本发明专利技术公开了一种基于Lora层数组合的大模型微调方法、装置、设备及介质,方法包括:获取待训练的任务;根据所述任务的需求参数,提取大模型的对应Lora层数并进行组合,得到目标Lora模型;根据训练数据对所述目标Lora模型进行训练,以实现对所述大模型的微调。本发明专利技术可以针对特定的任务,只通过不同层之间的组合以及对不同层的权重系统的设置,达到使用更少的参数和训练数据对模型进行微调的效果。

【技术实现步骤摘要】

本专利技术涉及大模型领域,特别公开了一种基于lora层数组合的大模型微调方法、装置、设备及介质。


技术介绍

1、目前,深度学习的许多应用依赖于使一个大规模的、预先训练的模型适应多个下游应用。比如文本类的gpt大模型,视觉类的stablediffusion模型,通过预训练模型可以更好的适配具体的任务。当预训练更大的模型时,重新训练所有模型参数的完全微调变得不太可行。以gpt-3 175b为例,部署经过精细调整的模型的独立实例(每个实例都有175b参数)成本高昂。

2、最近几年这种调整通常通过微调来完成,微调会更新预训练模型的所有参数。微调的主要缺点是新模型包含与原始模型相同多的参数。但是随着技术发展,最近一年出现了巨大的模型,这些模型有上亿的参数,而且更大的模型每隔几个月进行一次训练,目前很多模型具有百亿,千亿的可训练参数。

3、当前大模型存在参数量大,计算复杂,推理速度慢的问题,尤其对于微调的场景。在应用到具体任务事,需要准备大量的数据和大量的训练资源。基于传统的计算机技术,很难在大模型领域达到快速训练和高性能的结果。综上所述,现有的微调算法很难达到很好的效果且参数较大。许多人试图通过仅调整一些参数或学习外部模块以适应新任务来缓解这种情况。这样,除了每个任务的预训练模型外,只需要存储和加载少量特定于任务的参数,大大提高了部署时的操作效率。然而,现有技术通常通过扩展模型深度或减少模型的可用序列长度来引入推理延迟。更重要的是,这些方法往往无法与微调基线相匹配,从而在效率和模型质量之间产生了权衡。

/>

技术实现思路

1、本专利技术提供了一种基于lora层数组合的大模型微调方法、装置、设备及介质,能至少部分的改善上述问题。

2、为实现上述目的,本专利技术采用以下技术方案:

3、一种基于lora层数组合的大模型微调方法,其包括:

4、获取待训练的任务;

5、根据所述任务的需求参数,提取大模型的对应lora层数并进行组合,得到目标lora模型;

6、根据训练数据对所述目标lora模型进行训练,以实现对所述大模型的微调。

7、优选地,所述大模型基于unet结构,unet结构包括encoder模块和decoder模块,所述decoder模块包括transformer;

8、所述大模型包括17层,其中:

9、第一层为开关层,在使用lora时,默认使用本层参数,且本层默认权重系数为1;

10、第2层到第7层,属于unet结构的encoder模块,是输入层,用于控制大模型生成图片的服装细节;

11、第八层为中间层,用于影响生成图片里人物躯干、动作;

12、第9层到第17层,属于unet结构的decoder模块,是输出层,用于控制大模型生成图片的背景,饱和度。

13、优选地,对于第2-4层,用于影响生成图片的服装细节;

14、对于第5-6层,用于影响生成图片的背景;

15、对于第7层,这一层的参数用于控制生成图片里面的人物躯干和任务动作。

16、优选地,对于第9层和第10层,用于影响生成图片的面部细节以及控制人体躯干,动作;

17、对于第11层,用于影响生成图片人体的佩戴服饰;

18、对于第12层到第15层,这些层的参数用于控制生成图片的背景细节;

19、对于第16-17层,用于控制生成图的饱和度色度。

20、优选地,还包括:

21、根据待训练的任务的训练需求,对提取的层数设置不同的权重系数;其中,权重系数的数值范围为[0,1]。

22、本专利技术实施例还提供了一种基于lora层数组合的大模型微调装置,其包括:

23、任务获取单元,用于获取待训练的任务;

24、提取组合单元,用于根据所述任务的需求参数,提取大模型的对应lora层数并进行组合,得到目标lora模型;

25、微调单元,用于根据训练数据对所述目标lora模型进行训练,以实现对所述大模型的微调。

26、优选地,所述大模型基于unet结构,unet结构包括encoder模块和decoder模块,所述decoder模块包括transformer;

27、所述大模型包括17层,其中:

28、第一层为开关层,在使用lora时,默认使用本层参数,且本层默认权重系数为1;

29、第2层到第7层,属于unet结构的encoder模块,是输入层,用于控制大模型生成图片的服装细节;

30、第八层为中间层,用于影响生成图片里人物躯干、动作;

31、第9层到第17层,属于unet结构的decoder模块,是输出层,用于控制大模型生成图片的背景,饱和度。

32、优选地,还包括:

33、权重设置单元,用于根据待训练的任务的训练需求,对提取的层数设置不同的权重系数;其中,权重系数的数值范围为[0,1]。

34、本专利技术实施例还提供了一种基于lora层数组合的大模型微调设备,其包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上述的基于lora层数组合的大模型微调方法。

35、本专利技术实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上述的基于lora层数组合的大模型微调方法。

36、本专利技术针对特定的任务,只通过不同层之间的组合以及对不同层的权重系统的设置,达到使用更少的参数和训练数据对模型进行微调的效果。

本文档来自技高网...

【技术保护点】

1.一种基于Lora层数组合的大模型微调方法,其特征在于,包括:

2.根据权利要求1所述的基于Lora层数组合的大模型微调方法,其特征在于,所述大模型基于Unet结构,Unet结构包括Encoder模块和Decoder模块,所述Decoder模块包括Transformer;

3.根据权利要求2所述的基于Lora层数组合的大模型微调方法,其特征在于:

4.根据权利要求2所述的基于Lora层数组合的大模型微调方法,其特征在于:

5.根据权利要求1所述的基于Lora层数组合的大模型微调方法,其特征在于,还包括:

6.一种基于Lora层数组合的大模型微调装置,其特征在于,包括:

7.根据权利要求6所述的基于Lora层数组合的大模型微调装置,其特征在于,所述大模型基于Unet结构,Unet结构包括Encoder模块和Decoder模块,所述Decoder模块包括Transformer;

8.根据权利要求6所述的基于Lora层数组合的大模型微调装置,其特征在于,还包括:

9.一种基于Lora层数组合的大模型微调设备,其特征在于,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如权利要求1至5任意一项所述的基于Lora层数组合的大模型微调方法。

10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如权利要求1至5任意一项所述的基于Lora层数组合的大模型微调方法。

...

【技术特征摘要】

1.一种基于lora层数组合的大模型微调方法,其特征在于,包括:

2.根据权利要求1所述的基于lora层数组合的大模型微调方法,其特征在于,所述大模型基于unet结构,unet结构包括encoder模块和decoder模块,所述decoder模块包括transformer;

3.根据权利要求2所述的基于lora层数组合的大模型微调方法,其特征在于:

4.根据权利要求2所述的基于lora层数组合的大模型微调方法,其特征在于:

5.根据权利要求1所述的基于lora层数组合的大模型微调方法,其特征在于,还包括:

6.一种基于lora层数组合的大模型微调装置,其特征在于,包括:

7.根据权利要求6所述的基于lora...

【专利技术属性】
技术研发人员:李翔邢东进杨洪进
申请(专利权)人:厦门蝉羽网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1