基于低秩适配的模型微调方法、装置、服务器及存储介质制造方法及图纸

技术编号:43692956 阅读:22 留言:0更新日期:2024-12-18 21:10
本申请涉及人工智能领域,提供了一种基于低秩适配的模型微调方法、装置、服务器及存储介质。本申请实施例通过在训练预训练模型N<subgt;0</subgt;次后,确定配置给预训练模型的秩数的门控矩阵中的各对角元素对预训练模型的影响力分数,并基于各对角元素的影响力分数,对预训练模型的影响力较低的对角元素所属的门控矩阵进行更新,以调整与更新的门控矩阵对应的低秩参数矩阵的秩数,这样在调整秩数前的预训练模型的损失值大于调整秩数后的预训练模型的损失值时,继续调整秩数以及基于调整后的秩数对预训练模型进行训练,反之停止训练,从而能够防止预训练模型过拟合,提高了预训练模型的参数微调效果,以保证微调后的预训练模型的准确性。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种基于低秩适配的模型微调方法、装置、服务器及存储介质


技术介绍

1、随着企业、组织或医院所使用的人工智能系统中的预训练模型越来越庞大,导致企业、组织或医院无法针对每一个任务都部署一个模型,但通过参数微调方法对不同的任务仅需要微调较少的参数,即可将大的预训练模型适配到任务上,从而节约所需的训练数据以及减少了梯度和优化器所占显卡内存空间。例如,在医疗场景下,一个大模型主干需要支持:体检报告抽取、病例理解、知识问答和病患管理等多个任务,通过参数微调算法对体检报告抽取、病例理解、知识问答和病患管理等任务微调大模型的较少参数,从而将大的预训练模型适配到体检报告抽取、病例理解、知识问答和病患管理等多个任务上。

2、目前,常用的参数微调方法主要是低秩适配方法,其针对预训练模型的权重矩阵w0,可以用低秩分解表示权重的变化量δw,也即w0+δw=w0+ba,其中b和a是待学习的参数矩阵,且都是低秩的,b的维数为d*k,a的维数为k*d,d是预训练模型的隐状态维度,k是秩数,是低秩适配方法最核心的超参数,但标准的低秩适配方法针对预训本文档来自技高网...

【技术保护点】

1.一种基于低秩适配的模型微调方法,其特征在于,包括:

2.根据权利要求1所述的模型微调方法,其特征在于,所述确定每个所述门控矩阵中的各所述对角元素对所述预训练模型的影响力分数,包括:

3.根据权利要求2所述的模型微调方法,其特征在于,所述确定所述对角元素αij对应的第一对比模型组和/或第二对比模型组,包括:

4.根据权利要求2所述的模型微调方法,其特征在于,所述根据第一损失值组和/或第二损失值组,确定所述对角元素αij对所述预训练模型的影响力分数,包括:

5.根据权利要求1所述的模型微调方法,其特征在于,所述根据每个所述门控矩阵中的各所述...

【技术特征摘要】

1.一种基于低秩适配的模型微调方法,其特征在于,包括:

2.根据权利要求1所述的模型微调方法,其特征在于,所述确定每个所述门控矩阵中的各所述对角元素对所述预训练模型的影响力分数,包括:

3.根据权利要求2所述的模型微调方法,其特征在于,所述确定所述对角元素αij对应的第一对比模型组和/或第二对比模型组,包括:

4.根据权利要求2所述的模型微调方法,其特征在于,所述根据第一损失值组和/或第二损失值组,确定所述对角元素αij对所述预训练模型的影响力分数,包括:

5.根据权利要求1所述的模型微调方法,其特征在于,所述根据每个所述门控矩阵中的各所述对角元素对所述预训练模型的影响力分数,确定多个目标对角元素,包括:

6.根据权利要求1-5中任一项所述的模型微调方法,其特征在于,所述验证样本数据集包括多个验证样本...

【专利技术属性】
技术研发人员:朱威
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1