【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种基于低秩适配的模型微调方法、装置、服务器及存储介质。
技术介绍
1、随着企业、组织或医院所使用的人工智能系统中的预训练模型越来越庞大,导致企业、组织或医院无法针对每一个任务都部署一个模型,但通过参数微调方法对不同的任务仅需要微调较少的参数,即可将大的预训练模型适配到任务上,从而节约所需的训练数据以及减少了梯度和优化器所占显卡内存空间。例如,在医疗场景下,一个大模型主干需要支持:体检报告抽取、病例理解、知识问答和病患管理等多个任务,通过参数微调算法对体检报告抽取、病例理解、知识问答和病患管理等任务微调大模型的较少参数,从而将大的预训练模型适配到体检报告抽取、病例理解、知识问答和病患管理等多个任务上。
2、目前,常用的参数微调方法主要是低秩适配方法,其针对预训练模型的权重矩阵w0,可以用低秩分解表示权重的变化量δw,也即w0+δw=w0+ba,其中b和a是待学习的参数矩阵,且都是低秩的,b的维数为d*k,a的维数为k*d,d是预训练模型的隐状态维度,k是秩数,是低秩适配方法最核心的超参数,但标准的
...【技术保护点】
1.一种基于低秩适配的模型微调方法,其特征在于,包括:
2.根据权利要求1所述的模型微调方法,其特征在于,所述确定每个所述门控矩阵中的各所述对角元素对所述预训练模型的影响力分数,包括:
3.根据权利要求2所述的模型微调方法,其特征在于,所述确定所述对角元素αij对应的第一对比模型组和/或第二对比模型组,包括:
4.根据权利要求2所述的模型微调方法,其特征在于,所述根据第一损失值组和/或第二损失值组,确定所述对角元素αij对所述预训练模型的影响力分数,包括:
5.根据权利要求1所述的模型微调方法,其特征在于,所述根据每个所
...【技术特征摘要】
1.一种基于低秩适配的模型微调方法,其特征在于,包括:
2.根据权利要求1所述的模型微调方法,其特征在于,所述确定每个所述门控矩阵中的各所述对角元素对所述预训练模型的影响力分数,包括:
3.根据权利要求2所述的模型微调方法,其特征在于,所述确定所述对角元素αij对应的第一对比模型组和/或第二对比模型组,包括:
4.根据权利要求2所述的模型微调方法,其特征在于,所述根据第一损失值组和/或第二损失值组,确定所述对角元素αij对所述预训练模型的影响力分数,包括:
5.根据权利要求1所述的模型微调方法,其特征在于,所述根据每个所述门控矩阵中的各所述对角元素对所述预训练模型的影响力分数,确定多个目标对角元素,包括:
6.根据权利要求1-5中任一项所述的模型微调方法,其特征在于,所述验证样本数据集包括多个验证样本...
【专利技术属性】
技术研发人员:朱威,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。