多任务大模型训练方法及装置制造方法及图纸

技术编号:41932148 阅读:16 留言:0更新日期:2024-07-05 14:27
本说明书实施例涉及多任务大模型训练方法及装置,所述方法包括对所述大模型的旁路任务网络进行微调,所述旁路任务网络包括S个适配器,任务路由网络以及适配器路由网络;所述微调包括:首先,利用所述任务路由网络,确定输入的第一文本归属于各个任务类型的第一权重;接下来,利用所述适配器路由网络,确定各个任务类型关于各个适配器的第二权重;然后,根据所述第一权重和第二权重,组合所述S个适配器分别处理所述第一文本的处理结果,得到所述旁路任务网络的旁路输出,所述旁路输出用于得到预测结果,所述预测结果用于更新所述旁路任务网络。

【技术实现步骤摘要】

本说明书一个或多个实施例涉及人工智能领域,尤其涉及一种多任务大模型训练方法及装置


技术介绍

1、随着大语言模型(large language models,llms)的参数量不断增加,训练这些大语言模型以及衍生的多模态模型所需要的计算资源数量也在不断增加。在这种情况下,参数高效微调方法(parameter-efficient fine-tuning,peft)作为一种简便且高效的微调方法被提出。这种方法通过在保留原始模型的参数不变的同时,通过调整模型旁路的适配器(adapter)中的参数,以实现对模型的微调。

2、在多任务学习的场景下,如果想让大模型同时适用于多种任务类型的任务,则需要在多个任务类型的数据集上分别或同时对大模型进行微调。然而,在现实场景中,存在着大量的不包含任务类型的样本数据,对这些样本数据进行任务分类需要极高的成本,同时,一部分样本数据本身便难以被归类为某个具体的任务类型。因此,需要一种更好的方法,在训练样本集中的训练样本不包含任务类型的情况下,在多任务场景下对大模型进行微调,使得微调后的大模型能够同时适用于多种任务类型的任本文档来自技高网...

【技术保护点】

1.一种多任务大模型训练方法,包括对所述大模型的旁路任务网络进行微调,所述旁路任务网络包括S个适配器、任务路由网络以及适配器路由网络;所述微调包括:

2.根据权利要求1所述的方法,其中,所述任务路由网络包括确定输入文本归属于T个预设任务类型中各个任务类型的权重的第一权重函数;利用所述任务路由网络,确定输入的第一文本归属于各个任务类型的第一权重,包括:

3.根据权利要求2所述的方法,其中,所述第一权重函数中包含可学习的第三权重矩阵,其行列数目分别为T以及嵌入向量的维度d;根据所述第一文本对应的第一嵌入向量以及所述第一权重函数,确定第一文本归属于各个任务类型的第一权重...

【技术特征摘要】

1.一种多任务大模型训练方法,包括对所述大模型的旁路任务网络进行微调,所述旁路任务网络包括s个适配器、任务路由网络以及适配器路由网络;所述微调包括:

2.根据权利要求1所述的方法,其中,所述任务路由网络包括确定输入文本归属于t个预设任务类型中各个任务类型的权重的第一权重函数;利用所述任务路由网络,确定输入的第一文本归属于各个任务类型的第一权重,包括:

3.根据权利要求2所述的方法,其中,所述第一权重函数中包含可学习的第三权重矩阵,其行列数目分别为t以及嵌入向量的维度d;根据所述第一文本对应的第一嵌入向量以及所述第一权重函数,确定第一文本归属于各个任务类型的第一权重,包括:

4.根据权利要求3所述的方法,使用自注意力机制处理所述第一嵌入向量,得到自注意力向量,包括:

5.根据权利要求1所述的方法,根据所述第一权重和第二权重,组合所述s个适配器分别处理所述第一文本的处理结果,得到所述旁路任务网络的旁路输出,包括:

6.根据权利要求5所述的方法,其中,所述第二权重为矩阵,其中第i行第j列的第二权重参数指示第i个适配器在第j个任务类型下的权重;所述第一权重为向量,其中第k个位置的第一权重参数指示所述第一文本归属于第k个任务类型的权重。

7.根据权利要求6所述的方法,根据所述第二权重,基于各个任务类型将各个适配器的处理结果进行加权求和,得到t个任务类型对应的t个第一中间结果,包括:

【专利技术属性】
技术研发人员:王昊文孙涛
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1