多模态多任务医疗大模型训练方法及装置制造方法及图纸

技术编号:41504640 阅读:18 留言:0更新日期:2024-05-30 14:45
本说明书实施例涉及多模态多任务医疗大模型训练方法及装置,所述方法包括对所述大模型的旁路任务网络进行微调,所述旁路任务网络包括S个适配器、跨模态任务路由网络以及适配器路由网络;所述微调包括:首先,获取第一文本和第一图像对应的组合嵌入向量;然后,利用所述跨模态任务路由网络,确定所述组合嵌入向量归属于各个任务类型的第一权重;接下来,利用所述适配器路由网络,确定各个任务类型关于各个适配器的第二权重;最后,根据所述第一权重和第二权重,组合所述S个适配器分别处理所述组合嵌入向量的处理结果,得到所述旁路任务网络的旁路输出,所述旁路输出用于得到预测结果,所述预测结果用于更新所述旁路任务网络。

【技术实现步骤摘要】

本说明书一个或多个实施例涉及人工智能领域,尤其涉及一种多模态多任务医疗大模型训练方法及装置


技术介绍

1、随着大语言模型(large language models, llms)的参数量不断增加,训练这些大语言模型以及衍生的多模态模型(以下统称为大模型)所需要的计算资源数量也在不断增加。在这种情况下,参数高效微调方法(parameter-efficient fine-tuning, peft)作为一种简便且高效的微调方法被提出。这种方法在保留原始模型的参数不变的同时,在大模型需要微调的网络层(layer)的旁路设置适配器(adapter),通过调整适配器中的参数,以实现对大模型的微调。由于适配器中的参数数量远远少于其对应的大模型网络层,所以peft方法可以减少微调时的计算量。

2、在多任务学习的场景下,如果想让大模型同时适用于多种任务类型的任务,则需要在多个任务类型的数据集上分别或同时对大模型进行微调。然而,在现实场景中,存在着大量的不包含任务类型的样本数据,对这些样本数据进行任务分类需要极高的成本,同时,一部分样本数据本身便难以被归类为某个本文档来自技高网...

【技术保护点】

1.一种多模态多任务医疗大模型训练方法,包括对所述大模型的旁路任务网络进行微调,所述旁路任务网络包括S个适配器、跨模态任务路由网络以及适配器路由网络;所述微调包括:

2.根据权利要求1所述的方法,其中,所述跨模态任务路由网络包括第一MLP和第二MLP;所述组合嵌入向量由文本向量和图像向量拼接得到;利用所述跨模态任务路由网络,确定所述组合嵌入向量归属于各个任务类型的第一权重,包括:

3.根据权利要求2所述的方法,其中,当所述旁路任务网络对应于所述大模型的输入层时,所述文本向量和所述图像向量分别是由预先对齐训练好的文本编码器和图像编码器生成的、位于相同潜在空间的向量;...

【技术特征摘要】

1.一种多模态多任务医疗大模型训练方法,包括对所述大模型的旁路任务网络进行微调,所述旁路任务网络包括s个适配器、跨模态任务路由网络以及适配器路由网络;所述微调包括:

2.根据权利要求1所述的方法,其中,所述跨模态任务路由网络包括第一mlp和第二mlp;所述组合嵌入向量由文本向量和图像向量拼接得到;利用所述跨模态任务路由网络,确定所述组合嵌入向量归属于各个任务类型的第一权重,包括:

3.根据权利要求2所述的方法,其中,当所述旁路任务网络对应于所述大模型的输入层时,所述文本向量和所述图像向量分别是由预先对齐训练好的文本编码器和图像编码器生成的、位于相同潜在空间的向量;

4.根据权利要求2所述的方法,分别以所述图像向量和文本向量为基础,进行交叉注意力计算,得到第一注意力向量和第二注意力向量,包括:

5.根据权利要求1所述的方法,根据所述第一权重和第二权重,组合所述s个适配器分别处理所述组合嵌入向量的处理结果,得到所述旁路任务网络的旁路输出,包括:

6.根据权利要求5所述的方法,其中,所述第二权重为矩阵,其中第i行第j列的第二权重参数指示第i个适配器在第j个任务类型下的权重;所述第一权重为向量,其中第k个位置的第一权重参数指示所述组合嵌入向量归属于第k个任务类型的权重。

7.根据权利要求6所述的方法,其中,所述第一加权求和,包括:

8.根据权利要求7所述的方法,根据所述各个适配器的第二权重参数,确定各个处理结果的权重因子,包括:

9...

【专利技术属性】
技术研发人员:王昊文
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1