一种基于多视角学习的医疗混合专家微调方法技术

技术编号:46375023 阅读:4 留言:0更新日期:2025-09-15 12:54
本发明专利技术公开了一种基于多视角学习的医疗混合专家微调方法。本发明专利技术包括以下步骤:首先,模型针对多个目标任务分类进行表示增强训练。通过使用注意力‑前馈神经网络适配器进行参数高效微调,分别训练不同任务的专家模块,增强模型对各类任务的表征能力。其次,提取上一步训练产生的模型增量参数,将其视为专家模块。通过路由器网络连接混合多次训练获得的不同分类专家模块,并使用混合分类下游任务数据集进行二次训练。最后,采用稠密路由器网络。同时,模型能够在联合多任务专家中,学习不同任务中的潜在联系,使得模型能够利用多视角来解决不同类型的问题。

【技术实现步骤摘要】

本专利技术属于自然语言处理,具体来说涉及大语言模型训练,更具体地说,涉及提供了一种基于多视角学习的医疗混合专家微调方法


技术介绍

1、随着大语言模型逐步渗透到医疗领域,其在多任务场景下的综合能力成为研究焦点。不同于通用领域,医疗文本具有显著的专业性特征,其术语密度高且语义空间特异,同时不同任务类型异构性强,包含情景理解、知识推理等。其次,医学决策对模型输出的准确性、可解释性有严苛要求。

2、传统全参数微调方法虽能提升领域适应性,但面临高昂的计算成本与数据需求,而主流参数高效微调方法受限于有限的参数调整空间,难以同时捕获多任务间的共性与特性知识。具体而言,固定结构的独立适配器模块难以动态适应不同任务的语义分布差异,导致知识迁移过程中出现表征冲突。这一现象的主要原因是参数高效微调方法在任务多样性场景中的本质矛盾:有限的可调参数与复杂的知识表示需求之间的不匹配。

3、在此背景下,混合专家机制为上述问题提供了新的解决思路,通过为不同任务分配专门的“专家”模块,并通过路由器控制,确保仅与当前任务相关的专家参与推理。此种方法能够控制模型的计算本文档来自技高网...

【技术保护点】

1.一种基于多视角学习的医疗混合专家微调方法,其特征在于包括以下步骤:

2.根据权利要求1所述的一种基于多视角学习的医疗混合专家微调方法,其特征在于,所述的步骤S1具体包括:

3.根据权利要求1所述的一种基于多视角学习的医疗混合专家微调方法,其特征在于,所述的步骤S2具体包括:

4.根据权利要求1所述的一种基于多视角学习的医疗混合专家微调方法,其特征在于,所述的步骤S3具体包括:

【技术特征摘要】

1.一种基于多视角学习的医疗混合专家微调方法,其特征在于包括以下步骤:

2.根据权利要求1所述的一种基于多视角学习的医疗混合专家微调方法,其特征在于,所述的步骤s1具体包括:

3.根据权...

【专利技术属性】
技术研发人员:张维彦阮彤袁铖叶琪刘井平
申请(专利权)人:华东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1