多模态大模型分层自适应冻结微调方法及装置制造方法及图纸

技术编号:46623151 阅读:1 留言:0更新日期:2025-10-14 21:18
本申请涉及人工智能技术领域,公开了一种多模态大模型分层自适应冻结微调方法及装置,具体公开了:根据全量数据集子集对预训练多模态大模型进行训练,获得领域专家模型;将领域专家模型划分为多个结构层,对于每个结构层按照贡献度分配全局解冻参数配额;在每个结构层中,对各参数进行自适应重要性排序,并按照重要性排序顺序筛选出与对应的全局解冻参数配额数量一致的参数生成二进制掩码,其他参数冻结。最后根据二进制掩码对领域专家模型进行稀疏化训练。该方法克服了传统数据回放对旧任务数据或生成伪数据的依赖,且无需预设任务边界或人工干预,在保护预训练模型泛化能力的同时,实现高效、轻量化且隐私安全的持续学习。

【技术实现步骤摘要】

本申请涉及人工智能,具体涉及一种多模态大模型分层自适应冻结微调方法及装置


技术介绍

1、现有技术中模型在针对特定任务进行微调时,会因过度拟合新任务数据而导致对原有预训练阶段习得的通用知识与能力的显著退化,表现为模型在完成新任务的同时,在未参与微调的原始任务或通用场景中的性能大幅下降。该问题限制了模型在需要兼顾多任务能力或动态增量学习场景下的应用效果。

2、为缓解灾难性遗忘,现有研究主要围绕两类策略展开:一类是数据回放,该策略的核心思想是通过复用旧任务数据或生成伪数据,与新任务数据混合训练,以维持模型对旧知识的记忆。另一类是参数冻结与正则化,该策略的核心思想是通过限制模型参数的更新范围或引入轻量化模块,减少新任务训练对原有知识的覆盖。

3、但是,数据回放需依赖旧任务真实数据存储或生成伪数据,前者面临隐私泄露与存储成本问题,后者易因生成质量不足引入噪声导致训练不稳定。而参数冻结与正则化方法需预设参数重要性或任务边界,难以适应动态开放任务流(如弹性权重巩固依赖事后计算参数重要性,无法实时响应任务变化)。除此之外,动态架构扩展(如任务向量本文档来自技高网...

【技术保护点】

1.一种多模态大模型分层自适应冻结微调方法,其特征在于,所述方法包括:

2.根据权利要求1所述的多模态大模型分层自适应冻结微调方法,其特征在于,所述将所述领域专家模型划分为多个结构层,对于每个结构层按照贡献度分配全局解冻参数配额之前,所述方法包括:

3.根据权利要求2所述的多模态大模型分层自适应冻结微调方法,其特征在于,所述将领域专家模型划分为多个结构层,对于每个结构层按照贡献度分配全局解冻参数配额,包括:

4.根据权利要求3所述的多模态大模型分层自适应冻结微调方法,其特征在于,所述基于每个结构层中各参数的绝对变化量和总参数量按比例为每个结构层分配全局...

【技术特征摘要】

1.一种多模态大模型分层自适应冻结微调方法,其特征在于,所述方法包括:

2.根据权利要求1所述的多模态大模型分层自适应冻结微调方法,其特征在于,所述将所述领域专家模型划分为多个结构层,对于每个结构层按照贡献度分配全局解冻参数配额之前,所述方法包括:

3.根据权利要求2所述的多模态大模型分层自适应冻结微调方法,其特征在于,所述将领域专家模型划分为多个结构层,对于每个结构层按照贡献度分配全局解冻参数配额,包括:

4.根据权利要求3所述的多模态大模型分层自适应冻结微调方法,其特征在于,所述基于每个结构层中各参数的绝对变化量和总参数量按比例为每个结构层分配全局解冻参数配额,包括:

5.根据权利要求4所述的多模态大模型分层自适应冻结微调方法,其特征在于,所述在模型全局冻结参数预算下,根据每个结构层的平均更新量和总参数量,按比例分配全局解冻参数配额的公...

【专利技术属性】
技术研发人员:蔡新雨李斯琪沈宇帆石博天
申请(专利权)人:上海人工智能创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1