当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于知识增强的多模态大模型小样本分类方法技术

技术编号:44260015 阅读:22 留言:0更新日期:2025-02-14 22:05
本发明专利技术公开了一种基于知识增强的多模态大模型小样本分类方法,涉及人工智能和计算机视觉领域,方法包括:收集多场景图像数据集,将基类、新类数据构建为符合元学习范式的小样本指令微调集和测试集;对微调集的图片与文本标签进行增强,并输入多模态大模型进行微调;在推理阶段,随机选择历史对话和测试集中的指令,一同输入微调后的模型获取初始分类结果;之后,对每张图像生成多条属性描述,计算图像间描述相似性并排序,以筛选可靠候选答案;最终,判断初始答案的可靠性,若不可靠,则利用新的候选答案构建指令重新推理。本发明专利技术通过基于微调和推理双阶段的知识增强方法,提升了多模态大模型的小样本分类能力,适用于通用和细粒度分类任务。

【技术实现步骤摘要】

本专利技术涉及人工智能、计算机视觉领域,特别是一种基于知识增强的多模态大模型小样本分类方法


技术介绍

1、随着深度学习技术和大规模数据集的快速发展,机器视觉领域取得了显著进展。然而,在实际应用中,标注数据的稀缺仍然是制约深度学习模型性能提升的关键瓶颈。相比之下,人类具备从少量示例中迅速学习和识别新类别的能力,这启发了小样本学习的研究。小样本学习旨在使模型在仅有少量标注数据的情况下,也能高效学习新的概念和类别,增强其在数据稀缺环境下的泛化能力。近年来的研究包括设计初始网络参数以快速适应新类,或构建强大的视觉嵌入网络来学习样本间的相似性度量。然而,这些方法在处理每个类别中语义特征最小的外围样本时,表现仍然不够鲁棒。

2、为了进一步提升模型在小样本条件下的分类能力,一些研究引入了跨模态信息,特别是利用自然语言增强图像的语义信息。通过构建文本原型或利用文本描述来修正分类器,研究者们在语义对齐和样本丰富性上取得了一定的成果。近年来,多模态大模型的发展为文本与图像间的高质量对齐提供了可能性,这些模型通过大规模的多模态数据集预训练,积累了丰富的语义知识,并本文档来自技高网...

【技术保护点】

1.一种基于知识增强的多模态大模型小样本分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于知识增强的多模态大模型小样本分类方法,其特征在于,所述步骤1的具体过程为:

3.根据权利要求2所述的基于知识增强的多模态大模型小样本分类方法,其特征在于,所述步骤1-2中的小样本任务形式的指令格式为:

4.根据权利要求1所述的基于知识增强的多模态大模型小样本分类方法,其特征在于,所述步骤2的具体过程为:

5.根据权利要求4所述的基于知识增强的多模态大模型小样本分类方法,其特征在于,所述步骤2-3中,采用LoRA微调,具体的是,使用LoR...

【技术特征摘要】

1.一种基于知识增强的多模态大模型小样本分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于知识增强的多模态大模型小样本分类方法,其特征在于,所述步骤1的具体过程为:

3.根据权利要求2所述的基于知识增强的多模态大模型小样本分类方法,其特征在于,所述步骤1-2中的小样本任务形式的指令格式为:

4.根据权利要求1所述的基于知识增强的多模态大模型小样本分类方法,其特征在于,所述步骤2的具体过程为:

5.根据权利要求4所述的基于知识增强的多模态大模型小样本分类方法,其特征在于,所述步骤2-3中,采用lora微调,具体的是,使用lora低秩分解来更新多模态大模型的适配器,其余视觉编码器和语言模型部分的参数固定;在适配器旁增加一个旁路,用随机高斯分布初始化矩阵a,用零矩阵初始化矩...

【专利技术属性】
技术研发人员:刘凡蔡雯雯霍健张传一蔡镇锽安悦瑄吴铭
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1