一种基于大模型微调的多模态小样本图像分类方法技术

技术编号:41371401 阅读:17 留言:0更新日期:2024-05-20 10:17
本发明专利技术涉及计算机视觉技术领域,公开了一种基于大模型微调的多模态小样本图像分类方法,包括:图像文本对的预处理;多模态特征的提取;构建基于CLIP大模型微调的多模态小样本分类模型;类别预测:将测试图像输入到完成训练的分类模型的图像编码器后,得到图像特征,利用余弦分类器,对图像特征与类原型字典中的所有多模态特征的余弦相似度进行计算,相似度最高的多模态特征所述的类别,即为测试图像的预测类别。本发明专利技术在视觉‑语言大模型的基础之上,迁移大模型中丰富的多模态信息到特定的图像分类任务上,既通过大模型蕴含的丰富知识来补充数据不足的问题,又充分挖掘图像数据的信息,以实现更加高效的小样本图像分类方法。

【技术实现步骤摘要】

本专利技术涉及计算机视觉,具体涉及一种基于大模型微调的多模态小样本图像分类方法


技术介绍

1、处于大数据时代的现实生活中,充满了各种模态的数据,例如图像、文本、语音、视频等,大规模的数据推动着视觉-语言大模型的快速发展。然而,由于隐私、安全等因素,许多领域往往难以获取大量的可用信息,例如卫星图像处理、智能交通和医学影像诊断等领域。在这些领域中,获取大规模监督数据的成本高昂且要求苛刻,这大大限制了模型的泛化性能。如何有效地利用小样本数据来训练高性能模型,以弥补数据不足,是机器学习的关键挑战之一。

2、现有的基于大模型的小样本图像分类技术,一般通过挖掘多模态数据之间的相关性,来提升图像分类任务的性能。但是,由于过度关注于研究多模态之间的相关性,忽略了图像本身的信息,对于小样本图像分类方法来说,有效提取图像蕴含的信息是至关重要的。


技术实现思路

1、为解决上述技术问题,本专利技术提供一种基于大模型微调的多模态小样本图像分类方法,本专利技术在视觉-语言大模型的基础之上,迁移大模型中丰富的多模态信息到特定本文档来自技高网...

【技术保护点】

1.一种基于大模型微调的多模态小样本图像分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方法,其特征在于,所述每层transformer层包括多头注意力层和多层感知器。

3.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方法,其特征在于,步骤二中,所述基于图像特征和文本特征计算第i个类别的图像原型特征Vi和文本原型特征Ti,具体包括:

4.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方法,其特征在于,步骤二中,所述采用先行加权的方式融合图像原型特征Vi和文本原型特征Ti得到第i个类...

【技术特征摘要】

1.一种基于大模型微调的多模态小样本图像分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方法,其特征在于,所述每层transformer层包括多头注意力层和多层感知器。

3.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方法,其特征在于,步骤二中,所述基于图像特征和文本特征计算第i个类别的图像原型特征vi和文本原型特征ti,具体包括:

4.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方...

【专利技术属性】
技术研发人员:刘学亮苏玉玲闫坤祺郭丹洪日昌汪萌蒋贻顺
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1