当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于视觉-语言预训练模型的长尾多标记图像分类方法技术

技术编号:43537007 阅读:35 留言:0更新日期:2024-12-03 12:20
本发明专利技术公开了一种基于视觉‑语言预训练模型的长尾多标记图像分类方法,获取具有真实标记的多标记样本数据;将传统CLIP预训练模型模型中softmax层替换为sigmoid层,适应多标记任务;构建长尾多标记图像分类模型并对其进行训练;将语义融合特征与文本特征进行残差连接,与图像特征进行余弦相似度计算,并经过sigmoid得到预测概率;由重加权长尾损失函数对模型进行监督训练,并应用参数高效微调避免过拟合问题;针对待测试的图像数据,经过数据增强策略后,输入到训练后的模型中进行预测,最终获得标签的预测结果,实现长尾多标记图像分类。本发明专利技术充分利用了标签之间的相关性,缓解长尾类别分布引发的尾部类分类精度不足的影响,提高了多标记分类的准确性。

【技术实现步骤摘要】

本专利技术属于机器学习、多标记学习、长尾学习领域,具体涉及一种基于视觉-语言预训练模型的长尾多标记图像分类方法


技术介绍

1、在长尾多标记问题中,一个样本能够同时关联多个标签,且这些标签的分布呈现长尾形式,即少数标签出现的频率较高,而大多数标签出现的频率较低。这类问题可能出现在生产与生活中的方方面面,例如,在医学诊断中,罕见疾病拥有少数量样本;在物种分类中,濒危动物拥有少数量样本。

2、目前,解决长尾多标记问题的多种方法,仅涉及了对图像本身特征的考量。通常情况下,这一任务会使用在imagenet数据集预训练的卷积神经网络作为特征提取器。为了更好地利用来自文本中的语义信息,研究者受到视觉-语言预训练模型的启发,提出一种基于类别感知边际的损失函数,通过使用额外获取的文本描述信息来增强类别之间的语义关系,以获得更细粒度的类别文本提示,从而辅助视觉模型的学习。尽管现有方法在处理长尾多标记问题时表现出了一定的有效性,但它仍然存在一些局限性。一方面,它们沿用了clip的模型结构,使用softmax层得到预测结果。然而,softmax无法很好地处理多标记场本文档来自技高网...

【技术保护点】

1.一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,所述步骤(1)实现过程如下:

3.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,所述步骤(2)实现过程如下:

4.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,步所述骤(3)实现过程如下:

5.根据权利要求4所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,所述S1实...

【技术特征摘要】

1.一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,所述步骤(1)实现过程如下:

3.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,所述步骤(2)实现过程如下:

4.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,步所述骤(3)实现过程如下:

5.根据权利要求4所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,所述s1实现过程如下:

6.根据权利要求4所述的一...

【专利技术属性】
技术研发人员:魏通王佐正张敏灵
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1