【技术实现步骤摘要】
本专利技术属于机器学习、多标记学习、长尾学习领域,具体涉及一种基于视觉-语言预训练模型的长尾多标记图像分类方法。
技术介绍
1、在长尾多标记问题中,一个样本能够同时关联多个标签,且这些标签的分布呈现长尾形式,即少数标签出现的频率较高,而大多数标签出现的频率较低。这类问题可能出现在生产与生活中的方方面面,例如,在医学诊断中,罕见疾病拥有少数量样本;在物种分类中,濒危动物拥有少数量样本。
2、目前,解决长尾多标记问题的多种方法,仅涉及了对图像本身特征的考量。通常情况下,这一任务会使用在imagenet数据集预训练的卷积神经网络作为特征提取器。为了更好地利用来自文本中的语义信息,研究者受到视觉-语言预训练模型的启发,提出一种基于类别感知边际的损失函数,通过使用额外获取的文本描述信息来增强类别之间的语义关系,以获得更细粒度的类别文本提示,从而辅助视觉模型的学习。尽管现有方法在处理长尾多标记问题时表现出了一定的有效性,但它仍然存在一些局限性。一方面,它们沿用了clip的模型结构,使用softmax层得到预测结果。然而,softmax无
...【技术保护点】
1.一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,所述步骤(1)实现过程如下:
3.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,所述步骤(2)实现过程如下:
4.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,步所述骤(3)实现过程如下:
5.根据权利要求4所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其
...【技术特征摘要】
1.一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,所述步骤(1)实现过程如下:
3.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,所述步骤(2)实现过程如下:
4.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,步所述骤(3)实现过程如下:
5.根据权利要求4所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法,其特征在于,所述s1实现过程如下:
6.根据权利要求4所述的一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。