一种基于视觉-语言预训练模型的长尾多标记图像分类方法技术

技术编号：43537007 阅读：24 留言：0更新日期：2024-12-03 12:20

本发明专利技术公开了一种基于视觉‑语言预训练模型的长尾多标记图像分类方法，获取具有真实标记的多标记样本数据；将传统CLIP预训练模型模型中softmax层替换为sigmoid层，适应多标记任务；构建长尾多标记图像分类模型并对其进行训练；将语义融合特征与文本特征进行残差连接，与图像特征进行余弦相似度计算，并经过sigmoid得到预测概率；由重加权长尾损失函数对模型进行监督训练，并应用参数高效微调避免过拟合问题；针对待测试的图像数据，经过数据增强策略后，输入到训练后的模型中进行预测，最终获得标签的预测结果，实现长尾多标记图像分类。本发明专利技术充分利用了标签之间的相关性，缓解长尾类别分布引发的尾部类分类精度不足的影响，提高了多标记分类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器学习、多标记学习、长尾学习领域，具体涉及一种基于视觉-语言预训练模型的长尾多标记图像分类方法。

技术介绍

1、在长尾多标记问题中，一个样本能够同时关联多个标签，且这些标签的分布呈现长尾形式，即少数标签出现的频率较高，而大多数标签出现的频率较低。这类问题可能出现在生产与生活中的方方面面，例如，在医学诊断中，罕见疾病拥有少数量样本；在物种分类中，濒危动物拥有少数量样本。

2、目前，解决长尾多标记问题的多种方法，仅涉及了对图像本身特征的考量。通常情况下，这一任务会使用在imagenet数据集预训练的卷积神经网络作为特征提取器。为了更好地利用来自文本中的语义信息，研究者受到视觉-语言预训练模型的启发，提出一种基于类别感知边际的损失函数，通过使用额外获取的文本描述信息来增强类别之间的语义关系，以获得更细粒度的类别文本提示，从而辅助视觉模型的学习。尽管现有方法在处理长尾多标记问题时表现出了一定的有效性，但它仍然存在一些局限性。一方面，它们沿用了clip的模型结构，使用softmax层得到预测结果。然而，softmax无法很好地处理多标记场景中一个样本可能同时具有多个标签的情况。另一方面，对于标签相关性的构建，现有方法语义关系的构建存在不完整性。首先，引入的文本描述信息通常是由开源的图像-标题模型生成或者手动注释的，这既耗时又不可避免地会产生一些噪声。其次，与数据集相对应，文本描述仍然保留了长尾属性，使得模型可能无法捕捉到各种类别之间所有微妙的联系，这可能会限制模型在其他长尾多标记学习场景中的有效性。因此，现有方法的预测性能很有限。

技术实现思路

1、专利技术目的：本专利技术提出一种基于视觉-语言预训练模型的长尾多标记图像分类方法，用于处理训练数据呈长尾类别分布的多标记分类问题。

2、技术方案：本专利技术所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法，包括以下步骤：

3、(1)获取具有真实标记的多标记样本数据

4、(2)将传统clip预训练模型模型中softmax层替换为sigmoid层，使传统clip适应多标记任务；

5、(3)构建长尾多标记图像分类模型并对其进行训练；所述模型包括图像编码器、文本编码器和图卷积神经网络模块；

6、(4)针对待测试的图像数据，经过数据增强策略后，输入到训练后的模型中进行预测，最终获得标签的预测结果，实现长尾多标记图像分类。

7、进一步地，所述步骤(1)实现过程如下：

8、获取具有真实标记的多标记样本数据其中(xk,yk)表示一个样本标签对，是样本xk对应的标签集，n表示收集的多标记样本数量；该数据集呈现长尾类别分布，即其中一小部分类别有大量的样本数据，而其他类别只与少数样本相关联。

9、进一步地，所述步骤(2)实现过程如下：

10、将给定的模板“a photo of a[cls]”提示词经过文本编码器得到对应类别的文本嵌入，并计算各类别文本嵌入之间的余弦相似度，以构建近邻图，其中[cls]替换为类名；随着训练过程图中所有节点特征趋于一致，引入超参数对近邻图进行重加权，使得在更新节点特征时，节点本身将被分配一个固定的权重，并且相关节点的权重将由邻域分布确定；节点经过softmax归一化后，取图对应的邻接矩阵作为包含丰富类别语义关系的相关矩阵。

11、进一步地，步所述骤(3)实现过程如下：

12、s1：将相关性矩阵a*和可学习的软提示经过文本编码器输出的类别特征作为图卷积神经网络模块的输入，得到语义融合的特征；训练图像作为图像编码器的输入，得到的图像特征；软提示座作为文本编码器的输入，得到文本特征；

13、s2：语义融合特征与文本特征进行残差连接，与图像特征进行余弦相似度计算，并经过sigmoid得到预测概率；

14、s3：由重加权长尾损失函数对模型进行监督训练，并应用参数高效微调避免过拟合问题。

15、进一步地，所述s1实现过程如下：

16、训练图像xk被送入ei(xk)得到图像特征fx，由类别的文本提示：

17、

18、组成的t被送入et(t)得到文本嵌入ft；其中，c∈{1,…,c}、m∈{1,…,m}、cls]token由特定的类名替换；[v]m表示一个可学习的词嵌入，m是一个超参数，指定上下文token的数量；

19、图卷积神经网络模块将接收a*和ft作为输入，将标签之间的语义对应关系封装到输出的hl特征中。

20、进一步地，所述s2实现过程如下：

21、文本嵌入ft与hl进行残差连接得到改进后的文本嵌入计算得到的预测概率：

22、

23、其中，τ是温度参数，σ是sigmoid函数，sim(·,·)表示余弦相似度。

24、进一步地，所述s3实现过程如下：

25、损失函数的重加权权重r基于类别频率nc/n计算得到：

26、

27、其中，α、β、θ为可调整的超参数，用于调整各类别权重分布；损失函数被设计为：

28、

29、其中，表示类别c的标签，对于正样本预测概率对于负样本预测概率,对应模型输出的loigt，vc是类属偏差值，被定义为：

30、

31、其中，κ、ζ为可调整的超参数，用于调整模型对各类别预测偏差；在训练过程中，文本编码器的参数被固定，文本提示为可学习的软提示；图像编码器应用参数高效微调技术，对特定于任务的小部分参数进行学习；图卷积神经网络模块随着训练的进行，参数被更新。

32、进一步地，所述步骤(4)实现过程如下：

33、图像x的大小被重新调整为(224+e)×(224+e)，得到x'；裁剪x'中心224×224的部分，记为xc；裁剪x'左上224×224的部分，记为xtl；裁剪x'右上224×224的部分，记为xtr；裁剪x'左下224×224的部分，记为xbl；裁剪x'右下224×224的部分，记为xbr；将{xc,xtl,xtr,xbl,xbr}均匀分割成m个补丁图像经过长尾多标记图像分类模型后得到logit{zc,ztl,ztr,zbl,zbr}；logit结果为z＝average(zc+ztl+ztr+zbl+zbr)；测试图像x的预测概率为p＝σ(z)。

34、进一步地，所述[v]m与词汇表中常规词嵌入具有相同的维度。

35、进一步地，所述m为196，每个补丁的大小为16×16。

36、有益效果：与现有技术相比，本专利技术的有益效果为：本专利技术解决了现实应用数据呈长尾类别分布，导致的模型倾向于将尾部类别预测为头部类别的偏差；并且利用一个实例与多个标签相关联的特性，从文本语义层面显式地构建了标签相关性，基于标签关联建模，模型在训练过程中努力提高语义相关标签的预测概率，以便将头部类学习到的丰富信息传递给尾部类，提高了多标记分类的准确性本文档来自技高网...

【技术保护点】

1.一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，所述步骤(1)实现过程如下：

3.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，所述步骤(2)实现过程如下：

4.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，步所述骤(3)实现过程如下：

5.根据权利要求4所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，所述S1实现过程如下：

6.根据权利要求4所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，所述S2实现过程如下：

7.根据权利要求4所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，所述S3实现过程如下：

8.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，所述步骤(4)实现过程如下：p>

9.根据权利要求5所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，所述[V]m与词汇表中常规词嵌入具有相同的维度。

10.根据权利要求8所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，所述m为196，每个补丁的大小为16×16。

...

【技术特征摘要】

1.一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，所述步骤(1)实现过程如下：

3.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，所述步骤(2)实现过程如下：

4.根据权利要求1所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，步所述骤(3)实现过程如下：

5.根据权利要求4所述的一种基于视觉-语言预训练模型的长尾多标记图像分类方法，其特征在于，所述s1实现过程如下：

6.根据权利要求4所述的一...

【专利技术属性】
技术研发人员：魏通，王佐正，张敏灵，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人