基于解码器迭代筛选的鲁棒噪声多标签图像学习方法技术

技术编号：35553117 阅读：12 留言：0更新日期：2022-11-12 15:33

本发明专利技术属于图像学习技术领域，公开了一种基于解码器迭代筛选的鲁棒噪声多标记图像学习方法。该方法针对多标记图像分类存在多标、漏标和错标的问题，提出采用基于解码器的迭代筛选噪声机制，以恢复样本的错误标注，从而提升深度学习模型在噪声多标记上的准确率，具体包括如下步骤：获取训练图像集及多标签噪声标注；初始化各项参数；搭建深度学习模型、损失函数以及正则化项；将训练集图像及标注依次输入多标记分类器；每次迭代筛选时调整模型状态以检测噪声标记，为噪声样本重新预测伪标记，统计标记共现概率并输入标记模型进行微调；训练完成后，使用训练获得的分类器对图像进行类别预测任务。预测任务。预测任务。

全部详细技术资料下载

【技术实现步骤摘要】
基于解码器迭代筛选的鲁棒噪声多标签图像学习方法

[0001]本专利技术涉及一种基于解码器迭代筛选的鲁棒噪声多标记图像学习方法。

技术介绍

[0002]多标记分类旨在预测与输入图像中给定的对象、属性或其他动作相对应的一组标记，这通常依赖于一个相当大的、干净的多标记数据集。在实践中，为每张图像标注完全正确的多标记数据需要极高的成本，因此，标注中会包含大量噪声。传统的多标记分类通过学习标记共现去刻画标记关系图，利用标记关系图训练模型。虽然传统的多标记分类解决了图像预测信息匮乏的问题，然而却忽视了获取完全干净的数据集需要极大的成本。
[0003]目前新兴的偏多标记学习，即每个图像都带有一个候选标记集，包含所有相关的和一些不相关的标记，通过评估置信度来确定标记。部分缺失的多标记学习，只包含所有相关标记的一个子集，利用标记关系去恢复所有标记。它们虽然都考虑了数据集标注不可能完全正确的情况，但无法处理更复杂的噪声情况，即同时包含多标、漏标和错标的标记情况。

技术实现思路

[0004]本专利技术的目的在于提出一种基于解码器迭代筛选的鲁棒噪声多标记图像学习方法，以进一步提升在多标记噪声，即同时包含多标、漏标和错标场景下的准确率。
[0005]本专利技术为了实现上述目的，采用如下技术方案：基于解码器迭代筛选的鲁棒噪声多标记图像学习方法，包括如下步骤：步骤1. 获取数据集D={(x
i
,y
i
)}，D表示由通过网络平台获取的图像x
i
及其对应的包含噪声的...

【技术保护点】

【技术特征摘要】
1.基于解码器迭代筛选的鲁棒噪声多标记图像学习方法，其特征在于，包括如下步骤：步骤1. 获取数据集D={(x
i
,y
i
)}，D表示由通过网络平台获取的图像x
i
及其对应的包含噪声的多标记向量y
i
组成的训练数据集，y
i
=[ y
1i
, y
2i ,...,y
li
]，i∈{1,N}；y
mi
表示第i个样本对应于第m类的标记，m∈{1,l}；其中，N表示数据集D中的样本总数，l表示数据集D中的类别总数；步骤2. 初始化各项参数，包括：迭代轮数τ=0、筛选噪声率R、伪标记阈值μ、预训练参数t
warm
、筛选参数t
c
、学习率η以及类的高维语义嵌入{v
m
}，m∈{1,l}；其中，v
m
表示第m类的高维语义嵌入；步骤3. 搭建深度学习模型即分类器C、二元交叉熵损失函数L
BCE
以及正则化项；其中，正则化项包括标记语义正则化项L
LSR
以及标记关系正则化项L
LRR
；步骤4. 在Warm
‑
up训练阶段，将数据集D中图像x
i
及其对应的多标记向量y
i
送入分类器C中训练t
warm
轮，优化二元交叉熵损失函数L
BCE
和标记语义正则化项L
LSR
来更新C；步骤5. 在迭代筛选阶段，调整模型状态，记录每个标记在调整过程中规范化损失以检测噪声；将规范化损失由大到小进行排序，并取排序的前R%的标记对应的样本为噪声样本集D
noisy
，剩余为干净样本集D
clean
；步骤 6. 使用分类器C依次为噪声样本集D
noisy
中每个样本x
i
进行类别预测，并取预测类别概率值大于伪标记阈值μ的类别作样本x
i
的伪标记，构成伪标记集D
pseudo
；步骤 7. 统计数据集{D
pseudo
, D
clean
}中标记的共现概率；步骤 8. 将数据集{D
pseudo
, D
clean
}重新输入分类器C，优化二元交叉熵损失函数L
BCE
和标记关系正则化项L
LRR
来微调分类器C；步骤 9. 判断当前迭代次数τ是否达到最大迭代次数T；若当前迭代次数τ未达到最大迭代次数T，则返回步骤5继续迭代训练，τ=τ+1；否则，转到步骤10；步骤10. 模型训练完成之后，得到能够在多标记数据集上完成可靠分类性能的分类器C；利用训练好的分类器C执行分类预测任务。2.根据权利要求1所述的鲁棒噪声多标记图像学习方法，其特征在于，所述分类器C由一个预训练的残差网络构成的特征提取器和一个Transformer解码器组成；其中，残差网络最后的全连接层替换为解码器，解码器中删除了自注意力模块；残差网络用于提取图像特征，并将图像映射到高维特征空间；Transformer解码器对映射后的特征进行预测概率，映射到l维的预测概率向量。3.根据权利要求1所述的鲁棒噪声多标记图像学习方法，其特征在于，所述步骤5具体为：步骤 5.1. 定义循环筛选轮数t
c
和最大循环轮数T
c
，初始化t
c
=0；步骤 5.2. 按照如下公式调整模型的学习率η，以改变模型的拟合状态：η=η
min
+1/2(η
max
－η
min
)(1+cos((t
c
·
π)/T
c
))；其中，η
min
和η
max
分别表示模型训练中最小学习率和最大学习率；步骤 5.3. 将数据集D中每个样本(x
i
,y
i
)输入分类器C，得到类别预测结果=C(x
i
)；利用二元交叉熵损失函数L
BCE
，计算每个样本(x
i
,y
i
)的预测结果的损失值I
...

【专利技术属性】
技术研发人员：李绍园，陈佳瑶，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人