基于解码器迭代筛选的鲁棒噪声多标签图像学习方法技术

技术编号:35553117 阅读:12 留言:0更新日期:2022-11-12 15:33
本发明专利技术属于图像学习技术领域,公开了一种基于解码器迭代筛选的鲁棒噪声多标记图像学习方法。该方法针对多标记图像分类存在多标、漏标和错标的问题,提出采用基于解码器的迭代筛选噪声机制,以恢复样本的错误标注,从而提升深度学习模型在噪声多标记上的准确率,具体包括如下步骤:获取训练图像集及多标签噪声标注;初始化各项参数;搭建深度学习模型、损失函数以及正则化项;将训练集图像及标注依次输入多标记分类器;每次迭代筛选时调整模型状态以检测噪声标记,为噪声样本重新预测伪标记,统计标记共现概率并输入标记模型进行微调;训练完成后,使用训练获得的分类器对图像进行类别预测任务。预测任务。预测任务。

【技术实现步骤摘要】
基于解码器迭代筛选的鲁棒噪声多标签图像学习方法


[0001]本专利技术涉及一种基于解码器迭代筛选的鲁棒噪声多标记图像学习方法。

技术介绍

[0002]多标记分类旨在预测与输入图像中给定的对象、属性或其他动作相对应的一组标记,这通常依赖于一个相当大的、干净的多标记数据集。在实践中,为每张图像标注完全正确的多标记数据需要极高的成本,因此,标注中会包含大量噪声。传统的多标记分类通过学习标记共现去刻画标记关系图,利用标记关系图训练模型。虽然传统的多标记分类解决了图像预测信息匮乏的问题,然而却忽视了获取完全干净的数据集需要极大的成本。
[0003]目前新兴的偏多标记学习,即每个图像都带有一个候选标记集,包含所有相关的和一些不相关的标记,通过评估置信度来确定标记。部分缺失的多标记学习,只包含所有相关标记的一个子集,利用标记关系去恢复所有标记。它们虽然都考虑了数据集标注不可能完全正确的情况,但无法处理更复杂的噪声情况,即同时包含多标、漏标和错标的标记情况。

技术实现思路

[0004]本专利技术的目的在于提出一种基于解码器迭代筛选的鲁棒噪声多标记图像学习方法,以进一步提升在多标记噪声,即同时包含多标、漏标和错标场景下的准确率。
[0005]本专利技术为了实现上述目的,采用如下技术方案:基于解码器迭代筛选的鲁棒噪声多标记图像学习方法,包括如下步骤:步骤1. 获取数据集D={(x
i
,y
i
)},D表示由通过网络平台获取的图像x
i
及其对应的包含噪声的多标记向量y
i
组成的训练数据集,y
i
=[ y
1i
, y
2i ,...,y
li
],i∈{1,N};y
mi
表示第i个样本对应于第m类的标记,m∈{1,l};其中,N表示数据集D中的样本总数,l表示数据集D中的类别总数;步骤2. 初始化各项参数,包括:迭代轮数τ=0、筛选噪声率R、伪标记阈值μ、预训练参数t
warm
、筛选参数t
c
、学习率η以及类的高维语义嵌入{v
i
},i∈{1,l};其中,v
i
表示第i类的高维语义嵌入,共l类;步骤3. 搭建深度学习模型即分类器C、二元交叉熵损失函数L
BCE
以及正则化项;其中,正则化项包括标记语义正则化项L
LSR
以及标记关系正则化项L
LRR
;步骤4. 在Warm

up训练阶段,将数据集D中图像x
i
及其对应的多标记向量y
i
送入分类器C中训练t
warm
轮,优化二元交叉熵损失函数L
BCE
和标记语义正则化项L
LSR
来更新C;步骤5. 在迭代筛选阶段,调整模型状态,记录每个标记在调整过程中规范化损失以检测噪声;将规范化损失由大到小进行排序,并取排序的前R%的标记对应的样本为噪声样本集D
noisy
,剩余为干净样本集D
clean
;步骤 6. 使用分类器C依次为噪声样本集D
noisy
中每个样本x
i
进行类别预测,并取预测类别概率值大于伪标记阈值μ的类别作样本x
i
的伪标记,构成伪标记集D
pseudo

步骤 7. 统计数据集{D
pseudo
, D
clean
}中标记的共现概率;步骤 8. 将数据集{D
pseudo
, D
clean
}重新输入分类器C,优化二元交叉熵损失函数L
BCE
和标记关系正则化项L
LRR
来微调分类器C;步骤 9. 判断当前迭代次数τ是否达到最大迭代次数T;若当前迭代次数τ未达到最大迭代次数T,则返回步骤5继续迭代训练,τ=τ+1;否则,转到步骤10;步骤10. 模型训练完成之后,得到能够在多标记数据集上完成可靠分类性能的分类器C;利用训练好的分类器C执行分类预测任务。
[0006]本专利技术具有如下优点:如上所述,本专利技术述及了一种基于解码器迭代筛选的鲁棒噪声多标记图像学习方法,该方法每次迭代中,都会调整模型的状态以检测噪声标记,并通过模型预测对噪声标记作伪标记,经过多次调整模型状态能提供足够的标记信息,从而可靠地筛选出错误标记,做到有效过滤。此外,模型在训练早期学习多标记的语义关系,在训练后期拥有可信伪标记后,则学习多标记的共现关系,其中,依据多标记间的关系特性,在训练早期学习标记语义关系,使得模型能够初始化标记的分布,从而受到较少的噪声影响,而在模型训练后期学习标记共现关系,使得模型能够学习类分布情况,从而提升在噪声情况下多标记分类的鲁棒性。本专利技术方法专门为多标记噪声提供了一个基础框架,框架中的分类模型可以替换成任何多标记的常用模型,提高了多标记分类在噪声条件下方法的鲁棒性。本专利技术能够有效提升在多标记噪声,即同时包含多标、漏标和错标场景下的类别预测准确率。
附图说明
[0007]图1为本专利技术实施例中基于解码器迭代筛选的鲁棒噪声多标记图像学习方法的流程图;图2为本专利技术实施例中基于解码器迭代筛选的鲁棒噪声多标记图像学习方法的模型图;图3为本专利技术实施例中分类器的结构示意图;图4为本专利技术实施例中多标记噪声的检测流程图。
具体实施方式
[0008]在多标记数据集的收集过程中,使用众包平台是一种典型的方法,但由于标注者缺乏理论知识、观察不准确或主观性臆断错误,完全正确地注释每个图像是耗时且困难的。为了应对多标记数据集中的标记噪声问题,本专利技术提出一种基于解码器迭代筛选的鲁棒噪声多标记图像学习方法,该方法利用噪声样本在训练后期进行记忆,并且在开始具有较大损失的特性,提出对每个标记的损失分析,认为干净样本是具有小损失的一类。同时,由于传统网络训练时,网络状态在整个训练过程中仅发生一次由欠拟合到过拟合的过程,这将缺乏足够且可信的数据来完整地过滤噪声标记。因此,本专利技术考虑了循环筛选,即在循环过程中让模型循环地处于欠拟合和和过拟合状态之间,并在此变化期间记录标记的损失,从而达到过滤噪声标记的目的。为了进一步使用噪声标记的信息,本专利技术通过为噪声标记生成伪标记来学习样本信息,具体的,利用模型预测的概率结果来确定该噪声标记的伪标记。此外,与单标记学习不同的是,多标记具有可以利用和探索的标记相关性。由于训练早期模
型含有大量的噪声,此时的标记关系并不可靠,本专利技术考虑标记的语义关系,使用预训练的Glove 提取每一类的语义表示,通过学习标记语义分布以编码标记相关性。在训练后期,模型过滤大部分的噪声标记,并为大部分噪声标记提供可信度高的伪标记,这时本专利技术考虑标记的共现性,分析数据集标记的共现关系,可以从正标记之间的相关性中学习更多的信息。这两种标签关系分别拟合标记语义分布和标记共现分布,从多标记中学习更多的标记信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于解码器迭代筛选的鲁棒噪声多标记图像学习方法,其特征在于,包括如下步骤:步骤1. 获取数据集D={(x
i
,y
i
)},D表示由通过网络平台获取的图像x
i
及其对应的包含噪声的多标记向量y
i
组成的训练数据集,y
i
=[ y
1i
, y
2i ,...,y
li
],i∈{1,N};y
mi
表示第i个样本对应于第m类的标记,m∈{1,l};其中,N表示数据集D中的样本总数,l表示数据集D中的类别总数;步骤2. 初始化各项参数,包括:迭代轮数τ=0、筛选噪声率R、伪标记阈值μ、预训练参数t
warm
、筛选参数t
c
、学习率η以及类的高维语义嵌入{v
m
},m∈{1,l};其中,v
m
表示第m类的高维语义嵌入;步骤3. 搭建深度学习模型即分类器C、二元交叉熵损失函数L
BCE
以及正则化项;其中,正则化项包括标记语义正则化项L
LSR
以及标记关系正则化项L
LRR
;步骤4. 在Warm

up训练阶段,将数据集D中图像x
i
及其对应的多标记向量y
i
送入分类器C中训练t
warm
轮,优化二元交叉熵损失函数L
BCE
和标记语义正则化项L
LSR
来更新C;步骤5. 在迭代筛选阶段,调整模型状态,记录每个标记在调整过程中规范化损失以检测噪声;将规范化损失由大到小进行排序,并取排序的前R%的标记对应的样本为噪声样本集D
noisy
,剩余为干净样本集D
clean
;步骤 6. 使用分类器C依次为噪声样本集D
noisy
中每个样本x
i
进行类别预测,并取预测类别概率值大于伪标记阈值μ的类别作样本x
i
的伪标记,构成伪标记集D
pseudo
;步骤 7. 统计数据集{D
pseudo
, D
clean
}中标记的共现概率;步骤 8. 将数据集{D
pseudo
, D
clean
}重新输入分类器C,优化二元交叉熵损失函数L
BCE
和标记关系正则化项L
LRR
来微调分类器C;步骤 9. 判断当前迭代次数τ是否达到最大迭代次数T;若当前迭代次数τ未达到最大迭代次数T,则返回步骤5继续迭代训练,τ=τ+1;否则,转到步骤10;步骤10. 模型训练完成之后,得到能够在多标记数据集上完成可靠分类性能的分类器C;利用训练好的分类器C执行分类预测任务。2.根据权利要求1所述的鲁棒噪声多标记图像学习方法,其特征在于,所述分类器C由一个预训练的残差网络构成的特征提取器和一个Transformer解码器组成;其中,残差网络最后的全连接层替换为解码器,解码器中删除了自注意力模块;残差网络用于提取图像特征,并将图像映射到高维特征空间;Transformer解码器对映射后的特征进行预测概率,映射到l维的预测概率向量。3.根据权利要求1所述的鲁棒噪声多标记图像学习方法,其特征在于,所述步骤5具体为:步骤 5.1. 定义循环筛选轮数t
c
和最大循环轮数T
c
,初始化t
c
=0;步骤 5.2. 按照如下公式调整模型的学习率η,以改变模型的拟合状态:η=η
min
+1/2(η
max
-η
min
)(1+cos((t
c
·
π)/T
c
));其中,η
min
和η
max
分别表示模型训练中最小学习率和最大学习率;步骤 5.3. 将数据集D中每个样本(x
i
,y
i
)输入分类器C,得到类别预测结果=C(x
i
);利用二元交叉熵损失函数L
BCE
,计算每个样本(x
i
,y
i
)的预测结果的损失值I
...

【专利技术属性】
技术研发人员:李绍园陈佳瑶
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1