一种小规模可靠数据集驱动的噪声修正算法制造技术

技术编号:36268955 阅读:67 留言:0更新日期:2023-01-07 10:09
本发明专利技术公开一种小规模可靠数据集驱动的噪声修正算法,包括S1.采用骨干网络作为特征提取器,并为之搭配两个并行的全连接层作为预测头,输入图像特征,可输出相应的预测概率分布;S2.使用元预测头的预测概率作为伪标签,利用伪标签修正网络图像中错误的标签,联合使用伪标签和网络标签类训练模型对高比例噪声进行缓解;S3.依靠选择网络有效选择出分布内噪声样本,并通过重标注重新利用;本发明专利技术算法能有效地缓解标签噪声问题,并缓解了部分类别存在的高比例噪声问题。在的高比例噪声问题。在的高比例噪声问题。

【技术实现步骤摘要】
一种小规模可靠数据集驱动的噪声修正算法


[0001]本专利技术涉及高比例噪声修正
,具体为一种小规模可靠数据集驱动的噪声修正算法。

技术介绍

[0002]噪声数据集的复杂性体现在噪声比例在各个类别之间是非均衡的,噪声类别(分布内、分布外)也是非均衡的,并且噪声比例可能异常地高,标签噪声甚至可能淹没干净样本。这些复杂的实际情况大大增加了处理标签噪声的难度。解决策略的复杂性体现在可以不局限于仅使用深度神经网络模型本身来解决复杂的标签噪声问题,可以设计更贴近于现实应用的算法。在此背景下,部分研究者尝试借助干净可靠的数据集来为模型提供先验知识,以此在含噪的数据集中实现高性能的噪声净化。
[0003]在发表于2018年Conference on Neural Information Processing Systems会议上的“Using trusted data to train deep networks on labels corrupted by severe noise”文章中,提出了一种基于小规模干净样本的标签修正算法,用来克服高比例的标签噪声。该算法借助干净样本提供的先验知识,有效地在高噪声环境下估计了噪声转换矩阵,并使用噪声转换矩阵来修正模型的训练损失。在发表于2017年IEEE International Conference on Computer Vision会议上的“Learning from noisy labels with distillation”文章中,使用了一个规模相对略大的干净训练集,训练了一个教师模型。然后利用知识蒸馏策略,让教师模型对更大规模的网络图像生成伪标签。最后,在网络训练集上,同时使用网络标签和生成的伪标签来训练一个学生模型。Li 等人在研究中表明联合使用两种标签训练会比单独使用其中一个的风险更小。在发表于2018年 International Conference on Machine Learning会议上的“Learning to reweight examples for robust deep learning”文章和发表于2019年Conference on Neural Information Processing Systems会议上的“Learning an explicit mapping for sample weighting”文章中,都采用了适合小样本学习的元学习策略,使用一个小规模的数据集来训练一个重加权模型,降低标签噪声的权重,其中,一种是在每个训练周期动态地计算各个样本的权重,而另一种则训练一个模型来表示“损失

权重”映射函数,即对于一个样本的训练损失产生一个相应的权重。该算法不仅可以用于缓解标签噪声问题,还可以用来解决长尾分布和难样本学习等问题;由于借助了可靠的先验知识,上述算法都能较为高效地处理标签噪声问题;借助先验知识来估计噪声转移矩阵的策略得益于可靠数据的引导,能够缓解高比例噪声的问题,在高噪声环境中较为准确地估计出噪声转移矩阵。然而该方法只能处理人工环境下的噪声数据集,即数据集内所有的标签噪声都是分布内的。这个缺点源自于标签修正策略的局限性,导致此算法实用性较差,无法处理包含了分布外噪声样本的现实环境中的噪声数据集;现有技术将知识蒸馏策略从模型压缩领域扩展到了标签噪声学习任务上,先使用
= yi|xi) = 1
ꢀ−
ϵ
, q(c = yi|xi) = 1
ꢀ−
ϵ
, q(c ≠yi|xi) =,其中 C 表示类别总数;对于训练集 D 中的每组样本 (xi, yi),分类网络 h 和元预测头 hm 输出的概率分布分别表示为 p(c|xi;θh) 和 p(c|xi;θhm);将 p(c|xi;θhm) 简记为 pm(c|xi);选用常用的交叉熵损失函数来计算每个训练样本的预测概率分布 p(c|xi;θh) 和其标签分布 q(c|xi) 之间的损失,其公式为: (6.1)。
[0008]更进一步的,在S31中,模型在训练过程中会先学习干净的样本,然后再逐步拟合标签噪声,首先在模型预处理阶段T ≤ Ts,T 和 Ts 分别表示训练周期和预处理周期,直接利用整个数据集 D 来训练分类网络θh;在此阶段,对于每个迭代 t 中的小批次数据,使用学习率为α的随机梯度下降优化器(SGD)来训练模型:(6.2)经过预处理阶段T ≥ Ts后,开始处理网络数据集 Dw 中的标签噪声,对于网络数据集 Dw 中的每个小批次,首先选取 (1
ꢀ−
τ )
ꢀ×ꢀ
100% 比例的小损失样本作为干净样本,以此将该小批次划分为干净批和噪声批:(6.3)(6.4)其中,τ表示为样本丢弃率,即噪声率。
[0009]更进一步的,干净批中的训练样本直接被应用于模型优化;噪声批中的图像被输入进选择网络 Snet 中来计算其属于分布内噪声的概率 Pin,进行进一步的样本筛选:(6.5)之后,有较高 Pin 的样本被识别为分布内噪声样本,并将经过重标注后再度应用于训练中,其他样本则被认为是分布外噪声并直接丢弃;分布内样本的获取公式为:(6.6)其中,r 是基于小批次数据大小的重标注率。
[0010]更进一步的,在干净样本和分布内噪样本声被识别后,这两类训练数据可被应用于模型训练,分类网络参数θh 的更新方式如下:
(6.7)其中,是元预测头 hm 对于网络图像的预测类别,预测置信度被用作损失的权重。
[0011]进一步的,元预测头 hm 和网络预测头 hw 是并行的两个预测头,它们都使用图像特征 f(xi) 作为输入,并输出相应的预测概率分布;在每个迭代 t中,从元集 Dm 中采样一个小批次数据,并使用骨干网络f来对其中的每个样本提取图像特征 f();元预测头的参数θhm 可用如下方式更新:(6.8)对于两个预测头 hm 和 hw 采用了相同的学习率α,其原因是两个预测头都是结构相同的全连接层,其输入尺寸和输出尺寸均相同。
[0012]进一步的,在S4中,在每次迭代 t 中,从网络训练集 Dw 中采样一个小批量数据,并通过如下方式构建分类器学习函数:(6.9)从公式 (6.9)中可以观察到,选择网络输出的概率被视为网络样本在训练过程中的权重;在此公式中,分类网络的参数为选择网络参数的函数;下一步,使用元集Dm来优化选择网络参数;在每次迭代 t 中,从元集Dm中采样一组小批量样本 Dm 并输入进参数为的分类网络 h 中,然后根据网络输出计算元损失,则选择网络的参数可用如下方式更新:(6.10)
其中,是选择网络的学习率。
[0013]更进一步的,优化过程可以用如下方式来进行推导:优化过程可用如下方式来进行推导:(6.11)根据上述计算推导过程,公式 (6.10)可被重写为如下形式:(6.12)在公式 (6.12) 中,系数的影响至关重要;从公式 (6.11) 中可看出,表示两种损失在分类网络 h 上计算出的梯度的相似程度;这两个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种小规模可靠数据集驱动的噪声修正算法,用于提升高噪声类别的识别准确率,其特征在于,包括如下步骤:S1.对训练集D进行分类;S2.采用一个骨干网络f作为特征提取器,并为之搭配两个并行的全连接层作为预测头,并且输入图像特征,可输出相应的预测概率分布;S3.使用元预测头的预测概率作为伪标签,利用伪标签修正网络图像中错误的标签,联合使用伪标签和网络标签类训练模型对高比例噪声进行缓解,具体为:S31.借助小损失准则在每个小批次中识别标签噪声;S32.在干净样本和分部内燥样本声被识别后,可被用作模型训练;S4.依靠选择网络有效选择出分布内噪声样本,并通过重标注重新利用。2.根据权利要求1所述的一种小规模可靠数据集驱动的噪声修正算法,其特征在于,在S1中,训练集包括网络集和元集,其中含噪的网络训练集和小规模的元集分别表示为和,其中 M
ꢀ≪ꢀ
N,元集 D
m 的标签为人工标注,每个样本表示为 (x
i
, y
i
),且包含了图像 x
i 以及其对应的标签 y
i
。3.根据权利要求1所述的一种小规模可靠数据集驱动的噪声修正算法,其特征在于,在S2中,预测头分别是网络预测头 hw 和元预测头 hm,骨干网络、网络预测头 hw 和元预测头 hm参数分别记为 θf、θhw以及 θhm;骨干网络 f 和网络预测头 hw 可组成用于细粒度识别的分类网络 h,其参数记为θh={θf,θhw},此外,还涉及一个选择网络 Snet,其参数定义为 θs;独热标签的分布 q 表示为 q(c = yi|xi) = 1, q(c ≠yi|xi) = 0,其中 c 表示各个类别;为了提升模型的泛化性,采用标签平滑策略,平滑后的标签分布表示为q(c = yi|xi) = 1
ꢀ−ꢀ
ϵ
, q(c ≠yi|xi) =,其中 C 表示类别总数;对于训练集 D 中的每组样本 (xi, yi),分类网络 h 和元预测头 hm 输出的概率分布分别表示为 p(c|xi;θh) 和 p(c|xi;θhm);将 p(c|xi;θhm) 简记为 pm(c|xi);选用常用的交叉熵损失函数来计算每个训练样本的预测概率分布 p(c|xi;θh) 和其标签分布 q(c|xi) 之间的损失,其公式为: (6.1)。4.根据权利要求1所述的一种小规模可靠数据集驱动的噪声修正算法,其特征在于,在S31中,模型在训练过程中会先学习干净的样本,然后再逐步拟合标签噪声,首先在模型预处理阶段T ≤ Ts,T 和 Ts 分别表示训练周期和预处理周期,直接利用整个数据集 D 来训练分类网络 θh;在此阶段,对于每个迭代 t 中的小批次数据,使用学习率为α的随机梯度下降优化器来训练模型:(6.2)经过预处理阶段T ≥ Ts后,...

【专利技术属性】
技术研发人员:沈复民姚亚洲张传一孙泽人白泞玮
申请(专利权)人:南京码极客科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1