一种基于预测置信度的细粒度分类去噪训练方法技术

技术编号:36508460 阅读:18 留言:0更新日期:2023-02-01 15:35
本发明专利技术公开一种基于预测置信度的细粒度分类去噪训练方法,包括S1.首先利用所有的训练样本参与预热训练,并将每个样本近几次预测结果记录下来作为历史预测集合;S2.通过历史预测集合产生的直方图生成各个样本的归一化预测置信度;S3.采用归一化预测置信度来平衡样本标签和样本预测的权重,动态校正损失值。在本发明专利技术中,动态损失代替常用的交叉熵损失,用来区分分布外噪声和其他样本,能更好地去除分布外噪声;在含噪数据集上训练模型时,实现了在一个框架内通过损失校正和全局样本选择策略进行去噪训练,明显提升了细粒度视觉识别模型的分类精度。模型的分类精度。模型的分类精度。

【技术实现步骤摘要】
一种基于预测置信度的细粒度分类去噪训练方法


[0001]本专利技术涉及细粒度图像分类
,具体为一种基于预测置信度的细粒度分类去噪训练方法。

技术介绍

[0002]含噪数据集中的噪声通常被分为两类:第一种噪声是分布内噪声,即样本本身的真实标签属于数据集的标签集合,但是误标为数据集其他标签;第二种噪声是分布外噪声,样本的真实标签并不在数据集的标签集之中。分布外噪声样本的图像内容往往只与标签标注的情况存在微弱但是不符合标注原则的联系,有些甚至完全没有任何关系。若是一个数据集同时含有上述两类噪声,则称为开集含噪数据集。自然条件下获得的含噪数据集几乎都是开集数据集,闭集数据集反而十分少见。
[0003]研究界已经提出多种思路处理训练数据集中含有噪声的问题。一类方法被称为“损失校正”(loss correction)或标签校正(label correction)。损失校正的常规做法是在神经网络模型训练过程中对损失值添加某种修正以避免过拟合分布内噪声样本。也有一些方法以学习噪声转移矩阵的形式纠正分布内噪声,但是却无法同时正确地处理分布外噪声,且大规模数据上效果并不理想,分布外噪声的真实标签并不在数据集的标签定义域中,使用噪声转移矩阵强行校正分布内噪声样本的标签结果难料。

技术实现思路

[0004]本专利技术提出使用一种基于预测置信度的神经网络去噪训练方法,缓解在含噪数据集上训练细粒度图像分类模型困难的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于预测置信度的细粒度分类去噪训练方法,包括包括如下步骤:S1.首先利用所有的训练样本参与预热训练,并将每个样本近几次预测结果记录下来作为历史预测集合;S2.通过历史预测集合产生的直方图生成各个样本的归一化预测置信度具体如下:S21. 通过公式(6.1)计算出预测标签相对于总体预测次数的直方图;S22.根据历史预测结果推断正确标签的置信度;S23.在交叉熵的基础上执行归一化操作;S3.采用归一化预测置信度来平衡样本标签和样本预测的权重,动态校正损失值。
[0006]进一步的,在S1中,训练的开始时必须首先经过若干轮预热训练,在预热训练过程完成后对训练集D中的各个样本 , 执行推理并获得预测结果,N 是
数据集的样本数量;推理过程从两个卷积神经网络构成的骨干网络输出中分别获得 Softmax 概率分布向量,然后计算预测结果;记为样本图像 最近 轮训练的历史预测序列,记 为各个样本图像 的预测置信度;基于预测置信度的动态校正损失用 平衡标签独热编码和预测的权重后的结果与神经网络输出计算交叉熵得到校正后的损失值;在训练过程中,预测置信度较高的样本会被选择组成实际参与训练的训练样本集 ;含有 个训练实例的样本集以他们被校正后的损失值更新细粒度图像分类神经网络模型。
[0007]更进一步的,深度神经网络倾向于拟合干净和简单的样本,并随后开始适应困难样本和噪声样本;使用所有训练样本 D在前
ꢀꢀ
轮循环中先使用预热策略训练目标神经网络;训练使用的使用交叉熵损失公式为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.2)其中,表示样本的标签,公式 (6.2) 中的交叉熵损失 用在预热阶段更新神经网络;式中表示最后一层softmax层的输出向量,以公式 (6.3) 计算:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.3)公式中的表示神经网络的映射函数, 是最后一层softmax层之前的全连接层的输出,k 是数据集的类别数,为网络参数,各个样本图像对应的推理结果计算用公式为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.4)在整个训练过程中,记录和更新训练集中每个样本图像在在近轮训练中的预测情况,记为,为网络对样本图像在第T轮(即当前轮)训练中的预测标签。
[0008]更进一步的,在预热训练阶段结束之后,使用训练过的神经网络对训练样本D 中的样本执行一次预测并随后建立并更新历史预测序列;训练样本D中的所有训练样本的PFL损失用均公式(6.15)计算;在训练完成后,一般情况下使用比值 δ(%) 控制丢弃样本的个数,即被判定为分布外噪声样本占总样本数的比例,可选择PFL损失排名前 的训练样本组成新的训练样本集执行神经网络模型的更新,预热训练后各轮训练使用的新选择出的训练样本集合的产生过程如公式(6.5)所示:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.5)
其中表示样本的损失,干净样本和分布内噪声样本由公式 (6.5) 在全局样本选择阶段被选入本轮训练的训练集;为了避免错误排除有用样本,基于预测稳定性度量的损失较高的样本仅在当前轮训练被排除在训练集外,但是下一轮全局样本选择时会重新计算全部样本的归一化预测置信度,并更新历史预测序列,过程公式为:
ꢀꢀꢀꢀꢀꢀ
(6.6);是样本图像对应的标签。
[0009]更进一步的,在S21中,由于含有噪声的训练数据中分布外噪声样本与干净样本和分布内噪声样本内容无关,分布外噪声样本的预测结果会在早期训练过程中不断改变,令
ꢀꢀ
表示样本在历史预测结果序列中被预测为标签j的频率且,k 是数据集的类别数;可通过公式(6.1)计算:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.1)其中,是样本图像的预测结果, 是其历史预测结果集的大小,即预测的总次数,即为预测标签相对于总体预测次数的直方图。
[0010]更进一步的,在S22中,样本标签在预测历史中出现的频率与该标签是真实标签的可能性在统计上呈正相关关系;这种预测结果属于真实标签的可能性定义为根据历史预测结果推断正确标签的“置信度”;熵的概念与置信度概念比较吻合,可用来表达各个样本图像 的预测结果不确定程度,其形式为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.7)表示样本 在历史预测结果序列中被预测为其中频率最高的标签y的频率,预测历史的直方图特性反映了推理历史对标签归属的不确定程度,可用下列公式描述当预测历史的不确定度最大时最小的情形:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.8)其中,k代表数据集中的标签总类别数,代表预测历史序列的长度;在常用的网络图像细粒度分类数据集中,数据集中的标签类别数远远大于实际历史预测记录的长度设置,即;所以,,可得到历史预测最大不确定度的计算方法,其公式为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.9)。
[0011]更进一步的,在S23中,单纯采用交叉熵存在使用上的不便,交叉熵本身存在下界,但是不同情况下交叉熵的上界差异很大较大,所以需要在交叉熵的基础上执行归一化操作;已知最大历史预测不确定度计算方法,可以定义用于归一化上述历史预测不确定性,使其取值范围恒定在之间以方便度量; 的形式见公式 (6.10) :
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预测置信度的细粒度分类去噪训练方法,其特征在于,包括如下步骤:S1.首先利用所有的训练样本参与预热训练,并将每个样本近期预测结果记录下来作为历史预测集合;S2.通过历史预测集合产生的直方图生成各个样本的归一化预测置信度,具体如下:S21.通过公式计算出预测标签相对于总体预测次数的直方图;S22.根据历史预测结果推断正确标签的置信度;S23.在交叉熵的基础上执行归一化操作;S3.采用归一化预测置信度来平衡样本标签和样本预测的权重,动态校正损失值。2.根据权利要求1所述的一种基于预测置信度的细粒度分类去噪训练方法,其特征在于,在S1中,训练的开始时首先经过预热训练,在预热训练过程完成后对训练样本D 中的各个样本 ,
ꢀꢀ
执行推理并获得预测结果,N数据集的样本数量,理过程从两个卷积神经网络构成的骨干网络输出中分别获得 Softmax 概率分布向量,然后计算预测结果;记为样本图像训练的历史预测序列,记 为各个样本图像 的预测置信度;基于预测置信度的动态校正损失用 平衡标签独热编码和预测的权重后的结果与神经网络输出计算交叉熵得到校正后的损失值。3.根据权利要求2所述的一种基于预测置信度的细粒度分类去噪训练方法,其特征在于,将训练样本D在前轮循环中先使用预热策略训练目标神经网络,训练使用的交叉熵损失公式为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.2)其中,表示样本的标签,公式 (6.2) 中的交叉熵损失 用在预热阶段更新神经网络;式中表示最后一层softmax层的输出向量,以公式 (6.3) 计算:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.3)公式中的表示神经网络的映射函数, 是最后一层softmax层之前的全连接层的输出,k 是数据集的类别数,为网络参数,个样本图像对应的推理结果计算用公式为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.4)在整个训练过程中,记录和更新训练集中每个样本图像在在近轮训练中的预测情况,记为,为网络对样本图像在第T轮(即当前轮)训练中的预测标签。4.根据权利要求3所述的一种基于预测置信度的细粒度分类去噪训练方法,其特征在于,预热训练阶段结束之后,使用训练过的神经网络对训练样本D 中的样本执行一次预测
并随后建立并更新历史预测序列;训练样本D中的所有训练样本的PFL损失用均公式(6.15)计算;在训练完成后,使用比值 δ(%) 控制丢弃样本的个数,即被判定为分布外噪声样本占总样本数的比例,选择PFL损失排名前 的训练样本组成新的训练样本集执行神经网络模型的更新,预热训练后各轮训练使用的新选择出的训练样本集合的产生过程如公式(6.5)所示:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.5)其中表示样本的损失,干净样本和分布内噪声样本由公式(6.5)在全局样本选择阶段被选入本轮训练的训练集;下一轮全局样本选择时会重新计算全部样本的归一化预测置信度,并更新历史预测序列,过程公式为:
ꢀꢀꢀꢀꢀꢀ
(6.6);是样本图像对应的标签。5.根据权利要求3所述的一种基于预测置信度的细粒度分类去噪训练方法,其特征在于,在S21中,令 表示样本 在历史预测结果序列中被预测为标签j的频率且,k 是数据集的类别数;可通过公式(6.1)计算:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6.1)其中,是样本图像的预测结果, 是其历史预测结果集的大小,即预测的总次数, 即为预测标签相对于总体预测次数的直方图。6.根据权利要求...

【专利技术属性】
技术研发人员:沈复民姚亚洲张传一姚钰龙孙泽人
申请(专利权)人:南京码极客科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1