一种基于动态样本选择的网络图像标签去噪方法技术

技术编号:36096924 阅读:46 留言:0更新日期:2022-12-24 11:15
本发明专利技术公开一种基于动态样本选择的网络图像标签去噪方法,包括S1.首先,将网络提取的样本特征投影到余弦空间,通过样本间的余弦距离确定每个样本的内点集;S2.将网络数据集中的样本送入深度神经网络,最后的全连接层输出样本的特征;本发明专利技术首先将网络提取的样本特征投影到余弦空间,再通过样本间的余弦距离确定每个样本的内点集,最后挑选出最大内点集并使用新的损失进行反向传播,DSSBR方法无需为每个数据集设定丢弃率,并且达到了很好的效果。并且达到了很好的效果。并且达到了很好的效果。

【技术实现步骤摘要】
一种基于动态样本选择的网络图像标签去噪方法


[0001]本专利技术涉及细粒度图像分类
,具体为一种基于动态样本选择的网络图像标签去噪方法。

技术介绍

[0002]与普通的图像分类任务不同,细粒度图像分类主要研究的是如何区分子类。而人工标记的细粒度图像数据集通常需要专家知识,这大大提升了人工标注的代价与难度;为了缓解人工标注的巨大压力,一些研究者将目光转向网络数据集,将网络数据集作为扩充以获得更好的性能。但现实中的网络数据集往往含有不可避免的大量的标签噪声,由于深度神经网络强大的学习能力,这些未经处理的网络数据集很容易误导深度神经网络的训练,从而影响训练性能。常规思路为通过小损失或者余弦相似度来挑选出相对干净的样本来训练细粒度分类网络。然而对于细粒度分类任务来说,样本类间差距小,类内差距大,这使得样本选择更加困难。现有的样本选择方法需要设定固定的丢弃率,对于有些噪声率高的类别,在进行样本选择之后,还会存在噪声样本遗留而影响图像分类性能的问题。

技术实现思路

[0003]由于现有的样本选择方法往往使用固定的丢弃率,本专利技术提出一种基于RANSAC的动态样本选择DSSBR(Dynamic Sample Selection based on RANSAC)的网络图像标签去噪方法。根据计算类内每个样本间的余弦距离来生成内点集并动态的确定每个类别的干净样本集,使用干净样本集进行反向传播,并使用中心损失约束的交叉熵损失更新网络。由于中心损失会使得类内样本特征距离变得更紧密,从而提升内点集选择的准确性,进一步提升细粒度图像分类的性能。
[0004]为实现上述目的,本专利技术提供如下技术方案:一种基于动态样本选择的网络图像标签去噪方法,是基于RANSAC的动态样本选择方法DSSBR(Dynamic Sample Selection based on RANSAC),包括如下步骤:S1.首先,将网络提取的样本特征投影到余弦空间,通过样本间的余弦距离确定每个样本的内点集;S2.将网络数据集中的样本送入深度神经网络,最后的全连接层输出样本的特征,具体为:S21.利用特征归一化来约束特征的L2范数,从而输出Softmax层;S22.对Softmax层的输出进行标签平滑并计算损失以更新网络。
[0005]进一步的,在S1中,将样本集划分为两个集合:干净样本集,与噪声集;样本集;其中干净样本集又包含简单样本与硬样
本,假设每个类别都有一个内点集和外点集,分别对应干净样本集与噪声集;网络全连接层提取的图片的特征为,对于样本的类别,分别计算样本与类中其他样本的余弦距离,计算公式如下:
ꢀꢀ
(6.1)
ꢀꢀꢀ
(6.2)记录下样本与其他样本的余弦距离: (6.3)样本与其他样本的最大余弦距离为:
ꢀꢀ
(6.4)。
[0006]更进一步的,将样本与其他样本的余弦距离归一化:
ꢀꢀ
(6.5)归一化后样本与其他样本的余弦距离:
ꢀꢀ
(6.6)两样本越相似,则他们的特征向量之间的角度越小,余弦距离就越大。所以如果样本与的余弦距离满足以下条件,则该样本属于的内点集:
ꢀꢀ
(6.7)根据公式(6.7)挑选出的属于的内点集并记录中内点的个数,其中为丢弃阈值。
[0007]更进一步的,挑选样本的内点集即以为圆心画圆,圆内的样本为内点集,其余的为外点集;当的内点集中内点的个数大于类其他任意样本的内
点集中内点的个数,且的内点集中内点的个数大于当前类别中样本个数的一半时,的内点集即为类的内点集,类的内点集的挑选方式如下:
ꢀꢀ
(6.8)
ꢀꢀ
(6.9)越靠近类别中心,的内点集中内点的个数越多,的内点集越有可能为类的内点集。
[0008]进一步的,在S21中,归一化可以更好的学习模糊图像,利用特征归一化来约束特征的L2范数,得到的Softmax层的输出为:
ꢀꢀ
(6.10)。
[0009]更进一步的,DSSBR最终更新网络的损失计算方式如下:
ꢀꢀ
(6.11)
ꢀꢀ
(6.12)。
[0010]更进一步的,中心损失使每个样本与类中心之间的距离最小,这使类内的距离更紧凑;中心损失公式如下:
ꢀꢀ
(6.13)其中为类的第i个样本的特征值,为类样本的类别中心的特征表示;在训练过程中,动态更新,由于使用中心损失约束交叉熵损失,可以使干净样本的特征分布得更紧密;使用中心损失约束的交叉熵损失来更新网络:
ꢀꢀ
(6.14)。
[0011]与现有技术相比,本专利技术的有益效果是:本专利技术首先将网络提取的样本特征投影到余弦空间,再通过样本间的余弦距离确定每个样本的内点集,最后挑选出最大内点集并使用新的损失进行反向传播。DSSBR方法无需为每个数据集设定丢弃率,并且达到了很好的效果。
附图说明
[0012]图1为BCNN网络示意图,图2为本专利技术DSSBR网络主体结构示意图,图3为训练结束后AB两类图片在t

SNE上的可视化图。
具体实施方式
[0013]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0014]请参照图1、图2所示,本专利技术提出了一种基于RANSAC的动态样本选择DSSBR(Dynamic Sample Selection based on RANSAC)的网络图像标签去噪方法,虑到每个类别的噪声率不同且未知,对于每个类别,动态确定每个类的内点集,而不是人工确定噪声丢弃率。
[0015]将样本集划分为两个集合:干净样本集,与噪声集,样本集;其中干净样本集又包含简单样本与硬样本。假设每个类别都有一个内点集和外点集,分别对应干净样本集与噪声集;每张图片都有一个与之对应的内点集与外点集,计算出最大内点集则为该类的内点集,在接下来将计算出每个类的内点集并利用内点集中的样本进行训练。其中是第i个训练样本,是的标签。
[0016]在本实施例中,网络数据集中的噪声样本会影响网络的分类性能,在含噪的数据集中训练,网络强大的样本拟合能力将会拟合噪声样本,无法得到适合的细粒度分类网络。而对于网络数据集来说,每个类别种噪声率是未知的,因此相比于人工设置丢弃率,根据每个类别内的样本分布计算出各自的内点集,是对于网络监督的细粒度图像分类更有效的方法。
[0017]本方法的网络全连接层提取的图片的特征为,对于样本的类别,分别计算样本与类中其他样本的余弦距离,计算公式如下:
ꢀꢀ
(6.1)
ꢀꢀ
(6.2)记录下样本与其他样本的余弦距离:
ꢀꢀ
(6.3)
样本与其他样本的最大余本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动态样本选择的网络图像标签去噪方法,是基于RANSAC的动态样本选择方法DSSBR,其特征在于,包括如下步骤:S1.首先,将网络提取的样本集投影到余弦空间,通过样本间的余弦距离确定每个样本的内点集;S2.将网络数据集中的样本送入深度神经网络,最后的全连接层输出样本的特征,具体为:S21.利用特征归一化来约束特征的L2范数,从而输出Softmax层;S22.对Softmax层的输出进行标签平滑并计算损失以更新网络。2.根据权利要求1所述的一种基于动态样本选择的网络图像标签去噪方法,其特征在于,在S1中,将样本集划分为两个集合:干净样本集与噪声集;样本集;其中干净样本集又包含简单样本与硬样本,假设每个类别都有一个内点集和外点集,分别对应干净样本集与噪声集;网络全连接层提取的图片的特征为,对于样本的类别,分别计算样本与类中其他样本的余弦距离,计算公式如下:
ꢀꢀ
(6.1)(6.2)记录下样本与其他样本的余弦距离:
ꢀꢀꢀ
(6.3)样本与其他样本的最大余弦距离为:
ꢀꢀ
(6.4)。3.根据权利要求2所述的一种基于动态样本选择的网络图像标签去噪方法,其特征在于,将样本与其他样本的余弦距离归一化:
ꢀꢀ
(6.5)归一化后样本与其他样本的余弦距离:
ꢀꢀ
(6.6)
当样本与的余弦距离满足以下条件,则该样本属于的内点集:

【专利技术属性】
技术研发人员:姚亚洲黄丹孙泽人姚钰龙沈复民
申请(专利权)人:南京码极客科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1