一种面向图像分类的互联网数据集标签噪声比例评估方法技术

技术编号:38001935 阅读:8 留言:0更新日期:2023-06-30 10:15
本发明专利技术涉及一种面向图像分类的互联网数据集标签噪声比例评估方法,包括如下步骤:S1:获取互联网图片数据集Web

【技术实现步骤摘要】
一种面向图像分类的互联网数据集标签噪声比例评估方法


[0001]本专利技术涉及图像数据集构建
,具体涉及一种面向图像分类的互联网数据集标签噪声比例评估方法。

技术介绍

[0002]图像数据集构建是计算机视觉任务中至关重要的一环,获得大规模的干净图像数据集才能更好地开展后续研究工作。通过互联网获取大量图片数据是构建大规模图像数据集的重要途径,但获取的图像数据中会包含一定的噪声数据。一般通过人工方式来完成对互联网数据集的清洗工作。在大规模数据集构建场景下,这样的清洗方式耗时费力,这也是当下大规模图像数据集缺乏的一个重要原因。当前涌现了一些自动的噪声数据检测的方法,但这些方法仍然需要人工清洗一部分噪声数据来获取噪声比例。
[0003]自动的互联网数据集标签噪声比例评估方法解放了人力,突破了现有标签噪声比例评估方法依赖人工清洗数据的局限性。基于人工清洗数据的标签噪声评估方法,给大规模图像数据集构建带来以下挑战:清洗周期长;耗费大量人力;依赖人为判断。

技术实现思路

[0004]针对现有技术中存在的不足,本专利技术的第一个目的在于提供一种面向图像分类的互联网数据集标签噪声比例评估方法。本专利技术突破现有人工噪声评估方法在大规模互联网数据集噪声比例评估场景下所具有的局限性,在噪声训练集上训练模型,所得模型分别在干净测试集与噪声测试集上进行类别预测,利用该噪声引起的准确率差异值,实现自动噪声比例估计。
[0005]为解决上述技术问题,本专利技术通过下述技术方案实现:
[0006]一种面向图像分类的互联网数据集标签噪声比例评估方法,其特征在于:包括如下步骤:
[0007]S1:获取互联网图片数据集Web

M,将其划分为带噪声训练集Train
n
和带噪声测试集Test
n

[0008]S2:获得包含与所述数据集Web

M相同类别的干净测试集Test
c

[0009]S3:以所述带噪声训练集Train
n
为训练数据,训练一个M类分类器;
[0010]S4:训练得到的M类分类器在Test
c
测试集上进行模型推理,测得分类准确率Acc
c

[0011]S5:训练得到的M类分类器在Test
n
测试集上进行模型推理,测得分类准确率Acc
n

[0012]S6:对比M类分类器在两个测试集上的准确率Acc
c
与Acc
n
,得到Web

M网络数据集的噪声比例Ratio
n
的估计值
[0013]进一步的:在步骤S1中,
[0014]使用的数据集Web

M,可为任意大规模带噪声互联网数据集,其中M为类别数目;将数据集Web

M各类别按一定比例划分为带噪声训练集Train
n
和带噪声测试集Test
n
,其中M为类别数目,不对噪声标签进行清洗,并严格按照该标签进行各类别数据的划分;
[0015]进一步的:在步骤S2中,
[0016]获得与所述数据集Web

M具有同样类别的干净测试集Test
c
;Test
c
干净测试集可来自现有小规模干净数据集,或者通过人为清洗少量网络数据来构建;Test
c
测试集中各图像数据的标签可作为其真实类别,噪声比例近乎零,可将该测试集视为百分之百干净的数据集。
[0017]进一步的:在步骤S3中,
[0018]按照在步骤S1得到的带噪声训练集Train
n
,为M个类别训练一个M类分类器;由于该训练集是带噪声的,在训练过程中需要采用一般的噪声数据集上的模型训练方法,避免模型过拟合到噪声数据上。
[0019]进一步的:在步骤S4中,
[0020]按照在步骤S3训练得到的M类分类器,在干净测试集Test
c
上进行模型推理;对比给定标签与M类分类器给出的预测类别,最终得到该M类分类器在干净测试集Test
c
上的分类准确率Acc
c
;将该准确率Acc
c
视为M类分类器在一般的干净测试集上具有的分类准确率。
[0021]进一步的:在步骤S5中,
[0022]按照在步骤S3训练得到的M类分类器,在带噪声测试集Test
n
上进行模型推理;对比给定噪声标签与M类分类器给出的预测类别,最终得到该M类分类器在带噪声测试集Test
n
上的分类准确率Acc
n
;该噪声测试集Test
n
对应于一个干净测试集该M类分类器在Test
n
对应的干净测试集上的分类准确率近似于在干净测试集Test
c
上的分类准确率Acc
c

[0023]进一步的:在步骤S6中,
[0024]按照在步骤S4、S5获得的所述M类分类器在干净测试集Test
c
上的分类准确率Acc
c
,以及在带噪声测试集Test
n
上的分类准确率Acc
n
,得到Web

M网络数据集的噪声比例Ratio
n
的估计值
[0025]M类分类器在干净测试集Test
c
与带噪声测试集Test
n
上的分类准确率Acc
c
、Acc
n
之间的差值为Δ
acc
,其中Δ
acc
=Acc
c

Acc
n

[0026]基于Acc
c
和Acc
n
,可进一步得到Web

M网络数据集的噪声比例Ratio
n
的估计值其中
[0027]本专利技术的第二个目的在于,提供一种电子设备,其特征在于:包括:
[0028]一个或多个处理器;
[0029]存储装置,用于存储一个或多个程序,
[0030]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述中任一所述的面向图像分类的互联网数据集标签噪声比例评估方法。
[0031]本专利技术的第三个目的在于,提供一种计算机可读介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现如上述中任一所述的面向图像分类的互联网数据集标签噪声比例评估方法。
[0032]本专利技术与现有技术相比,具有以下优点及有益效果:
[0033]本专利技术结合了带噪声模型训练,测试模型分类准确率,噪声测试集与干净测试集
分类准确率比对,其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向图像分类的互联网数据集标签噪声比例评估方法,其特征在于:包括如下步骤:S1:获取互联网图片数据集Web

M,将其划分为带噪声训练集Train
n
和带噪声测试集Test
n
;S2:获得包含与所述数据集Web

M相同类别的干净测试集Test
c
;S3:以所述带噪声训练集Train
n
为训练数据,训练一个M类分类器;S4:训练得到的M类分类器在Test
c
测试集上进行模型推理,测得分类准确率Acc
c
;S5:训练得到的M类分类器在Test
n
测试集上进行模型推理,测得分类准确率Acc
n
;S6:对比M类分类器在两个测试集上的准确率Acc
c
与Acc
n
,得到Web

M网络数据集的噪声比例Ratio
n
的估计值2.根据权利要求1所述的面向图像分类的互联网数据集标签噪声比例评估方法,其特征在于:在步骤S1中,将数据集Web

M各类别按一定比例划分为带噪声训练集Train
n
和带噪声测试集Test
n
,其中M为类别数目,保留噪声标签,并按该标签进行各类别数据的划分。3.根据权利要求1所述的面向图像分类的互联网数据集标签噪声比例评估方法,其特征在于,在步骤S2中,获得与所述数据集Web

M具有同样类别的干净测试集Test
c
;Test
c
测试集中各图像数据的标签为其真实类别,噪声比例近乎零,可忽略不计。4.根据权利要求1所述的面向图像分类的互联网数据集标签噪声比例评估方法,其特征在于,在步骤S3中,基于步骤S1得到的带噪声训练集Train
n
,为M个类别训练M类分类器。5.根据权利要求1所述的面向图像分类的互联网数据集标签噪声比例评估方法,其特征在于,在步骤S4具体包括:基于步骤S3训练得到的M类分类器,在干净测试集Test
c
上进行模型推理;对比给定...

【专利技术属性】
技术研发人员:肖翠萍明朝燕张婷何梦竹薛莲吴明晖
申请(专利权)人:浙大城市学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1