一种面向图像分类的互联网数据集标签噪声比例评估方法技术

技术编号：38001935 阅读：8 留言：0更新日期：2023-06-30 10:15

本发明专利技术涉及一种面向图像分类的互联网数据集标签噪声比例评估方法，包括如下步骤：S1：获取互联网图片数据集Web

全部详细技术资料下载

【技术实现步骤摘要】
一种面向图像分类的互联网数据集标签噪声比例评估方法

[0001]本专利技术涉及图像数据集构建
，具体涉及一种面向图像分类的互联网数据集标签噪声比例评估方法。

技术介绍

[0002]图像数据集构建是计算机视觉任务中至关重要的一环，获得大规模的干净图像数据集才能更好地开展后续研究工作。通过互联网获取大量图片数据是构建大规模图像数据集的重要途径，但获取的图像数据中会包含一定的噪声数据。一般通过人工方式来完成对互联网数据集的清洗工作。在大规模数据集构建场景下，这样的清洗方式耗时费力，这也是当下大规模图像数据集缺乏的一个重要原因。当前涌现了一些自动的噪声数据检测的方法，但这些方法仍然需要人工清洗一部分噪声数据来获取噪声比例。
[0003]自动的互联网数据集标签噪声比例评估方法解放了人力，突破了现有标签噪声比例评估方法依赖人工清洗数据的局限性。基于人工清洗数据的标签噪声评估方法，给大规模图像数据集构建带来以下挑战：清洗周期长；耗费大量人力；依赖人为判断。

技术实现思路

[0004]针对现有技术中存在的不足，本专利技术的第一个目的在于提供一种面向图像分类的互联网数据集标签噪声比例评估方法。本专利技术突破现有人工噪声评估方法在大规模互联网数据集噪声比例评估场景下所具有的局限性，在噪声训练集上训练模型，所得模型分别在干净测试集与噪声测试集上进行类别预测，利用该噪声引起的准确率差异值，实现自动噪声比例估计。
[0005]为解决上述技术问题，本专利技术通过下述技术方案实现：
[0006]一种面...

【技术保护点】

【技术特征摘要】
1.一种面向图像分类的互联网数据集标签噪声比例评估方法，其特征在于：包括如下步骤：S1：获取互联网图片数据集Web
‑
M，将其划分为带噪声训练集Train
n
和带噪声测试集Test
n
；S2：获得包含与所述数据集Web
‑
M相同类别的干净测试集Test
c
；S3：以所述带噪声训练集Train
n
为训练数据，训练一个M类分类器；S4：训练得到的M类分类器在Test
c
测试集上进行模型推理，测得分类准确率Acc
c
；S5：训练得到的M类分类器在Test
n
测试集上进行模型推理，测得分类准确率Acc
n
；S6：对比M类分类器在两个测试集上的准确率Acc
c
与Acc
n
，得到Web
‑
M网络数据集的噪声比例Ratio
n
的估计值2.根据权利要求1所述的面向图像分类的互联网数据集标签噪声比例评估方法，其特征在于：在步骤S1中，将数据集Web
‑
M各类别按一定比例划分为带噪声训练集Train
n
和带噪声测试集Test
n
，其中M为类别数目，保留噪声标签，并按该标签进行各类别数据的划分。3.根据权利要求1所述的面向图像分类的互联网数据集标签噪声比例评估方法，其特征在于，在步骤S2中，获得与所述数据集Web
‑
M具有同样类别的干净测试集Test
c
；Test
c
测试集中各图像数据的标签为其真实类别，噪声比例近乎零，可忽略不计。4.根据权利要求1所述的面向图像分类的互联网数据集标签噪声比例评估方法，其特征在于，在步骤S3中，基于步骤S1得到的带噪声训练集Train
n
，为M个类别训练M类分类器。5.根据权利要求1所述的面向图像分类的互联网数据集标签噪声比例评估方法，其特征在于，在步骤S4具体包括：基于步骤S3训练得到的M类分类器，在干净测试集Test
c
上进行模型推理；对比给定...

【专利技术属性】
技术研发人员：肖翠萍，明朝燕，张婷，何梦竹，薛莲，吴明晖，
申请(专利权)人：浙大城市学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人