数据集清洗方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号:33952176 阅读:15 留言:0更新日期:2022-06-29 22:40
本公开的实施例公开了数据集清洗方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:获取训练图像样本初始集和验证图像样本集;利用训练图像样本初始集确定初始图像分类模型、初始分类准确度和训练图像样本集;将初始图像分类模型确定为参照图像分类模型,以及将初始分类准确度的值确定为参照分类准确度的值,以及将训练图像样本初始集确定为训练图像样本参照集;利用训练图像样本集进行迭代训练,以及确定目标图像分类模型和目标训练图像样本集。该实施方式可以自动清洗原始图像分类数据集中的脏数据,提高清洗效率和数据集的质量,从而提升图像分类模型的准确度。从而提升图像分类模型的准确度。从而提升图像分类模型的准确度。

【技术实现步骤摘要】
数据集清洗方法、装置、电子设备和计算机可读介质


[0001]本公开的实施例涉及计算机
,具体涉及数据集清洗方法、装置、电子设备和计算机可读介质。

技术介绍

[0002]数据集清洗,是对数据集里的脏数据进行去脏或纠错,以提高数据集质量的一项技术。数据集的质量在很大程度上决定了图像分类模型进行图像分类的准确度。目前,在对含有脏数据的图像分类数据集进行清洗时,通常采用的方式为:通过人工审核去除或者纠正其中的脏数据。
[0003]然而,当采用上述方式进行数据集清洗时,经常会存在如下技术问题:
[0004]第一,数据集中的数据众多,人工审核会存在漏检、误检的情况,使得数据集中脏数据的比例较大,导致数据集质量较低;
[0005]第二,人工审核清洗脏数据的数据集清洗效率低;
[0006]第三,直接丢弃数据集中的脏数据,没有对数据集中的脏数据做进一步处理,导致部分虽然为脏数据、但可知其真实类别的数据流失;
[0007]第四,直接丢弃不确定的数据,没有对数据集中不确定是否为脏数据的数据做进一步处理,导致部分虽然目前不确定是否为脏数据、但在后续清洗过程中可能确定其真实类别的数据流失。

技术实现思路

[0008]本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0009]本公开的一些实施例提出了数据集清洗方法、装置、电子设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题中的一项或多项。
[0010]第一方面,本公开的一些实施例提供了一种数据集清洗方法,该方法包括:获取训练图像样本初始集和验证图像样本集,其中,上述训练图像样本初始集中的训练图像样本包括训练图像和分类标签,上述验证图像样本集中的验证图像样本包括验证图像和分类标签;基于上述训练图像样本初始集确定初始图像分类模型、初始分类准确度和训练图像样本集;将上述初始图像分类模型确定为参照图像分类模型,以及将上述初始分类准确度的值确定为参照分类准确度的值,以及将上述训练图像样本初始集确定为训练图像样本参照集;利用训练图像样本集,执行以下训练步骤:利用训练图像样本集对原始图像分类模型进行训练,得到图像分类模型;确定图像分类模型对上述验证图像样本集的分类准确度;响应于确定分类准确度小于等于参照分类准确度,将参照图像分类模型确定为目标图像分类模型,以及将训练图像样本参照集确定为目标训练图像样本集。
[0011]在一些实施例中,所述利用图像分类模型对训练图像样本集进行清洗,还包括:
[0012]响应于确定所述目标分类信息包括的分类标签与所述训练图像样本包括的分类标签不相同,且所述目标分类信息包括的分类概率大于等于设定的第一阈值,将所述训练图像样本包括的分类标签更新为所述目标分类信息包括的分类标签,以及将更新后的训练图像样本作为清洗训练图像样本加入清洗训练图像样本集,其中,所述第一阈值大于等于0.8。
[0013]在一些实施例中,所述利用图像分类模型对训练图像样本集进行清洗,还包括:
[0014]响应于确定所述目标分类信息包括的分类标签与所述训练图像样本包括的分类标签不相同,且所述目标分类信息包括的分类概率小于所述第一阈值,且所述训练图像样本包括的分类标签对应的分类概率大于等于设定的第二阈值,将所述训练图像样本作为清洗训练图像样本加入清洗训练图像样本集,其中,所述第二阈值小于等于0.1。
[0015]第二方面,本公开的一些实施例提供了一种数据集清洗装置,装置包括:获取单元,被配置成获取训练图像样本初始集和验证图像样本集,其中,上述训练图像样本初始集中的训练图像样本包括训练图像和分类标签,上述验证图像样本集中的验证图像样本包括验证图像和分类标签;确定单元,被配置成基于上述训练图像样本初始集确定初始图像分类模型、初始分类准确度和训练图像样本集;转换单元,被配置成将上述初始图像分类模型确定为参照图像分类模型,以及将上述初始分类准确度的值确定为参照分类准确度的值,以及将上述训练图像样本初始集确定为训练图像样本参照集;训练单元,被配置成利用训练图像样本集,执行以下训练步骤:利用训练图像样本集对原始图像分类模型进行训练,得到图像分类模型;确定图像分类模型对上述验证图像样本集的分类准确度;响应于确定分类准确度小于等于参照分类准确度,将参照图像分类模型确定为目标图像分类模型,以及将训练图像样本参照集确定为目标训练图像样本集。
[0016]第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
[0017]第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
[0018]本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的数据集清洗方法,能够自动清洗数据集中的脏数据,提高清洗效率和数据集的质量,从而可以使用清洗后的数据集训练出可靠的图像分类模型。具体来说,造成数据集清洗效率低和脏数据含量较高的原因在于:数据集中的数据众多,人工审核速度慢且会存在漏检、误检的情况。基于此,本公开的一些实施例的数据集清洗方法,首先获取训练图像样本初始集和验证图像样本集,其中,上述训练图像样本初始集中的训练图像样本包括训练图像和分类标签,上述验证图像样本集中的验证图像样本包括验证图像和分类标签。然后,基于上述训练图像样本初始集确定初始图像分类模型、初始分类准确度和训练图像样本集。从而,确定了脏数据含量较高的原始数据集训练出的图像分类模型以及模型的分类准确度。接着,将上述初始图像分类模型确定为参照图像分类模型,以及将上述初始分类准确度的值确定为参照分类准确度的值,以及将上述训练图像样本初始集确定为训练图像样本参照集。从而,便于后续对比经过清洗后的数据集训练出的图像分类模型的准确度与原来的数据集训练出的图像分类模型的准确度。最后,利用训练图像样本集,执行以下训练步骤:利用训练图像样本
集对原始图像分类模型进行训练,得到图像分类模型;确定图像分类模型对上述验证图像样本集的分类准确度;响应于确定分类准确度小于等于参照分类准确度,将参照图像分类模型确定为目标图像分类模型,以及将训练图像样本参照集确定为目标训练图像样本集。从而,经过对数据集的迭代清洗,可以快速选取出对图像的分类准确度最高的图像分类模型。由此,本公开的上述各个实施例可以快速地自动清洗图像分类数据集中的脏数据,提高清洗效率和数据集的质量,从而提高图像分类模型对图像的分类准确度。
附图说明
[0019]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据集清洗方法,包括:获取训练图像样本初始集和验证图像样本集,其中,所述训练图像样本初始集中的训练图像样本包括训练图像和分类标签,所述验证图像样本集中的验证图像样本包括验证图像和分类标签;基于所述训练图像样本初始集确定初始图像分类模型、初始分类准确度和训练图像样本集;将所述初始图像分类模型确定为参照图像分类模型,以及将所述初始分类准确度的值确定为参照分类准确度的值,以及将所述训练图像样本初始集确定为训练图像样本参照集;利用训练图像样本集,执行以下训练步骤:利用训练图像样本集对原始图像分类模型进行训练,得到图像分类模型;确定图像分类模型对所述验证图像样本集的分类准确度;响应于确定分类准确度小于等于参照分类准确度,将参照图像分类模型确定为目标图像分类模型,以及将训练图像样本参照集确定为目标训练图像样本集。2.根据权利要求1所述的方法,其中,所述方法还包括:响应于确定分类准确度大于参照分类准确度,将训练图像样本集作为训练图像样本参照集,利用图像分类模型对训练图像样本集进行清洗,将清洗后的训练图像样本集作为训练图像样本集,将图像分类模型作为参照图像分类模型,以及将参照分类准确度的值更新为分类准确度的值,继续执行所述训练步骤。3.根据权利要求2所述的方法,其中,所述利用图像分类模型对训练图像样本集进行清洗,包括:对训练图像样本集中的每个训练图像样本执行以下清洗步骤:将所述训练图像样本中的训练图像输入所述图像分类模型,得到分类信息组,其中,所述分类信息组中的分类信息包括分类标签和分类概率,所述分类信息组中各个分类信息包括的分类概率之和为1;从所述分类信息组中选择满足预设条件的分类信息作为目标分类信息,其中,所述预设条件是分类信息包括的分类概率是所述分类信息组包括的分类概率中最大的分类概率;响应于确定所述目标分类信息包括的分类标签与所述训练图像样本包括的分类标签相同,将所述训练图像样本作为清洗训练图像样本加入清洗训练图像样本集。4.根据权...

【专利技术属性】
技术研发人员:邓泽露徐克勤刘鹏飞
申请(专利权)人:多点深圳数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1