一种数据清洗方法、装置及系统制造方法及图纸

技术编号:33847078 阅读:23 留言:0更新日期:2022-06-18 10:32
本申请提供一种数据清洗方法、装置及系统,用于解决现有技术存在的标注的样本数据准确性较低以及分布不一致的技术问题,所述方法包括:基于第一样本数据集对第一预设模型进行模型训练,得到第一样本数据集中的每个样本数据的训练信息;基于训练信息对第一样本数据集进行至少一次数据清洗操作,得到目标样本数据集;其中,数据清洗操作包括:基于训练信息删除第一样本数据集中目标比例的样本数据,得到第二样本数据集;基于第二样本数据集对第一预设模型重新进行模型训练,得到第二预设模型,并基于测试数据集对第二预设模型进行模型测试,得到测试参数;响应于测试参数等于预设指标,则将第二样本数据集确定为目标样本数据集。则将第二样本数据集确定为目标样本数据集。则将第二样本数据集确定为目标样本数据集。

【技术实现步骤摘要】
一种数据清洗方法、装置及系统


[0001]本申请涉及图像处理
,尤其涉及一种数据清洗方法、装置及系统。

技术介绍

[0002]近年来,深度学习基于强大的学习特征表达的能力,在如目标检测、目标识别、动作识别等图像处理领域得到了快速发展,深度学习是通过学习样本数据的内在规律和表示层次,获得对诸如文字,图像和声音等数据的解释有很大的帮助的信息,因此深度学习对样本数据的质量有很高的要求。
[0003]目前,针对单标签样本数据,常通过人为标注数据的方式获取样本数据,由于标注人员的主观性及场景的复杂性等原因,导致标注的准确性较低以及正样本数据和负样本数据分布不一致,从而影响基于深度学习的图像处理模型在实际的应用场景中的泛化性,若为了提高标注的准确性,对标注的样本数据进行二次标注,将导致标注的效率较低。
[0004]由此可见,现有技术标注的样本数据存在准确性较低以及分布不一致等问题,导致基于深度学习的图像处理模型在实际的应用场景中泛化性不强。

技术实现思路

[0005]本申请实施例提供一种数据清洗方法、装置及系统,用于解决现有技术存在的由于标注的样本数据准确性较低以及分布不一致,导致基于深度学习的图像处理模型在实际的应用场景中泛化性不强的技术问题。
[0006]第一方面,为解决上述技术问题,本申请实施例提供一种数据清洗方法,包括:
[0007]基于第一样本数据集对第一预设模型进行模型训练,得到所述第一样本数据集中的每个样本数据的训练信息;其中,所述训练信息用于指示对应的样本数据的预测值与标注值之间的相似程度,所述预测值是基于所述第一预设模型对所述对应的样本数据进行处理得到的;
[0008]基于所述训练信息对所述第一样本数据集进行至少一次数据清洗操作,得到目标样本数据集;其中,所述数据清洗操作包括:
[0009]基于所述训练信息删除所述第一样本数据集中目标比例的样本数据,得到第二样本数据集;
[0010]基于所述第二样本数据集对所述第一预设模型重新进行模型训练,得到第二预设模型,并基于测试数据集对第二预设模型进行模型测试,得到测试参数;
[0011]响应于所述测试参数等于预设指标,则将所述第二样本数据集确定为所述目标样本数据集。
[0012]在本申请实施例中,可以基于第一样本数据集对第一预设模型进行模型训练,得到第一样本数据集中的每个样本数据的训练信息,其中,训练信息用于指示对应的样本数据的预测值与标注值之间的相似程度,预测值是基于第一预设模型对对应的样本数据进行处理得到的,基于训练信息对第一样本数据集进行至少一次数据清洗操作,得到目标样本
数据集,其中,数据清洗操作包括:基于训练信息删除第一样本数据集中目标比例的样本数据,得到第二样本数据集,基于第二样本数据集对第一预设模型重新进行模型训练,得到第二预设模型,并基于测试数据集对第二预设模型进行模型测试,得到测试参数,响应于测试参数等于预设指标,则将第二样本数据集确定为目标样本数据集。通过样本数据的训练信息以及目标比例确定样本数据是否为噪声,删除被确定为噪声的样本数据,相比传统的二次标注,不仅提高了标注的效率,还避免由于标注的准确性较低以及正样本数据和负样本数据分布不一致,导致预设模型在实际的应用场景中泛化性不强的问题。
[0013]一种可选实施方式中,还包括:响应于所述测试参数不等于预设指标,则重新选择所述目标比例,并触发下一次所述数据清洗操作。
[0014]一种可选实施方式中,基于第一样本数据集对第一预设模型进行模型训练,得到所述第一样本数据集中的每个样本数据的训练信息,包括:
[0015]基于所述第一样本数据集对所述第一预设模型进行模型训练,得到所述第一样本数据集中的每个样本数据在每个训练时期的第一概率和第二概率;其中,所述第一概率为所述任一样本数据的预测值为标注值的概率,所述第二概率为所述预测值不为所述标注值的最大概率;
[0016]获取所述第一概率与所述第二概率之间的差值,将所述每个训练时期的所述差值之和的均值作为对应的样本数据的训练信息。
[0017]一种可选实施方式中,基于所述训练信息删除所述第一样本数据集中目标比例的样本数据,得到第二样本数据集之前,还包括:
[0018]获取预设比例集,对所述预设比例集中的比例进行从小到大排序,选择第一比例作为所述目标比例;其中,所述第一比例为在所述预设比例集中排序最中间的比例。
[0019]一种可选实施方式中,基于所述训练信息删除所述第一样本数据集中目标比例的样本数据,得到第二样本数据集,包括:
[0020]基于所述训练信息指示的相似程度的大小按序删除所述第一样本数据集中所述目标比例的样本数据,得到所述第二样本数据集。
[0021]一种可选实施方式中,基于所述训练信息指示的相似程度的大小按序删除所述第一样本数据集中所述目标比例的样本数据,得到所述第二样本数据集,包括:
[0022]基于所述训练信息指示的相似程度的大小分别对所述第一样本数据集中的负样本数据和正样本数据进行从小到大排序;
[0023]分别从所述排序最大的负样本数据和所述排序最小的正样本数据开始按序删除所述目标比例的负样本数据和正样本数据,得到所述第二样本数据集。
[0024]在本申请实施例中,可以基于训练信息指示的相似程度的大小分别对第一样本数据集中的负样本数据和正样本数据进行从小到大排序,分别从排序最大的负样本数据和排序最小的正样本数据开始按序删除目标比例的负样本数据和正样本数据,得到第二样本数据集。通过分别删除目标比例对应数量的简单负样本数据(相似程度较大的负样本数据,易与正样本数据混淆)和困难正样本数据(相似程度较小的正样本数据,为噪声的概率较大),增大正负样本数据之间的差距,提高样本数据集的整体质量,进而避免由于标注的准确性较低以及正样本数据和负样本数据分布不一致,导致预设模型在实际的应用场景中泛化性不强的问题。
[0025]一种可选实施方式中,响应于所述测试参数不等于预设指标,则重新选择目标比例,包括:
[0026]响应于所述测试参数不等于预设指标,对所述预设比例集中的比例进行分组,得到第一子预设比例集和第二子预设比例集;其中,所述第一子预设比例集中的比例的排序低于所述第二子预设比例集中的比例的排序;
[0027]若所述测试参数大于所述预设指标,则重新选择第二比例作为所述目标比例;其中,所述第二比例为在所述第一子预设比例集中排序最中间的比例;
[0028]若所述测试参数小于所述预设指标,则重新选择第三比例作为所述目标比例;其中,所述第三比例为在所述第二子预设比例集中排序最中间的比例。
[0029]在本申请实施例中,可以响应于测试参数不等于预设指标,对预设比例集中的比例进行分组,得到第一子预设比例集和第二子预设比例集,其中,第一子预设比例集中的比例的排序低于第二子预设比例集中的比例的排序,若测试参数大于预设指标,则重新选择第二比例作为目标比例,其中,第二比例为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:基于第一样本数据集对第一预设模型进行模型训练,得到所述第一样本数据集中的每个样本数据的训练信息;其中,所述训练信息用于指示对应的样本数据的预测值与标注值之间的相似程度,所述预测值是基于所述第一预设模型对所述对应的样本数据进行处理得到的;基于所述训练信息对所述第一样本数据集进行至少一次数据清洗操作,得到目标样本数据集;其中,所述数据清洗操作包括:基于所述训练信息删除所述第一样本数据集中目标比例的样本数据,得到第二样本数据集;基于所述第二样本数据集对所述第一预设模型重新进行模型训练,得到第二预设模型,并基于测试数据集对第二预设模型进行模型测试,得到测试参数;响应于所述测试参数等于预设指标,则将所述第二样本数据集确定为所述目标样本数据集。2.如权利要求1所述的方法,其特征在于,还包括:响应于所述测试参数不等于预设指标,则重新选择所述目标比例,并触发下一次所述数据清洗操作。3.如权利要求1或2所述的方法,其特征在于,基于第一样本数据集对第一预设模型进行模型训练,得到所述第一样本数据集中的每个样本数据的训练信息,包括:基于所述第一样本数据集对所述第一预设模型进行模型训练,得到所述第一样本数据集中的每个样本数据在每个训练时期的第一概率和第二概率;其中,所述第一概率为所述任一样本数据的预测值为标注值的概率,所述第二概率为所述预测值不为所述标注值的最大概率;获取所述第一概率与所述第二概率之间的差值,将所述每个训练时期的所述差值之和的均值作为对应的样本数据的训练信息。4.如权利要求2所述的方法,其特征在于,基于所述训练信息删除所述第一样本数据集中目标比例的样本数据,得到第二样本数据集之前,还包括:获取预设比例集,对所述预设比例集中的比例进行从小到大排序,选择第一比例作为所述目标比例;其中,所述第一比例为在所述预设比例集中排序最中间的比例。5.如权利要求4所述的方法,其特征在于,基于所述训练信息删除所述第一样本数据集中目标比例的样本数据,得到第二样本数据集,包括:基于所述训练信息指示的相似程度的大小按序删除所述第一样本数据集中所述目标比例的样本数据,得到所述第二样本数据集。6.如权利要求5所述的方法,其特征在于,基于所述训练信息指示的相似程度的大小按序删除所述第一样本数据集中所述目标比...

【专利技术属性】
技术研发人员:王超运殷俊潘华东孙鹤
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1