一种数据清洗方法、装置及系统制造方法及图纸

技术编号：33847078 阅读：23 留言：0更新日期：2022-06-18 10:32

本申请提供一种数据清洗方法、装置及系统，用于解决现有技术存在的标注的样本数据准确性较低以及分布不一致的技术问题，所述方法包括：基于第一样本数据集对第一预设模型进行模型训练，得到第一样本数据集中的每个样本数据的训练信息；基于训练信息对第一样本数据集进行至少一次数据清洗操作，得到目标样本数据集；其中，数据清洗操作包括：基于训练信息删除第一样本数据集中目标比例的样本数据，得到第二样本数据集；基于第二样本数据集对第一预设模型重新进行模型训练，得到第二预设模型，并基于测试数据集对第二预设模型进行模型测试，得到测试参数；响应于测试参数等于预设指标，则将第二样本数据集确定为目标样本数据集。则将第二样本数据集确定为目标样本数据集。则将第二样本数据集确定为目标样本数据集。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据清洗方法、装置及系统

[0001]本申请涉及图像处理
，尤其涉及一种数据清洗方法、装置及系统。

技术介绍

[0002]近年来，深度学习基于强大的学习特征表达的能力，在如目标检测、目标识别、动作识别等图像处理领域得到了快速发展，深度学习是通过学习样本数据的内在规律和表示层次，获得对诸如文字，图像和声音等数据的解释有很大的帮助的信息，因此深度学习对样本数据的质量有很高的要求。
[0003]目前，针对单标签样本数据，常通过人为标注数据的方式获取样本数据，由于标注人员的主观性及场景的复杂性等原因，导致标注的准确性较低以及正样本数据和负样本数据分布不一致，从而影响基于深度学习的图像处理模型在实际的应用场景中的泛化性，若为了提高标注的准确性，对标注的样本数据进行二次标注，将导致标注的效率较低。
[0004]由此可见，现有技术标注的样本数据存在准确性较低以及分布不一致等问题，导致基于深度学习的图像处理模型在实际的应用场景中泛化性不强。

技术实现思路

[0005]本申请实施例提供一种数据清洗方法、装置及系统，用于解决现有技术存在的由于标注的样本数据准确性较低以及分布不一致，导致基于深度学习的图像处理模型在实际的应用场景中泛化性不强的技术问题。
[0006]第一方面，为解决上述技术问题，本申请实施例提供一种数据清洗方法，包括：
[0007]基于第一样本数据集对第一预设模型进行模型训练，得到所述第一样本数据集中的每个样本数据的训练信息；其中，所述训练信息用于指示对应的样本数据...

【技术保护点】

【技术特征摘要】
1.一种数据清洗方法，其特征在于，包括：基于第一样本数据集对第一预设模型进行模型训练，得到所述第一样本数据集中的每个样本数据的训练信息；其中，所述训练信息用于指示对应的样本数据的预测值与标注值之间的相似程度，所述预测值是基于所述第一预设模型对所述对应的样本数据进行处理得到的；基于所述训练信息对所述第一样本数据集进行至少一次数据清洗操作，得到目标样本数据集；其中，所述数据清洗操作包括：基于所述训练信息删除所述第一样本数据集中目标比例的样本数据，得到第二样本数据集；基于所述第二样本数据集对所述第一预设模型重新进行模型训练，得到第二预设模型，并基于测试数据集对第二预设模型进行模型测试，得到测试参数；响应于所述测试参数等于预设指标，则将所述第二样本数据集确定为所述目标样本数据集。2.如权利要求1所述的方法，其特征在于，还包括：响应于所述测试参数不等于预设指标，则重新选择所述目标比例，并触发下一次所述数据清洗操作。3.如权利要求1或2所述的方法，其特征在于，基于第一样本数据集对第一预设模型进行模型训练，得到所述第一样本数据集中的每个样本数据的训练信息，包括：基于所述第一样本数据集对所述第一预设模型进行模型训练，得到所述第一样本数据集中的每个样本数据在每个训练时期的第一概率和第二概率；其中，所述第一概率为所述任一样本数据的预测值为标注值的概率，所述第二概率为所述预测值不为所述标注值的最大概率；获取所述第一概率与所述第二概率之间的差值，将所述每个训练时期的所述差值之和的均值作为对应的样本数据的训练信息。4.如权利要求2所述的方法，其特征在于，基于所述训练信息删除所述第一样本数据集中目标比例的样本数据，得到第二样本数据集之前，还包括：获取预设比例集，对所述预设比例集中的比例进行从小到大排序，选择第一比例作为所述目标比例；其中，所述第一比例为在所述预设比例集中排序最中间的比例。5.如权利要求4所述的方法，其特征在于，基于所述训练信息删除所述第一样本数据集中目标比例的样本数据，得到第二样本数据集，包括：基于所述训练信息指示的相似程度的大小按序删除所述第一样本数据集中所述目标比例的样本数据，得到所述第二样本数据集。6.如权利要求5所述的方法，其特征在于，基于所述训练信息指示的相似程度的大小按序删除所述第一样本数据集中所述目标比...

【专利技术属性】
技术研发人员：王超运，殷俊，潘华东，孙鹤，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人