【技术实现步骤摘要】
一种基于深度学习的数据清洗方法
[0001]本专利技术涉及图像处理领域,尤其涉及一种基于深度学习的数据清洗方法。
技术介绍
[0002]在深度学习研究中,往往需要大量的带标签的样本数据进行模型训练,再通过训练好的模型来对无标签的数据进行预测。例如图像分类,顾名思义,是指输入一张图像,输出一个已知的混合类别中的一个标签,基于深度学习算法的图像分类模型,往往会输出多个标签的类别概率,也就是预测分数,然后取其中分数最大的那一类标签为最终预测类别。这样训练样本的数量和质量直接决定了模型预测的准确度。
[0003]然而大规模、高质量的图像数据往往很难从现实生活中去获取,很多时候只能借助于互联网去获取原始数据,再对获取到的数据进行清洗和处理。但是网络上的数据参差不齐,质量无法保证,有可能存在图像类别标记错误,或者图像主题不突出,水印文字噪声过多等问题,不适合直接作为样本数据来对深度学习模型进行训练和测试,故需要对原始数据进行清洗,过滤掉其中的“脏”数据,提升训练和测试数据的质量。
[0004]目前已有的图像数据清洗方法中 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的数据清洗方法,其特征在于:包括步骤:(1)获取不同类别的原始图像数据形成原始图像数据集,等分成若干子集,并分别以各个子集构建相应的图像分类模型;(2)采用步骤(1)得到的各个图像分类模型对原始图像数据集中每个图像进行类别预测,分别得到相应类别及其分数,并计算得到相应图像分类模型的类别预测分数的标准差,并将其与设定阈值比对,若小于设定阈值,则该图像分类模型所对应的子集定义为正常图像数据集,否则定义为异常图像数据集;其中相应类别的分数表示图像分类模型对某一图像的类别预测为该类别的概率;(3)以步骤(2)得到的正常图像数据集作为基准图像数据集,并按照简单随机抽样的方式生成训练集和检验集,基于深度学习的图像分类算法通过训练集训练得到相应的图像分类模型作为基准模型,并通过检验集计算该基准图像分类模型的分类准确率作为基准分类准确率;(4)将步骤(2)得到的异常图像数据集等分成N份图像数据集,将其中一份放入正常图像数据集中形成新的图像数据集,依照步骤(3)的方法构建相应的图像分类模型,并计算图像分类模型的分类准确率与基准分类准确率比对,若低于基准分类准确率,则将该份图像数据集删掉;若高于基准准确率,则保留该份图像数据集并作为正常图像数据集,重复本步骤直至所有图像数据集处理完毕;(5)将所有的正常图像数据集的图像汇总,得到有效图像集合。2.根据权利要求1所述的数据清洗方法,其特征在于:所...
【专利技术属性】
技术研发人员:程敏,尹帅,
申请(专利权)人:深圳亿嘉和科技研发有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。