基于深度学习的图像数据清洗方法、及其相关装置制造方法及图纸

技术编号:35029344 阅读:20 留言:0更新日期:2022-09-24 23:02
本申请提供一种基于深度学习的图像数据清洗方法、及其相关装置,该方法包括:获取待清洗的图像属性的训练样本集合;对训练样本集合进行聚类分析,得到多个分类集合,其中,每个分类集合中包括多个训练样本;将多个分类集合中各分类集合中的多个训练样本划分为训练集、验证集以及测试集;获取预设的满足预设要求的预测模型,预设要求为采用验证集进行验证的误差率小于预设阈值;基于预测模型和测试集,确定多个分类集合中各分类集合中的异常样本;对异常样本所在的分类集合进行数据清洗。本申请实施例实现了更好的数据清洗效果。施例实现了更好的数据清洗效果。施例实现了更好的数据清洗效果。

【技术实现步骤摘要】
基于深度学习的图像数据清洗方法、及其相关装置


[0001]本申请涉及图像数据处理
,具体涉及一种基于深度学习的图像数据清洗方法、及其相关装置。

技术介绍

[0002]随着人工智能的快速发展,用于训练的数据的准确性非常重要,而数据挖掘中的数据大多来自现实世界,这些数据集中或多或少地存在数据缺失、数据冗余、数据不一致等问题,这些数据称之为“脏数据”。数据收集条件的制约、度量方法错误、人工录入时出现遗漏和违反数据约束等都是导致数据集中存在大量“脏数据”的原因。在某些领域的数据集中,各种“脏数据”的比例甚至高达50%

60%以上。这些问题数据不仅意味着错误信息,更重要的是它会影响后续数据挖掘工作,导致抽取模式错误和导出规则的偏差,即“脏数据进,脏数据出”。
[0003]目前的数据清洗技术一般由人工参与,这个过程由于数据量非常庞大,非常耗费人力成本和时间成本;在人工清洗检查标签准确性的过程中,也存在人的主观性,无法保证标签的准确性。
[0004]因此,如何有效对“脏数据”进行清洗,提高用于训练的数据准确性,是当前图像数据处理
亟需解决的技术问题。

技术实现思路

[0005]本申请提供一种基于深度学习的图像数据清洗方法、及其相关装置,旨在解决如何有效对“脏数据”进行清洗,提高用于训练的数据准确性的技术问题。
[0006]一方面,本申请提供一种基于深度学习的图像数据清洗方法,所述方法包括:
[0007]获取待清洗的图像属性的训练样本集合;
[0008]对所述训练样本集合进行聚类分析,得到多个分类集合,其中,每个分类集合中包括多个训练样本;
[0009]将所述多个分类集合中各分类集合中的多个训练样本划分为训练集、验证集以及测试集;
[0010]获取预设的满足预设要求的预测模型,所述预设要求为采用验证集进行验证的误差率小于预设阈值;
[0011]基于所述预测模型和所述测试集,确定多个分类集合中各分类集合中的异常样本;
[0012]对所述异常样本所在的分类集合进行数据清洗。
[0013]在本申请一种可能的实现方式中,所述基于所述预测模型和所述测试集,确定多个分类集合中各分类集合中的异常样本,包括:
[0014]基于所述预测模型获取所述测试集中各训练样本的预测标签结果;
[0015]获取所述测试集中各训练样本的实际标签结果;
[0016]基于所述预测标签结果和实际标签结果,确定多个分类集合中各分类集合中的异常样本。
[0017]在本申请一种可能的实现方式中,所述获取预设的满足预设要求的预测模型,包括:
[0018]利用所述训练集训练基于深度学习的初始预测模型,得到第一预测模型;
[0019]基于所述验证集和所述第一预测模型,确定满足预设要求的预测模型。
[0020]在本申请一种可能的实现方式中,在对所述训练样本集合进行聚类分析,得到多个分类集合之前,所述方法还包括:
[0021]对所述训练样本集合进行图像质量增强处理,得到图像质量增强后的训练样本集合。
[0022]在本申请一种可能的实现方式中,在对所述异常样本所在的分类集合进行数据清洗之后,所述方法还包括:
[0023]对进行数据清洗后的分类集合中的训练样本输入预设的满足预设要求的预测模型中,得到目标预测标签结果;
[0024]对所述目标预测标签结果进行验证。
[0025]在本申请一种可能的实现方式中,所述对所述训练样本集合进行聚类分析,得到多个分类集合,包括:
[0026]提取所述训练样本集合中的训练样本的特征数据;
[0027]根据所述特征数据将所述训练样本集合中的训练样本划分到不同的分类集合中。
[0028]在本申请一种可能的实现方式中,在根据所述特征数据将所述训练样本集合中的训练样本划分到不同的分类集合中之后,所述方法还包括:
[0029]获取所述分类集合的领域属性;
[0030]基于所述领域属性,确定所述分类集合的误报等级;
[0031]基于所述误报等级,确定针对所述分类集合的数据清洗方式。
[0032]另一方面,本申请提供一种基于深度学习的图像数据清洗装置,所述装置包括:
[0033]第一获取单元,用于获取待清洗的图像属性的训练样本集合;
[0034]第一聚类分析单元,用于对所述训练样本集合进行聚类分析,得到多个分类集合,其中,每个分类集合中包括多个训练样本;
[0035]第一划分单元,用于将所述多个分类集合中各分类集合中的多个训练样本划分为训练集、验证集以及测试集;
[0036]第二获取单元,用于获取预设的满足预设要求的预测模型,所述预设要求为采用验证集进行验证的误差率小于预设阈值;
[0037]第一确定单元,用于基于所述预测模型和所述测试集,确定多个分类集合中各分类集合中的异常样本;
[0038]第一数据清洗单元,用于对所述异常样本所在的分类集合进行数据清洗。
[0039]另一方面,本申请还提供一种服务器,所述服务器包括:
[0040]一个或多个处理器;
[0041]存储器;以及
[0042]一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并
配置为由所述处理器执行以实现所述的基于深度学习的图像数据清洗方法。
[0043]另一方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行所述的基于深度学习的图像数据清洗方法中的步骤。
[0044]本申请提供的基于深度学习的图像数据清洗方法,包括:获取待清洗的图像属性的训练样本集合;对所述训练样本集合进行聚类分析,得到多个分类集合,其中,每个分类集合中包括多个训练样本;将所述多个分类集合中各分类集合中的多个训练样本划分为训练集、验证集以及测试集;获取预设的满足预设要求的预测模型,所述预设要求为采用验证集进行验证的误差率小于预设阈值;基于所述预测模型和所述测试集,确定多个分类集合中各分类集合中的异常样本;对所述异常样本所在的分类集合进行数据清洗。相较于传统方法,在当前人工进行数据清洗,成本高、效率低的背景下,本申请创造性的提出,通过聚类方法,先对训练样本集合进行分类,便于后续图像清洗,提高图像数据清洗效率,降低成本,并相比于无监督的方法,加入监督训练部分,可以让模型学习到同一类中的大部分的特征,进而在测试集中筛查出预测结果与标签结果相矛盾的样本,从而可以达到更好的数据清洗效果。
附图说明
[0045]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0046]图1是本申请实施例提供的图像数据清洗系统的场景示意图;...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的图像数据清洗方法,其特征在于,所述方法包括:获取待清洗的图像属性的训练样本集合;对所述训练样本集合进行聚类分析,得到多个分类集合,其中,每个分类集合中包括多个训练样本;将所述多个分类集合中各分类集合中的多个训练样本划分为训练集、验证集以及测试集;获取预设的满足预设要求的预测模型,所述预设要求为采用所述验证集进行验证的误差率小于预设阈值;基于所述预测模型和所述测试集,确定多个分类集合中各分类集合中的异常样本;对所述异常样本所在的分类集合进行数据清洗。2.根据权利要求1所述的基于深度学习的图像数据清洗方法,其特征在于,所述基于所述预测模型和所述测试集,确定多个分类集合中各分类集合中的异常样本,包括:基于所述预测模型获取所述测试集中各训练样本的预测标签结果;获取所述测试集中各训练样本的实际标签结果;基于所述预测标签结果和实际标签结果,确定多个分类集合中各分类集合中的异常样本。3.根据权利要求1所述的基于深度学习的图像数据清洗方法,其特征在于,所述获取预设的满足预设要求的预测模型,包括:利用所述训练集训练基于深度学习的初始预测模型,得到第一预测模型;基于所述验证集和所述第一预测模型,确定满足预设要求的预测模型。4.根据权利要求1所述的基于深度学习的图像数据清洗方法,其特征在于,在对所述训练样本集合进行聚类分析,得到多个分类集合之前,所述方法还包括:对所述训练样本集合进行图像质量增强处理,得到图像质量增强后的训练样本集合。5.根据权利要求1所述的基于深度学习的图像数据清洗方法,其特征在于,在对所述异常样本所在的分类集合进行数据清洗之后,所述方法还包括:对进行数据清洗后的分类集合中的训练样本输入预设的满足预设要求的预测模型中,得到目标预测标签结果;对所述目标预测标签结果进行验证。6.根据权利要...

【专利技术属性】
技术研发人员:柳阳
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1