一种清洗数据的方法和装置制造方法及图纸

技术编号:20160606 阅读:63 留言:0更新日期:2019-01-19 00:13
本申请公开一种清洗数据的方法和装置,在对数据清洗的过程中,先挑出待清洗数据中大概率确定为正确的数据和错误的数据,中间有一些比较难以确认的数据再进行筛选,再挑选出正样本和负样本,从而大幅度减少人工,通过这种方式挑选出来的正样本和负样本的准确率很高,通过迁移学习和自动设置阈值的方法,可以快速而且可靠的对数据进行清洗。

【技术实现步骤摘要】
一种清洗数据的方法和装置
本申请涉及计算机
,尤其涉及一种清洗数据的方法和装置。
技术介绍
随着计算机科学与技术的发展,深度学习越来越广泛地应用于我们的生活中。数据对于深度学习就像动力能源对于机器,没有数据,再好的深度学习模型也发挥不了作用。获取数据的一个重要的方式是网络爬虫,但是网上爬下来的数据会包含大量错误,这也就给数据清洗工作人员带来很大的工作量。卷积神经网络目前正大量用于图像分类,图像分类的前提是拥有大量的数据。对于网络爬虫获取的图片,需要进一步的清洗,目前常用的清洗方法有:(1)人工清洗人工清洗的方法是目前数据清洗中最常用的一种方法,该方法主要通过人工识别的方式从大量的数据中清洗去除掉错误的图像。但人工清洗方法,主要缺点是需要的人力成本比较大,速度慢。(2)通过md5去重或者图像相似度算法去除相似图像通过去重和去相似图像算法能够去除掉一些重复数据或差别很小的数据。但本方法主要缺点是只能去除一些重复的或者相似的图像,没有能真正完成数据清洗。(3)基于多次深度学习训练迭代的清洗这种方法先直接利用低质量分类图像数据训练一个初步的卷积神经网络,再用该网络对数据本身进行识别,清洗掉模型识别为本类的伪概率低到一定程度的图像,或者数量少于一定程度的图像类别,重复上述过程直到获得所有图像数据类型的识别率达到预设的标准。本方法有一定的应用范围,例如只有在一个数据集中每个分类中包含少量的错误数据,而且错误数据与整体数据之间几乎不存在干扰。但如果错误数据在某一分类中占大多数,或者错误数据与正确数据之间干扰比较大,会对数据清洗的结果又非常大的影响。因此,如何自动地正确且快速的清洗网络爬虫获取的数据,成为有必要解决的技术问题。
技术实现思路
本申请的多个方面提供一种清洗数据的方法和装置,能自动地正确且快速的清洗网络爬虫获取的数据。本申请的第一方面提供一种清洗数据的方法,包括:对多类数据进行清洗得到正确数据和错误数据;对所述正确数据进行训练,得到训练之后的第一训练模型;对某一待清洗数据先进行去重和以相似度阈值进行去相似度得到第一剩余待清洗数据;按照指定的规则从所述第一剩余待清洗数据挑选出至少一个正样本、至少一个负样本和第二剩余待清洗数据;对所述至少一个正样本和所述至少一个负样本使用所述第一训练模型做迁移学习得到第二训练模型;根据所述第二训练模型确定第一阈值和第二阈值,其中,所述第一阈值和所述第二阈值用于对数据被判断为正负样本的置信度而设置的,所述第一阈值小于所述第二阈值,所述第一阈值为根据负样本的预设准确度计算所得,所述第二阈值为根据正样本的预设准确度计算所得;使用所述第二训练模型、所述第一阈值和所述第二阈值将所述第二剩余待清洗数据分为正样本、待人工清洗、负样本三个类别,其中,所述第二待清洗数据中置信度大于所述第二阈值的数据判断为正样本类数据,置信度小于所述第一阈值的数据判断为负样本类数据,置信度在所述第一阈值和所述第二阈值之间的数据成判断为待人工清洗类数据。可选地,所述根据所述第二训练模型确定所述第一阈值和所述第二阈值包括:将所述至少一个正样本和所述至少一个负样本按照一定的比例划分成训练集和验证集;根据所述第二训练模型的正负样本在所述验证集上的验证结果的统计以及所述第二训练模型的正负样本各自的预设准确度确定所述第一阈值和所述第二阈值。可选地,所述训练集包括预定第一比例的正样本和预定第二比例的负样本,所述验证集包括预定第三比例的正样本和预定第四比例的负样本,其中,所述第一比例大于所述第三比例,所述第二比例大于所述第四比例。可选地,所述第一比例和所述第三比例之和为100%,所述第二比例和所述第四比例之和为100%。可选地,所述第一比例和所述第二比例均为90%,所述第三比例和所述第四比例均为10%。本申请的第二方面提供一种清洗数据的装置,包括:第一清洗模块,用于对多类数据进行清洗得到正确数据和错误数据;第一训练模块,用于对所述正确数据进行训练,得到训练之后的第一训练模型;去重模块,用于对某一待清洗数据先进行去重和以相似度阈值进行去相似度得到第一剩余待清洗数据;挑选模块,用于按照指定的规则从所述第一剩余待清洗数据挑选出至少一个正样本、至少一个负样本和第二剩余待清洗数据;学习模块,用于对所述至少一个正样本和所述至少一个负样本使用所述第一训练模型做迁移学习得到第二训练模型;确定模块,用于根据所述第二训练模型确定第一阈值和第二阈值,其中,所述第一阈值和所述第二阈值用于对数据被判断为正负样本的置信度而设置的,所述第一阈值小于所述第二阈值,所述第一阈值为根据负样本的预设准确度计算所得,所述第二阈值为根据正样本的预设准确度计算所得;第二清洗模块,用于使用所述第二训练模型、所述第一阈值和所述第二阈值将所述第二剩余待清洗数据分为正样本、待人工清洗、负样本三个类别,其中,所述第二待清洗数据中置信度大于所述第二阈值的数据判断为正样本类数据,置信度小于所述第一阈值的数据判断为负样本类数据,置信度在所述第一阈值和所述第二阈值之间的数据成判断为待人工清洗类数据。可选地,所述确定模块具体包括:划分单元,用于将所述至少一个正样本和所述至少一个负样本按照一定的比例划分成训练集和验证集;确定单元,用于根据所述第二训练模型的正负样本在所述验证集上的验证结果的统计以及所述第二训练模型的正负样本各自的预设准确度确定所述第一阈值和所述第二阈值。可选地,所述训练集包括预定第一比例的正样本和预定第二比例的负样本,所述验证集包括预定第三比例的正样本和预定第四比例的负样本,其中,所述第一比例大于所述第三比例,所述第二比例大于所述第四比例。可选地,所述第一比例和所述第三比例之和为100%,所述第二比例和所述第四比例之和为100%。可选地,所述第一比例和所述第二比例均为90%,所述第三比例和所述第四比例均为10%。上述描述的清洗数据的方法和装置,在对数据清洗的过程中,先挑出待清洗数据中大概率确定为正确的数据(即正样本)和错误的数据(即负样本),中间有一些比较难以确认的数据再进行筛选,再挑选出正样本和负样本,从而大幅度减少人工,通过这种方式挑选出来的正样本和负样本的准确率很高,通过迁移学习和自动设置阈值的方法,可以快速而且可靠的对数据进行清洗。附图说明图1为本申请一实施例的一种清洗数据的方法的流程示意图;图2为本申请另一实施例的另一种清洗数据的方法的流程示意图;图3为本申请另一实施例的一种清洗数据的装置的结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。另外,本文中术语“系统”和“网络”在本文中常被可互换使用。如图1所示,为本申请一实施例的一种清洗数据的方法的流程示意图,所述本文档来自技高网
...

【技术保护点】
1.一种清洗数据的方法,其特征在于,包括:对多类数据进行清洗得到正确数据和错误数据;对所述正确数据进行训练,得到训练之后的第一训练模型;对某一待清洗数据先进行去重和以相似度阈值进行去相似度得到第一剩余待清洗数据;按照指定的规则从所述第一剩余待清洗数据挑选出至少一个正样本、至少一个负样本和第二剩余待清洗数据;对所述至少一个正样本和所述至少一个负样本使用所述第一训练模型做迁移学习得到第二训练模型;根据所述第二训练模型确定第一阈值和第二阈值,其中,所述第一阈值和所述第二阈值用于对数据被判断为正负样本的置信度而设置的,所述第一阈值小于所述第二阈值,所述第一阈值为根据负样本的预设准确度计算所得,所述第二阈值为根据正样本的预设准确度计算所得;使用所述第二训练模型、所述第一阈值和所述第二阈值将所述第二剩余待清洗数据分为正样本、待人工清洗、负样本三个类别,其中,所述第二待清洗数据中置信度大于所述第二阈值的数据判断为正样本类数据,置信度小于所述第一阈值的数据判断为负样本类数据,置信度在所述第一阈值和所述第二阈值之间的数据成判断为待人工清洗类数据。

【技术特征摘要】
1.一种清洗数据的方法,其特征在于,包括:对多类数据进行清洗得到正确数据和错误数据;对所述正确数据进行训练,得到训练之后的第一训练模型;对某一待清洗数据先进行去重和以相似度阈值进行去相似度得到第一剩余待清洗数据;按照指定的规则从所述第一剩余待清洗数据挑选出至少一个正样本、至少一个负样本和第二剩余待清洗数据;对所述至少一个正样本和所述至少一个负样本使用所述第一训练模型做迁移学习得到第二训练模型;根据所述第二训练模型确定第一阈值和第二阈值,其中,所述第一阈值和所述第二阈值用于对数据被判断为正负样本的置信度而设置的,所述第一阈值小于所述第二阈值,所述第一阈值为根据负样本的预设准确度计算所得,所述第二阈值为根据正样本的预设准确度计算所得;使用所述第二训练模型、所述第一阈值和所述第二阈值将所述第二剩余待清洗数据分为正样本、待人工清洗、负样本三个类别,其中,所述第二待清洗数据中置信度大于所述第二阈值的数据判断为正样本类数据,置信度小于所述第一阈值的数据判断为负样本类数据,置信度在所述第一阈值和所述第二阈值之间的数据成判断为待人工清洗类数据。2.如权利要求1所述的方法,其特征在于,所述根据所述第二训练模型确定所述第一阈值和所述第二阈值包括:将所述至少一个正样本和所述至少一个负样本按照一定的比例划分成训练集和验证集;根据所述第二训练模型的正负样本在所述验证集上的验证结果的统计以及所述第二训练模型的正负样本各自的预设准确度确定所述第一阈值和所述第二阈值。3.如权利要求2所述的方法,其特征在于,所述训练集包括预定第一比例的正样本和预定第二比例的负样本,所述验证集包括预定第三比例的正样本和预定第四比例的负样本,其中,所述第一比例大于所述第三比例,所述第二比例大于所述第四比例。4.如权利要求3所述的方法,其特征在于,所述第一比例和所述第三比例之和为100%,所述第二比例和所述第四比例之和为100%。5.如权利要求3或4所述的方法,其特征在于,所述第一比例和所述第二比例均为90%,所述第三比例和所述第四比例均为10%。6.一种清洗数据的装置,其特征在于,包括:第一清洗...

【专利技术属性】
技术研发人员:徐兴
申请(专利权)人:四川斐讯信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1