【技术实现步骤摘要】
数据清洗方法和装置
本公开的实施例涉及计算机
,具体涉及数据清洗方法和装置。
技术介绍
数据清洗是指发现并纠正数据中的错误的一道程序,其任务是过滤掉不符合要求的数据。一般来说,数据清理是对清洗前的数据进行精简以得到清洗后的数据的过程。现有的数据清洗通常需要数据清洗人员手工实现,通过人工检查,逐个验证数据。
技术实现思路
本公开提出了数据清洗方法和装置。第一方面,本公开的实施例提供了一种数据清洗方法,该方法包括:获取待清洗的训练样本集合;提取训练样本集合中的训练样本的特征数据;对所得到的特征数据进行聚类处理,以确定训练样本集合中孤立的训练样本;基于所确定出的孤立的训练样本,对训练样本集合进行清洗,得到清洗后的训练样本集合。在一些实施例中,在获取待清洗的训练样本集合之后,提取训练样本集合中的训练样本的特征数据之前,该方法还包括:基于训练样本集合,训练得到包括特征提取层的模型;以及提取训练样本集合中的训练样本的特征数据,包括:采用特征提取层提取训练样本集合中的训练样本的特征数据。在一些实施例中,基于所确定出的孤立的训练样本,对训练样本集合进行清洗,得到清洗后的训练样本集合,包括:删除训练样本集合中孤立的训练样本,得到清洗后的训练样本集合。在一些实施例中,基于所确定出的孤立的训练样本,对训练样本集合进行清洗,得到清洗后的训练样本集合,包括:响应于检测到针对孤立的训练样本的删除操作,从训练样本集合中,删除所检测到的删除操作指示的训练样本,得到清洗后的训练样本集合。在一些实施例中,基于所确定出的孤立的训练样本,对训练样本集合进行清洗,得到清洗后的训练样本集合,包括: ...
【技术保护点】
1.一种数据清洗方法,包括:获取待清洗的训练样本集合;提取所述训练样本集合中的训练样本的特征数据;对所得到的特征数据进行聚类处理,以确定所述训练样本集合中孤立的训练样本;基于所确定出的孤立的训练样本,对所述训练样本集合进行清洗,得到清洗后的训练样本集合。
【技术特征摘要】
1.一种数据清洗方法,包括:获取待清洗的训练样本集合;提取所述训练样本集合中的训练样本的特征数据;对所得到的特征数据进行聚类处理,以确定所述训练样本集合中孤立的训练样本;基于所确定出的孤立的训练样本,对所述训练样本集合进行清洗,得到清洗后的训练样本集合。2.根据权利要求1所述的方法,其中,在所述获取待清洗的训练样本集合之后,所述提取所述训练样本集合中的训练样本的特征数据之前,所述方法还包括:基于所述训练样本集合,训练得到包括特征提取层的模型;以及所述提取所述训练样本集合中的训练样本的特征数据,包括:采用所述特征提取层提取所述训练样本集合中的训练样本的特征数据。3.根据权利要求1所述的方法,其中,所述基于所确定出的孤立的训练样本,对所述训练样本集合进行清洗,得到清洗后的训练样本集合,包括:删除所述训练样本集合中孤立的训练样本,得到清洗后的训练样本集合。4.根据权利要求1所述的方法,其中,所述基于所确定出的孤立的训练样本,对所述训练样本集合进行清洗,得到清洗后的训练样本集合,包括:响应于检测到针对孤立的训练样本的删除操作,从所述训练样本集合中,删除所检测到的删除操作指示的训练样本,得到清洗后的训练样本集合。5.根据权利要求1所述的方法,其中,所述基于所确定出的孤立的训练样本,对所述训练样本集合进行清洗,得到清洗后的训练样本集合,包括:针对所确定出的孤立的训练样本中的训练样本,计算该训练样本的特征数据与该训练样本所属的聚类簇的聚类簇中心的距离,得到该训练样本对应的距离;按照训练样本对应的距离的大小顺序,从所确定出的孤立的训练样本中选取目标数量个训练样本;响应于检测到针对所述目标数量个训练样本中的训练样本的删除操作,删除所述删除操作所指示的训练样本,得到清洗后的训练样本集合。6.根据权利要求2所述的方法,其中,所述基于所述训练样本集合,训练得到包括特征提取层的模型,包括:获取包括特征提取层的初始模型;采用深度学习算法,基于所述初始模型和所述训练样本集合,训练得到包括特征提取层的模型;以及所述方法还包括:采用深度学习算法,基于所述初始模型、所述清洗后的训练样本集合,训练得到模型。7.根据权利要求2-6之一所述的方法,其中,模型包括特征提取层序列;以及所述采用所述特征提取层提取所述训练样本集合中的训练样本的特征数据,包括:采用位于所述特征提取层序列中部的特征提取层提取所述训练样本集合中的训练样本的特征数据。8.根据权利要求2-6之一所述的方法,其中,模型包括特征提取层集合;以及所述采用所述特征提取层提取所述训练样本集合中的训练样本的特征数据,包括:采用所述特征提取层集合中的各个特征提取层提取所述训练样本集合中的训练样本的特征数据;以及所述对所得到的特征数据进行聚类处理,以确定所述训练样本集合中孤立的训练样本,包括:对所述特征提取层集合中的每个特征提取层提取的特征数据依次进行聚类处理,得到与每个特征提取层相对应的孤立的训练样本。9.一种数据清洗装置,包括:获取单元,被配置成获取待清...
【专利技术属性】
技术研发人员:卢艺帆,
申请(专利权)人:北京字节跳动网络技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。