数据清洗方法和装置制造方法及图纸

技术编号:22054977 阅读:29 留言:0更新日期:2019-09-07 15:09
本公开的实施例公开了数据清洗方法和装置。该方法的一具体实施方式包括:获取待清洗的训练样本集合;提取训练样本集合中的训练样本的特征数据;对所得到的特征数据进行聚类处理,以确定训练样本集合中孤立的训练样本;基于所确定出的孤立的训练样本,对训练样本集合进行清洗,得到清洗后的训练样本集合。该实施方式丰富了数据清洗的方式,有助于提高数据清洗的效率和准确性。

Data cleaning methods and devices

【技术实现步骤摘要】
数据清洗方法和装置
本公开的实施例涉及计算机
,具体涉及数据清洗方法和装置。
技术介绍
数据清洗是指发现并纠正数据中的错误的一道程序,其任务是过滤掉不符合要求的数据。一般来说,数据清理是对清洗前的数据进行精简以得到清洗后的数据的过程。现有的数据清洗通常需要数据清洗人员手工实现,通过人工检查,逐个验证数据。
技术实现思路
本公开提出了数据清洗方法和装置。第一方面,本公开的实施例提供了一种数据清洗方法,该方法包括:获取待清洗的训练样本集合;提取训练样本集合中的训练样本的特征数据;对所得到的特征数据进行聚类处理,以确定训练样本集合中孤立的训练样本;基于所确定出的孤立的训练样本,对训练样本集合进行清洗,得到清洗后的训练样本集合。在一些实施例中,在获取待清洗的训练样本集合之后,提取训练样本集合中的训练样本的特征数据之前,该方法还包括:基于训练样本集合,训练得到包括特征提取层的模型;以及提取训练样本集合中的训练样本的特征数据,包括:采用特征提取层提取训练样本集合中的训练样本的特征数据。在一些实施例中,基于所确定出的孤立的训练样本,对训练样本集合进行清洗,得到清洗后的训练样本集合,包括:删除训练样本集合中孤立的训练样本,得到清洗后的训练样本集合。在一些实施例中,基于所确定出的孤立的训练样本,对训练样本集合进行清洗,得到清洗后的训练样本集合,包括:响应于检测到针对孤立的训练样本的删除操作,从训练样本集合中,删除所检测到的删除操作指示的训练样本,得到清洗后的训练样本集合。在一些实施例中,基于所确定出的孤立的训练样本,对训练样本集合进行清洗,得到清洗后的训练样本集合,包括:针对所确定出的孤立的训练样本中的训练样本,计算该训练样本的特征数据与该训练样本所属的聚类簇的聚类簇中心的距离,得到该训练样本对应的距离;按照训练样本对应的距离的大小顺序,从所确定出的孤立的训练样本中选取目标数量个训练样本;响应于检测到针对目标数量个训练样本中的训练样本的删除操作,删除上述删除操作所指示的训练样本,得到清洗后的训练样本集合。在一些实施例中,基于训练样本集合,训练得到包括特征提取层的模型,包括:获取包括特征提取层的初始模型;采用深度学习算法,基于初始模型和训练样本集合,训练得到包括特征提取层的模型;以及该方法还包括:采用深度学习算法,基于初始模型、清洗后的训练样本集合,训练得到模型。在一些实施例中,模型包括特征提取层序列;以及采用特征提取层提取训练样本集合中的训练样本的特征数据,包括:采用位于特征提取层序列中部的特征提取层提取训练样本集合中的训练样本的特征数据。在一些实施例中,模型包括特征提取层集合;以及采用特征提取层提取训练样本集合中的训练样本的特征数据,包括:采用特征提取层集合中的各个特征提取层提取训练样本集合中的训练样本的特征数据;以及对所得到的特征数据进行聚类处理,以确定训练样本集合中孤立的训练样本,包括:对特征提取层集合中的每个特征提取层提取的特征数据依次进行聚类处理,得到与每个特征提取层相对应的孤立的训练样本。第二方面,本公开的实施例提供了一种数据清洗装置,该装置包括:获取单元,被配置成获取待清洗的训练样本集合;提取单元,被配置成提取训练样本集合中的训练样本的特征数据;聚类单元,被配置成对所得到的特征数据进行聚类处理,以确定训练样本集合中孤立的训练样本;清洗单元,被配置成基于所确定出的孤立的训练样本,对训练样本集合进行清洗,得到清洗后的训练样本集合。在一些实施例中,该装置还包括:第一训练单元,被配置成基于训练样本集合,训练得到包括特征提取层的模型;以及提取单元包括:提取模块,被配置成采用特征提取层提取训练样本集合中的训练样本的特征数据。在一些实施例中,清洗单元包括:第一删除模块,被配置成删除训练样本集合中孤立的训练样本,得到清洗后的训练样本集合。在一些实施例中,清洗单元包括:第二删除模块,被配置成响应于检测到针对孤立的训练样本的删除操作,从训练样本集合中,删除所检测到的删除操作指示的训练样本,得到清洗后的训练样本集合。在一些实施例中,清洗单元包括:计算模块,被配置成针对所确定出的孤立的训练样本中的训练样本,计算该训练样本的特征数据与该训练样本所属的聚类簇的聚类簇中心的距离,得到该训练样本对应的距离;选取模块,被配置成按照训练样本对应的距离的大小顺序,从所确定出的孤立的训练样本中选取目标数量个训练样本;第三删除模块,被配置成响应于检测到针对目标数量个训练样本中的训练样本的删除操作,删除上述删除操作所指示的训练样本,得到清洗后的训练样本集合。在一些实施例中,第一训练单元包括:第一获取模块,被配置成获取包括特征提取层的初始模型;第四删除模块,被配置成采用深度学习算法,基于初始模型和训练样本集合,训练得到包括特征提取层的模型;以及该装置还包括:第二训练单元,被配置成采用深度学习算法,基于初始模型、清洗后的训练样本集合,训练得到模型。在一些实施例中,模型包括特征提取层序列;以及提取模块包括:第一提取子模块,被配置成采用位于特征提取层序列中部的特征提取层提取训练样本集合中的训练样本的特征数据。在一些实施例中,模型包括特征提取层集合;以及提取模块包括:第二提取子模块,被配置成采用特征提取层集合中的各个特征提取层提取训练样本集合中的训练样本的特征数据;以及聚类单元包括:聚类模块,被配置成对特征提取层集合中的每个特征提取层提取的特征数据依次进行聚类处理,得到与每个特征提取层相对应的孤立的训练样本。第三方面,本公开的实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得该一个或多个处理器实现如上述数据清洗方法中任一实施例的方法。第四方面,本公开的实施例提供了一种数据清洗计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述数据清洗方法中任一实施例的方法。本公开的实施例提供的数据清洗方法和装置,通过获取待清洗的训练样本集合,然后,提取训练样本集合中的训练样本的特征数据,之后,对所得到的特征数据进行聚类处理,以确定训练样本集合中孤立的训练样本,最后,基于所确定出的孤立的训练样本,对训练样本集合进行清洗,得到清洗后的训练样本集合,丰富了数据清洗的方式,有助于提高数据清洗的效率和准确性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:图1是本公开的一个实施例可以应用于其中的示例性系统架构图;图2是根据本公开的数据清洗方法的一个实施例的流程图;图3是根据本公开的数据清洗方法的一个应用场景的示意图;图4是根据本公开的数据清洗方法的又一个实施例的流程图;图5是针对图4的得到清洗后的训练样本集合的示意图;图6是根据本公开的数据清洗装置的一个实施例的结构示意图;图7是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特本文档来自技高网...

【技术保护点】
1.一种数据清洗方法,包括:获取待清洗的训练样本集合;提取所述训练样本集合中的训练样本的特征数据;对所得到的特征数据进行聚类处理,以确定所述训练样本集合中孤立的训练样本;基于所确定出的孤立的训练样本,对所述训练样本集合进行清洗,得到清洗后的训练样本集合。

【技术特征摘要】
1.一种数据清洗方法,包括:获取待清洗的训练样本集合;提取所述训练样本集合中的训练样本的特征数据;对所得到的特征数据进行聚类处理,以确定所述训练样本集合中孤立的训练样本;基于所确定出的孤立的训练样本,对所述训练样本集合进行清洗,得到清洗后的训练样本集合。2.根据权利要求1所述的方法,其中,在所述获取待清洗的训练样本集合之后,所述提取所述训练样本集合中的训练样本的特征数据之前,所述方法还包括:基于所述训练样本集合,训练得到包括特征提取层的模型;以及所述提取所述训练样本集合中的训练样本的特征数据,包括:采用所述特征提取层提取所述训练样本集合中的训练样本的特征数据。3.根据权利要求1所述的方法,其中,所述基于所确定出的孤立的训练样本,对所述训练样本集合进行清洗,得到清洗后的训练样本集合,包括:删除所述训练样本集合中孤立的训练样本,得到清洗后的训练样本集合。4.根据权利要求1所述的方法,其中,所述基于所确定出的孤立的训练样本,对所述训练样本集合进行清洗,得到清洗后的训练样本集合,包括:响应于检测到针对孤立的训练样本的删除操作,从所述训练样本集合中,删除所检测到的删除操作指示的训练样本,得到清洗后的训练样本集合。5.根据权利要求1所述的方法,其中,所述基于所确定出的孤立的训练样本,对所述训练样本集合进行清洗,得到清洗后的训练样本集合,包括:针对所确定出的孤立的训练样本中的训练样本,计算该训练样本的特征数据与该训练样本所属的聚类簇的聚类簇中心的距离,得到该训练样本对应的距离;按照训练样本对应的距离的大小顺序,从所确定出的孤立的训练样本中选取目标数量个训练样本;响应于检测到针对所述目标数量个训练样本中的训练样本的删除操作,删除所述删除操作所指示的训练样本,得到清洗后的训练样本集合。6.根据权利要求2所述的方法,其中,所述基于所述训练样本集合,训练得到包括特征提取层的模型,包括:获取包括特征提取层的初始模型;采用深度学习算法,基于所述初始模型和所述训练样本集合,训练得到包括特征提取层的模型;以及所述方法还包括:采用深度学习算法,基于所述初始模型、所述清洗后的训练样本集合,训练得到模型。7.根据权利要求2-6之一所述的方法,其中,模型包括特征提取层序列;以及所述采用所述特征提取层提取所述训练样本集合中的训练样本的特征数据,包括:采用位于所述特征提取层序列中部的特征提取层提取所述训练样本集合中的训练样本的特征数据。8.根据权利要求2-6之一所述的方法,其中,模型包括特征提取层集合;以及所述采用所述特征提取层提取所述训练样本集合中的训练样本的特征数据,包括:采用所述特征提取层集合中的各个特征提取层提取所述训练样本集合中的训练样本的特征数据;以及所述对所得到的特征数据进行聚类处理,以确定所述训练样本集合中孤立的训练样本,包括:对所述特征提取层集合中的每个特征提取层提取的特征数据依次进行聚类处理,得到与每个特征提取层相对应的孤立的训练样本。9.一种数据清洗装置,包括:获取单元,被配置成获取待清...

【专利技术属性】
技术研发人员:卢艺帆
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1