一种数据清洗的方法和装置制造方法及图纸

技术编号:25550650 阅读:31 留言:0更新日期:2020-09-08 18:49
本申请提供一种数据清洗的方法和装置。一种数据清洗的方法,预先设有标准数据元与清洗规则之间的对应关系,包括:接收清洗任务,所述清洗任务中包括待清洗数据;获取所述待清洗数据中各字段的属性;判断所述字段的属性是否匹配所述对应关系中的标准数据元;若匹配,则获取所述标准数据元对应的清洗规则;采用所述清洗规则对匹配标准数据元的字段进行清洗。本申请提供的数据清洗的方法,相比于现有技术可提高数据清洗的效率。

【技术实现步骤摘要】
一种数据清洗的方法和装置
本申请涉及数据处理领域,特别涉及一种数据清洗的方法和装置。
技术介绍
随着大数据逐渐渗透各个行业,数据的种类和数量都在不断地增加。高质量的数据对企业的决策、业务支撑起着关键作用,而低质量的数据则可能会影响业务或导致项目失败,基于此,越来越多的企业开始对海量数据进行清洗,以从中挖掘有价值的数据。数据清洗可以检测数据的一致性、处理无效值和缺失值、删除重复信息、纠正错误等等。现有技术中可以由操作人员手动建立数据清洗规则,比如针对不同的数据表分别建立对应的清洗规则,但由于实际情况下需要清洗的数据表的数量可能达到数万张、数十万张,为每个数据表都建立清洗规则显然会导致消耗大量的人力,导致数据清洗效率低下。
技术实现思路
有鉴于此,本申请提供一种数据清洗的方法和装置。具体地,本申请是通过如下技术方案实现的:一种数据清洗的方法,预先设有标准数据元与清洗规则之间的对应关系,所述方法包括:接收清洗任务,所述清洗任务中包括待清洗数据;获取所述待清洗数据中各字段的属性;判断所本文档来自技高网...

【技术保护点】
1.一种数据清洗的方法,其特征在于,预先设有标准数据元与清洗规则之间的对应关系,所述方法包括:/n接收清洗任务,所述清洗任务中包括待清洗数据;/n获取所述待清洗数据中各字段的属性;/n判断所述字段的属性是否匹配所述对应关系中的标准数据元;/n若匹配,则获取所述标准数据元对应的清洗规则;/n采用所述清洗规则对匹配标准数据元的字段进行清洗。/n

【技术特征摘要】
1.一种数据清洗的方法,其特征在于,预先设有标准数据元与清洗规则之间的对应关系,所述方法包括:
接收清洗任务,所述清洗任务中包括待清洗数据;
获取所述待清洗数据中各字段的属性;
判断所述字段的属性是否匹配所述对应关系中的标准数据元;
若匹配,则获取所述标准数据元对应的清洗规则;
采用所述清洗规则对匹配标准数据元的字段进行清洗。


2.根据权利要求1所述方法,其特征在于,所述方法还包括:
通过可视化界面展示匹配到的标准数据元和对应的清洗规则;
接收用户基于所述可视化界面设置的针对所述标准数据元的自定义清洗规则;
基于所述匹配得到的清洗规则和用户设置的自定义清洗规则,对匹配标准数据元的字段进行清洗。


3.根据权利要求2所述方法,其特征在于,所述通过可视化界面展示匹配到的标准数据元和对应的清洗规则,包括:
将匹配得到的标准数据元、清洗规则和对应的清洗示例展示给用户。


4.根据权利要求2所述方法,其特征在于,所述清洗任务为多个,所述方法还包括:
根据匹配得到的清洗规则和用户自定义清洗规则,生成清洗模板;
利用所述清洗模板对多个清洗任务中的剩余清洗任务进行清洗。


5.根据权利要求1所述方法,其特征在于,所述方法还包括:
记录清洗任务对应的清洗结果;
基于所述清洗结果重新设置所述标准数据元和清洗规则的对应关系。


6.一种数据清洗的装置,其特征在于,预先设有标准数据元与清洗规则之间的对应关系,所述装置包括:
接收单元,用于接收清洗任务,所述清洗任务中包括待清洗数据;
属性获取单元,用于获取所述待清洗数据中各字段的属性;
判断单元,用于判断所述字段的属性是否匹配所述对应关系中的标准数据元;<...

【专利技术属性】
技术研发人员:方薇荀志
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1