数据清洗方法和装置制造方法及图纸

技术编号:16346072 阅读:71 留言:0更新日期:2017-10-03 22:23
本发明专利技术提供了数据清洗方法和装置,通过预先根据不同的数据特征,设置多种清洗规则,当需要对目标数据进行清洗时,根据目标数据的数据特征匹配清洗规则,继而利用匹配中的清洗规则对该目标数据进行清洗,从而保证了清洗规则与数据特征相适应,能够更加有针对性的对目标数据进行清洗,有效清洗出更多的脏数据,同时也减少了将干净数据误识别为脏数据的概率,改善了清洗的效果。

【技术实现步骤摘要】
数据清洗方法和装置
本专利技术涉及信息技术,尤其涉及一种数据清洗方法和装置。
技术介绍
数据清洗是在数据产出后对数据进行重新审查和校验的过程,目的在于识别出脏数据。因为数据仓库中的数据是从多个业务系统中抽取而来,而且包含历史数据和预测数据等多种类型,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是下一环节所不希望出现的,可以称为脏数据。数据清洗就是要按照一定的清洗规则识别出这些脏数据。现有技术中的数据清洗是在数据产出后,针对所有的数据遍历全部的清洗规则进行清洗,该清洗规则是各业务间通用的,主要针对数据是否残缺、数据格式是否有误等方面进行清洗,显然,这种方式仅能够清洗出数据中的较为明显的脏数据,当脏数据为存在取值有误等情况时,则无法清洗出该脏数据,从而清洗后所获得的干净数据中仍存在有脏数据,清洗效果较差。
技术实现思路
本专利技术提供一种数据清洗方法和装置,用于提高清洗效果。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,提供了一种数据清洗方法,包括:根据目标数据的数据特征匹配清洗规则;利用匹配中的清洗规则对所述目标数据进行清洗。第二方本文档来自技高网...
数据清洗方法和装置

【技术保护点】
一种数据清洗方法,其特征在于,包括:根据目标数据的数据特征匹配清洗规则;利用匹配中的清洗规则对所述目标数据进行清洗。

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:根据目标数据的数据特征匹配清洗规则;利用匹配中的清洗规则对所述目标数据进行清洗。2.根据权利要求1所述的数据清洗方法,其特征在于,所述根据目标数据的数据特征匹配清洗规则,包括:将产生所述目标数据的原业务、所述目标数据所需用于的目标业务、所述原业务中产生所述目标数据的原计算任务和/或所述目标业务中所述目标数据所需用于的目标计算任务作为所述数据特征;采用所述数据特征匹配预设的清洗规则。3.根据权利要求1所述的数据清洗方法,其特征在于,所述清洗规则包括至少两个清洗子规则,所述利用匹配中的清洗规则对所述目标数据进行清洗,包括:按照清洗子规则之间的层级顺序,获取上一层级清洗子规则清洗获得的干净数据;采用本层级清洗子规则对所述干净数据进行清洗。4.根据权利要求1所述的数据清洗方法,其特征在于,所述根据目标数据的数据特征匹配清洗规则之前,还包括:针对各业务和/或计算任务生成所述清洗规则。5.根据权利要求4所述的数据清洗方法,其特征在于,所述清洗规则包括三个清洗子规则;所述针对各业务和/或计算任务生成清洗规则,包括:将各业务通用的规则作为第一层级清洗子规则;将针对业务和/或计算任务设置的规则作为第二层级清洗子规则;将用户自定义规则作为第三层级清洗子规则。6.根据权利要求1-5任一项所述的数据清洗方法,其特征在于,所述利用匹配中的清洗规则对所述目标数据进行清洗,包括:获取所述匹配中的清洗规则所涉及的历史数据;依据所述历史数据,采用所匹配中的清洗规则对所述目标数据进行清洗。7.根据权利要求6所述的数据清洗方法,其特征在于,所述获取所述匹配中的清洗规则所涉及的历史数据之前,还包括:当确定存在匹配中的清洗规则时,根据所述匹配中的清洗规则所涉及的字段,从所述目标数据中提取所述字段的取值;将所提取到的字段的取值,作为下一次清洗所需的历史数据。8.一种数据清洗装置,...

【专利技术属性】
技术研发人员:马艳娟
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1