数据清洗方法和装置制造方法及图纸

技术编号:16346072 阅读:49 留言:0更新日期:2017-10-03 22:23
本发明专利技术提供了数据清洗方法和装置,通过预先根据不同的数据特征,设置多种清洗规则,当需要对目标数据进行清洗时,根据目标数据的数据特征匹配清洗规则,继而利用匹配中的清洗规则对该目标数据进行清洗,从而保证了清洗规则与数据特征相适应,能够更加有针对性的对目标数据进行清洗,有效清洗出更多的脏数据,同时也减少了将干净数据误识别为脏数据的概率,改善了清洗的效果。

【技术实现步骤摘要】
数据清洗方法和装置
本专利技术涉及信息技术,尤其涉及一种数据清洗方法和装置。
技术介绍
数据清洗是在数据产出后对数据进行重新审查和校验的过程,目的在于识别出脏数据。因为数据仓库中的数据是从多个业务系统中抽取而来,而且包含历史数据和预测数据等多种类型,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是下一环节所不希望出现的,可以称为脏数据。数据清洗就是要按照一定的清洗规则识别出这些脏数据。现有技术中的数据清洗是在数据产出后,针对所有的数据遍历全部的清洗规则进行清洗,该清洗规则是各业务间通用的,主要针对数据是否残缺、数据格式是否有误等方面进行清洗,显然,这种方式仅能够清洗出数据中的较为明显的脏数据,当脏数据为存在取值有误等情况时,则无法清洗出该脏数据,从而清洗后所获得的干净数据中仍存在有脏数据,清洗效果较差。
技术实现思路
本专利技术提供一种数据清洗方法和装置,用于提高清洗效果。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,提供了一种数据清洗方法,包括:根据目标数据的数据特征匹配清洗规则;利用匹配中的清洗规则对所述目标数据进行清洗。第二方面,提供了一种数据清洗装置,包括:匹配模块,用于根据目标数据的数据特征匹配清洗规则;清洗模块,用于利用匹配中的清洗规则对所述目标数据进行清洗。本专利技术实施例提供的数据清洗方法和装置,通过预先根据不同的数据特征,设置多种清洗规则,当需要对目标数据进行清洗时,根据目标数据的数据特征匹配清洗规则,继而利用匹配中的清洗规则对该目标数据进行清洗,从而保证了清洗规则与数据特征相适应,能够更加有针对性的对目标数据进行清洗,有效清洗出更多的脏数据,同时也减少了将干净数据误识别为脏数据的概率,改善了清洗的效果。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例一提供的一种数据清洗方法的流程示意图;图2为本专利技术实施例二提供的一种数据清洗方法的流程示意图;图3为本专利技术实施例三提供的一种数据清洗装置的结构示意图;图4为本专利技术实施例四提供的一种数据清洗装置的结构示意图;图5为本专利技术实施例五提供的一种数据清洗装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。下面结合附图对本专利技术实施例提供的数据清洗方法和装置进行详细描述。实施例一图1为本专利技术实施例一提供的一种数据清洗方法的流程示意图,如图1所示,包括:步骤101、根据目标数据的数据特征匹配清洗规则。其中,数据特征用于对目标数据进行描述。具体的,可以从请求对目标数据进行清洗的请求端获取到数据相关信息。例如:产生目标数据的原业务、目标数据所需用于的目标业务、原业务中产生目标数据的原计算任务和/或目标业务中目标数据所需用于的目标计算任务等数据相关信息。将产生目标数据的原业务、目标数据所需用于的目标业务、原业务中产生目标数据的原计算任务和/或目标业务中目标数据所需用于的目标计算任务作为数据特征,采用数据特征匹配预设的清洗规则。由于将与目标数据相关的任务和/或计算任务作为数据特征,能够准确对目标数据进行描述,从而使得清洗规则与目标数据更加匹配,保证了清洗的效果。步骤102、利用匹配中的清洗规则对目标数据进行清洗。其中,清洗规则可以包括至少两个清洗子规则。作为一种可能的实现形式,各清洗子规则之间为串行关系。具体来说,可以按照匹配中的清洗子规则之间的层级顺序,获取上一层级清洗子规则清洗获得的干净数据;让后采用本层级清洗子规则对上一层级所清洗获得的干净数据进行清洗。作为另一种可能的实现形式,各清洗子规则之间为并行关系。具体来说,各清洗子规则均遍历目标数据,针对目标数据中的每一条数据进行清洗。当一条数据被至少一个清洗子规则标记为脏数据时,则将该数据标记为目标数据的脏数据;当一条数据被全部的清洗子规则标记为干净数据时,则将该数据标记为目标数据的干净数据。可见,由于在第二种实现形式中,需要各清洗子规则均遍历目标数据,因此,执行时间较长,而第一种实现形式中,逐层清洗的方式仅对上一层获得的干净数据进行清洗,因而相较于第二种实现形式能够减少运算量,同时节省执行时间和运行资源。另外,根据目标数据的数据特征匹配清洗规则之后,利用匹配中的清洗规则对该目标数据进行清洗,保证了清洗规则与数据特征相匹配,能够更加有针对性的对目标数据进行清洗,有效清洗出更多的脏数据,改善了清洗的效果。实施例二图2为本专利技术实施例二提供的一种数据清洗方法的流程示意图,如图2所示,包括:步骤201、对清洗规则进行配置。具体的,可以预先对清洗规则进行配置,配置的过程可以由用户手动完成,也可以由数据清洗平台根据已存在的清洗规则自动生成。作为一种可能的实现形式,清洗规则包括三个层级:分别为第一层级清洗子规则、第二层级清洗子规则和第三层级清洗子规则。下面分别对三个层级进行说明:A、第一层级清洗子规则,由各业务通用的规则构成,主要用于识别出残缺、重复和明显错误的脏数据。例如,第一层级清洗子规则可以包括:数据中某个字段不能为空、数据已经完结态但是没有完结时间、数据产生时间在民国前、判断a字段加b字段是否等于c字段、某日期字段数据存储格式有误等。B、第二层级清洗子规则,由针对业务的规则构成,主要用于识别出不同业务所特有的脏数据。例如,以报警监控系统为例,报警监控系统接入的业务方是确定的,如接入了元数据中心meta、交易系统pay、离线数据处理中心datax,则报警监控系统产出的数据中,调用方字段的取值只能属于三种枚举值,一旦出现其他的调用方,数据应该被清洗出来。第二级清洗规则不仅可以针对不同业务设置清洗规则,还可以进一步,设置根据该业务的历史数据进行清洗的清洗规则。例如:计算业务数据中的特定字段相对历史数据的波动范围是否超出预设阈值,若超出,则作为脏数据。C、第三级清洗子规则,可供用户自定义使用。前两个层级的清洗子规则是预置在数据清洗平台中的,第三级清洗子规则可以基于数据清洗平台所设置的接口,从用户端获取该第三层级清洗子规则,从而实现用户自定义设置清洗规则。作为一种可能的应用场景,高德业务方可以采用用户端定义清洗规则。例如:连续轨迹中,以数据起点为圆心,某一长度为半径,确定一个圆,具体半径取值可以参照数据产生的快慢,如果用户是走路,则正常速度不会超过2m/s,折算到平面地图比例即可。识别落在圆外的数据,如果是个别则忽略,若连续超过预设数目条的数据均落在圆外,则视这些落在圆外的数据为脏数据。这是由于,基于移动速度可以判断出用户不可能在这个时间段内处于数据所本文档来自技高网...
数据清洗方法和装置

【技术保护点】
一种数据清洗方法,其特征在于,包括:根据目标数据的数据特征匹配清洗规则;利用匹配中的清洗规则对所述目标数据进行清洗。

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:根据目标数据的数据特征匹配清洗规则;利用匹配中的清洗规则对所述目标数据进行清洗。2.根据权利要求1所述的数据清洗方法,其特征在于,所述根据目标数据的数据特征匹配清洗规则,包括:将产生所述目标数据的原业务、所述目标数据所需用于的目标业务、所述原业务中产生所述目标数据的原计算任务和/或所述目标业务中所述目标数据所需用于的目标计算任务作为所述数据特征;采用所述数据特征匹配预设的清洗规则。3.根据权利要求1所述的数据清洗方法,其特征在于,所述清洗规则包括至少两个清洗子规则,所述利用匹配中的清洗规则对所述目标数据进行清洗,包括:按照清洗子规则之间的层级顺序,获取上一层级清洗子规则清洗获得的干净数据;采用本层级清洗子规则对所述干净数据进行清洗。4.根据权利要求1所述的数据清洗方法,其特征在于,所述根据目标数据的数据特征匹配清洗规则之前,还包括:针对各业务和/或计算任务生成所述清洗规则。5.根据权利要求4所述的数据清洗方法,其特征在于,所述清洗规则包括三个清洗子规则;所述针对各业务和/或计算任务生成清洗规则,包括:将各业务通用的规则作为第一层级清洗子规则;将针对业务和/或计算任务设置的规则作为第二层级清洗子规则;将用户自定义规则作为第三层级清洗子规则。6.根据权利要求1-5任一项所述的数据清洗方法,其特征在于,所述利用匹配中的清洗规则对所述目标数据进行清洗,包括:获取所述匹配中的清洗规则所涉及的历史数据;依据所述历史数据,采用所匹配中的清洗规则对所述目标数据进行清洗。7.根据权利要求6所述的数据清洗方法,其特征在于,所述获取所述匹配中的清洗规则所涉及的历史数据之前,还包括:当确定存在匹配中的清洗规则时,根据所述匹配中的清洗规则所涉及的字段,从所述目标数据中提取所述字段的取值;将所提取到的字段的取值,作为下一次清洗所需的历史数据。8.一种数据清洗装置,...

【专利技术属性】
技术研发人员:马艳娟
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1