数据清洗方法及装置制造方法及图纸

技术编号:31712584 阅读:23 留言:0更新日期:2022-01-01 11:16
本申请提供一种数据清洗方法及装置,应用于多级数据仓库中任一数据仓库对应的目标清洗节点,所述方法包括:从所述任一数据仓库中确定待清洗的目标数据并创建针对所述目标数据的清洗任务,所述清洗任务包含所述目标数据信息以及清洗规则;确定所述目标数据的来源数据仓库,并根据数据仓库与清洗节点之间的映射关系确定所述来源数据仓库对应的目标清洗子节点;同步所述清洗任务至所述目标清洗子节点,使所述来源数据仓库根据相应的目标清洗子节点下发的清洗任务对所述目标数据进行清洗。节点下发的清洗任务对所述目标数据进行清洗。节点下发的清洗任务对所述目标数据进行清洗。

【技术实现步骤摘要】
数据清洗方法及装置


[0001]本申请涉及数据仓库领域,特别是数据清洗方法及装置。

技术介绍

[0002]数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误、处理无效值和缺失值等。相关技术中,在多级数据仓库的场景下,不同层级的数据仓库具有自身的清洗节点用以控制本级数据仓库数据清洗过程。不同级别的清洗节点无法联动,导致各级数据仓库使用的清洗规则不一致、不统一。

技术实现思路

[0003]有鉴于此,本申请提供一种数据清洗方法及装置,用以清洗数据。
[0004]具体的,本申请通过如下技术方案实现:
[0005]根据本申请的第一方面,提出了一种数据清洗方法,应用于多级数据仓库中任一数据仓库对应的目标清洗节点,所述方法包括:
[0006]从所述任一数据仓库中确定待清洗的目标数据并创建针对所述目标数据的清洗任务,所述清洗任务包含所述目标数据信息以及清洗规则;
[0007]确定所述目标数据的来源数据仓库,并根据数据仓库与清洗节点之间的映射关系确定所述来源数据仓库对应的目标清洗子节点;本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据清洗方法,其特征在于,应用于多级数据仓库中任一数据仓库对应的目标清洗节点,所述方法包括:从所述任一数据仓库中确定待清洗的目标数据并创建针对所述目标数据的清洗任务,所述清洗任务包含所述目标数据信息以及清洗规则;确定所述目标数据的来源数据仓库,并根据数据仓库与清洗节点之间的映射关系确定所述来源数据仓库对应的目标清洗子节点;同步所述清洗任务至所述目标清洗子节点,使所述来源数据仓库根据相应的目标清洗子节点下发的清洗任务对所述目标数据进行清洗。2.根据权利要求1所述的方法,其特征在于,所述确定所述目标数据的来源数据仓库,包括:对所述目标数据进行血缘关系分析以确定所述目标数据的来源数据仓库。3.根据权利要求1所述的方法,其特征在于,在所述多级数据仓库中,所述任一数据仓库包括所述来源数据仓库的上级数据仓库。4.根据权利要求1所述的方法,其特征在于,所述映射关系由所述目标清洗节点建立,所述映射关系至少包含所述目标清洗节点的各个清洗子节点与其对应的数据仓库之间的关联。5.根据权利要求1所述的方法,其特征在于,所述同步所述清洗任务至所述目标清洗子节点,使所述来源数据仓库根据相应的目标清洗子节点下发的清洗任务对所述目标数据进行清洗,包括:同步所述清洗任务以及所述清洗任务的执行周期至所述目标清洗子节点,使所述来源数据仓库根据相应的目标清洗子节点下发的清洗任务,按照所述执行周期对所述目标数据进行清洗。6....

【专利技术属性】
技术研发人员:林鹏程崔晓峰
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1