数据清洗方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36401349 阅读:53 留言:0更新日期:2023-01-18 10:08
本发明专利技术实施例涉及数据处理技术领域,公开了一种数据清洗方法、装置、电子设备及存储介质。该方法包括:构建配置文件,配置文件包括清洗规则和任务依赖关系;基于配置文件自动生成任务的有向无环图;构建关联表,关联表包括任务与待清洗数据的关联信息;基于有向无环图和关联表对待清洗数据进行清洗。实施本发明专利技术实施例,可以通过配置任务之间的依赖关系,自动生成有向无环图,尤其适用于较为复杂的数据清洗任务中。任务中。任务中。

【技术实现步骤摘要】
数据清洗方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理
,具体涉及一种数据清洗方法、装置、电子设备及存储介质。

技术介绍

[0002]在数据清洗过程中需要将数据分阶段,分批次进行同步,清洗,最终落库。各个数据流转过程存在上级或者下级的依赖关系,所以需要构造出对应的dag(有向无环图)任务;一般的是开发人员进行dag任务编写,或者通过页面的托拉拽生成;其中第一种方式流程繁琐,业务复杂的清洗任务有时对专业需求比较高,第二种方式只能进行简单的dag任务生成,涉及到复杂的清洗任务时,难以实现任务构造。

技术实现思路

[0003]针对所述缺陷,本专利技术实施例公开了一种数据清洗方法、装置、电子设备及存储介质,其通过配置任务之间的依赖关系,从而自动生成有向无环图。
[0004]本专利技术实施例第一方面公开一种数据清洗方法,所述方法包括:
[0005]构建配置文件,所述配置文件包括清洗规则和任务依赖关系;
[0006]基于所述配置文件自动生成任务的有向无环图;
[0007]构建关联表,所述关联表包括所述任务与待清洗数据的关联信息;
[0008]基于所述有向无环图和关联表对所述待清洗数据进行清洗。
[0009]作为较佳的实施例,在本专利技术实施例的第一方面中,在构建所述配置文件之前,还包括:
[0010]根据数据采集规则以及网站反爬策略,自动获取网页数据,并将数据存入mongo库。
[0011]作为较佳的实施例,在本专利技术实施例的第一方面中,构建配置文件,包括:
[0012]将数据清洗逻辑以及目标任务之间的依赖关系写入到对应的parse.yml文件,所述parse.yml文件与目标有向无环图相对应。
[0013]作为较佳的实施例,在本专利技术实施例的第一方面中,基于所述配置文件自动生成任务的有向无环图,包括:
[0014]使用airflow

scheduler读取并解析所述配置文件,根据所述解析结果自动生成所述目标有向无环图,所述目标有向无环图表征所述目标任务的依赖关系。
[0015]作为较佳的实施例,在本专利技术实施例的第一方面中,基于所述有向无环图和关联表对所述待清洗数据进行清洗,包括:
[0016]airflow调度平台读取所述有向无环图并根据所述有向无环图确定个任务之间的依赖关系,根据所述依赖关系和关联信息调取相应的待清洗数据,根据所述配置文件中的清洗规则对所述待清洗数据进行清洗。
[0017]作为较佳的实施例,在本专利技术实施例的第一方面中,所述方法还包括:
[0018]在清洗过程中,出现清洗异常时,发出提醒;
[0019]或/和,
[0020]将清洗成功的数据存储于指定的mysql数据库中。
[0021]本专利技术实施例第二方面公开了数据清洗装置,其包括:
[0022]第一构建模块,用于构建配置文件,所述配置文件包括清洗规则和任务依赖关系;
[0023]生成模块,用于基于所述配置文件自动生成任务的有向无环图;
[0024]第二构建模块,用于构建关联表,所述关联表包括所述任务与待清洗数据的关联信息;
[0025]清洗模块,用于基于所述有向无环图和关联表对所述待清洗数据进行清洗。
[0026]本专利技术实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本专利技术实施例第一方面公开的一种数据清洗方法。
[0027]本专利技术实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本专利技术实施例第一方面公开的一种数据清洗方法。
[0028]本专利技术实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本专利技术实施例第一方面公开的一种数据清洗方法。
[0029]本专利技术实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本专利技术实施例第一方面公开的一种数据清洗方法。
[0030]与现有技术相比,本专利技术实施例具有以下有益效果:
[0031]本专利技术通过配置任务之间的依赖关系,从而自动生成有向无环图,相较于现有编写生成有向无环图的方式对人员的要求不是太高,相较于通过托拉拽生成有向无环图的方式又可以实现复杂的任务清洗。
附图说明
[0032]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1是本专利技术实施例公开的一种数据清洗方法的流程示意图;
[0034]图2是本专利技术实施例公开的一种数据清洗装置的结构示意图;
[0035]图3是本专利技术实施例公开的一种电子设备的结构示意图。
具体实施方式
[0036]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0037]需要说明的是,本专利技术的说明书和权利要求书中的术语“第一”、“第二”、“第三”、

第四”等是用于区别不同的对象,而不是用于描述特定顺序。本专利技术实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,示例性地,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0038]本专利技术实施例公开了一种数据清洗方法、装置、电子设备及存储介质,可以通过配置任务之间的依赖关系,从而自动生成有向无环图,相较于现有编写生成有向无环图的方式对人员的要求不是太高,相较于通过托拉拽生成有向无环图的方式又可以实现复杂的任务清洗,以下结合附图进行详细描述。
[0039]实施例一
[0040]请参阅图1,图1是本专利技术实施例公开的一种数据清洗方法的流程示意图。如图1所示,该数据清洗方法包括以下步骤:
[0041]S110,构建配置文件,所述配置文件包括清洗规则和任务依赖关系。
[0042]在构造配置文件之前,还包括数据采集以及待清洗数据和清洗成功数据的存储问题。
[0043]在本专利技术较佳的实施例中,通过airflow的相关页面配置需要使用的数据库(mysql,mongodb),其中,将待清洗数据存储于mongodb数据库中,将清洗成功的数据存储于mysql数据库中。
[0044]数据采集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:构建配置文件,所述配置文件包括清洗规则和任务依赖关系;基于所述配置文件自动生成任务的有向无环图;构建关联表,所述关联表包括所述任务与待清洗数据的关联信息;基于所述有向无环图和关联表对所述待清洗数据进行清洗。2.根据权利要求1所述的数据清洗方法,其特征在于,在构建所述配置文件之前,还包括:根据数据采集规则以及网站反爬策略,自动获取网页数据,并将数据存入mongo库。3.根据权利要求1所述的数据清洗方法,其特征在于,构建配置文件,包括:将数据清洗逻辑以及目标任务之间的依赖关系写入到对应的parse.yml文件,所述parse.yml文件与目标有向无环图相对应。4.根据权利要求3所述的数据清洗方法,其特征在于,基于所述配置文件自动生成任务的有向无环图,包括:使用airflow

scheduler读取并解析所述配置文件,根据所述解析结果自动生成所述目标有向无环图,所述目标有向无环图表征所述目标任务的依赖关系。5.根据权利要求1所述的数据清洗方法,其特征在于,基于所述有向无环图和关联表对所述待清洗数据进行清洗,包括:airflow调度平台读取所述有向无环...

【专利技术属性】
技术研发人员:揭鹏虞伟王芳艳汤懿兰张稆方马怡婷黄桂煊胡博薛茹云许佳琳郑明升宋仁胜丁尽勉苏淑敏
申请(专利权)人:广东南方财经控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1