一种中小企业通用数据ETL任务同步方法技术

技术编号:35751036 阅读:13 留言:0更新日期:2022-11-26 18:56
本发明专利技术公开了一种中小企业通用数据ETL任务同步方法。它具体包括如下步骤:用户配置ETL任务源数据以及目标数据的连接组件、存储组件;响应用户的选择装载命令,确定与ETL任务对应,将需要的相关组件装载至ETL任务上;确定各个组件的数据流向,并用连接线连接;配置装载到ETL任务上的各个组件相关信息;解析每个组件的配置信息,生成相应的SQL语句或者JAVA程序;基于多组件以及组件之间的数据流向确定好ETL解析规则;根据ETL解析规则,以及各个组件对应的SQL语句或者JAVA代码,得到最终的可执行JAR文件,完成对数据的处理。本发明专利技术的有益效果是:将ETL任务过程流程化、可视化、组件化,实现ETL任务步骤自由组合,简便直观,满足了用户对于操作步骤的自定义要求。对于操作步骤的自定义要求。对于操作步骤的自定义要求。

【技术实现步骤摘要】
一种中小企业通用数据ETL任务同步方法


[0001]本专利技术涉及数据处理相关
,尤其是指一种中小企业通用数据ETL任务同步方法。

技术介绍

[0002]在数字化改革过程中, 数据联通、数据融合需要经过ETL同步操作, 读取数据、清洗数据最后装载至数据仓库中,从而汇聚企业所需全部数据。
[0003]在ETL同步过程中,一方面用户的数据需求是多样化的, 用户出执行步骤的组合、增加都需要有较为完善的自定义能力以及跨平台执行能力;另一方面,ETL不仅仅有结构化数据还有非结构化数据,同时需要满足对非结构化数据的存储、标记。

技术实现思路

[0004]本专利技术是为了克服现有技术中存在上述的不足,提供了一种操作步骤自定义的中小企业通用数据ETL任务同步方法。
[0005]为了实现上述目的,本专利技术采用以下技术方案:一种中小企业通用数据ETL任务同步方法,具体包括如下步骤:(1)用户配置ETL任务源数据以及目标数据的连接组件、存储组件,确定数据连接组件,用于响应组件的数据读写请求;(2)显示组件列表,响应用户的选择装载命令,确定与ETL任务对应,将需要的相关组件装载至ETL任务上;(3)确定各个组件的数据流向,并用连接线连接;(4)配置装载到ETL任务上的各个组件相关信息;(5)解析每个组件的配置信息,生成相应的SQL语句或者JAVA程序;(6)基于多组件以及组件之间的数据流向确定好ETL解析规则;(7)根据ETL解析规则,以及各个组件对应的SQL语句或者JAVA代码,得到最终的可执行JAR文件,完成对数据的处理。
[0006]本方法处理数据源与存储配置,响应用户的选择命令,装载与ETL任务过程相关的组件,确定各组件之间的数据流与执行顺序,配置各个组件的参数;根据数据流和组件参数生成ETL任务规则,根据规则生成SQL语句和JAVA代码,编译成可执行文件,执行文件以完成对数据的同步过程。本专利技术通过将ETL任务过程流程化、可视化、组件化,通过拖拽自定义ETL任务步骤配置项,组件实现ETL任务步骤自由组合,动态将ETL任务转换成包含嵌套SQL语句和JAVA代码的JAR文件,并执行该文件,该方案简便直观,满足了ETL操作过程中用户对于操作步骤的自定义要求。
[0007]作为优选,在步骤(1)中,不同的ETL任务包含不同的数据处理组件,组件是一个或者多个,并且每个组件含有完整的功能,用户在使用这些组件的时候选择直接使用或者根据需要进行数据库函数配置或者JAVA编码使用;在ETL任务过程,至少包括数据连接组件、
数据装载组件或者文件存储组件、数据流组件。
[0008]作为优选,在步骤(2)中,在确定ETL任务之前,需要先装载组件,从组件库中选择出与ETL任务对应的相关组件,组件库的装载方法如下:响应与用户可视化界面的拖拽操作,生成装载指令,基于装载指令,装载至ETL任务中;组件库是系统默认内置或者是用户根据需要根据多组件自定义生成的,具体地,包括以下步骤:选择拖拽多个组件,对多个组件的基础参数进行配置,基于多个组件,构建组件库;其中,基础参数包括各组件的数据流以及输入输出信息。
[0009]作为优选,在步骤(3)中,确定任务目标之间的数据流向,其中数据流向使用带单向有箭头方向的连接线来标识执行顺序,数据流标识数据的输入和输出,箭头的方向标识数据流向,箭头侧表示输入流,箭头的另外侧表示输出流。
[0010]作为优选,在步骤(4)中,在组件装载好、数据流向确定之后,根据ETL任务需要对目标组件进行配置,在对目标组件进行配置时,双击组件,然后分别对相应的组件进行输入输出和步骤的参数配置;在ETL任务过程中,除数据连接与存储之外,至少包括以下步骤之一:数据选择、数据关联、数据去重、数据统计、数据字段匹配映射、数据库函数处理、JAVA代码处理;在具体执行某一ETL任务时,根据相关步骤选择组件。
[0011]作为优选,在步骤(5)中,在组件中根据数据流向生成每个节点的SQL语句或者JAVA程序;根据前一个节点的输出SQL,作为后一个组件的输入,同时后一个组件对前一个组件的输入进行嵌套操作,根据用户的配置信息生成一个SQL;组件根据配置信息生成嵌套SQL,并生成对应的物理表,并将嵌套SQL和物理表信息作为输出传递给下一个输入节点。
[0012]作为优选,在步骤(6)中,ETL解析规则表示多个组件类型、多个目标组件数据流,因此, ETL解析规则将除程序组件外的所有组件对应的结构化查询语言SQL语句进行组合,得到最终查询语句,数据流中含有程序组件,以有程序组件为分割,程序组件以数据处理组件的最终查询语句为输入,根据代码功能初始化SQL作为输出。
[0013]作为优选,在步骤(6)中,在生成ETL解析规则后,还需要对ETL解析规则进行校验,对ETL解析规则的校验决定ETL任务是否会按照用户要求顺利执行,检验不通过即不符合要求的ETL解析规则的任务不被执行:ETL解析规则的校验包括:(61)除连接和存储组件外,其他组件必须含有至少一个输入和输出流,即组件必须是相连接状态;(62)所有组件均需要串行连接,确保各个组件的先后顺序,组件之间不能出现回路的情况;(63)各组件对输入的字段进行操作需要满足不同的类型;具体地,每执行一个ETL任务中的步骤后,生成一个数据表,对ETL解析规则进行校验,包括:判断输出的类型与输入的操作类型是否相同;若相同,则检验不通过,如果不同,组件会自动进行类型提升,若提升后,SQL可执行则检验通过,若不能执行则不通过。
[0014]作为优选,在步骤(7)中,具体地,采用MAVEN方式引入用户添加的第三方包文件,将SQL嵌套语句、JAVA程序代码、第三方包文件以及配置文件打包编译至JAR文件中,JAR文件执行顺序与ETL解析规则一致,数据流经过程序处理组件,嵌套SQL语句经过JAVA代码处理后重新生成新的不嵌套的SQL进行输出。
[0015]本专利技术的有益效果是:将ETL任务过程流程化、可视化、组件化,通过拖拽自定义
ETL任务步骤配置项,组件实现ETL任务步骤自由组合,动态将ETL任务转换成包含嵌套SQL语句和JAVA代码的JAR文件,并执行该文件,该方案简便直观,满足了ETL操作过程中用户对于操作步骤的自定义要求。
附图说明
[0016]图1是本专利技术的方法流程示意图;图2是本专利技术中根据ETL任务装载多个目标组件的示意图。
具体实施方式
[0017]下面结合附图和具体实施方式对本专利技术做进一步的描述。
[0018]如图1所述的实施例中,一种中小企业通用数据ETL任务同步方法,具体包括如下步骤:(1)用户配置ETL任务源数据以及目标数据的连接组件、存储组件,确定数据连接组件,用于响应组件的数据读写请求;配置数据源以及目标存储信息,是组件进行数据处理的基础。
[0019]不同的ETL任务包含不同的数据处理组件,组件是一个或者多个,并且每个组件含有完整的功能,用户在使用这些组件的时候选择直接使用或者根据需要进行数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中小企业通用数据ETL任务同步方法,其特征是,具体包括如下步骤:(1)用户配置ETL任务源数据以及目标数据的连接组件、存储组件,确定数据连接组件,用于响应组件的数据读写请求;(2)显示组件列表,响应用户的选择装载命令,确定与ETL任务对应,将需要的相关组件装载至ETL任务上;(3)确定各个组件的数据流向,并用连接线连接;(4)配置装载到ETL任务上的各个组件相关信息;(5)解析每个组件的配置信息,生成相应的SQL语句或者JAVA程序;(6)基于多组件以及组件之间的数据流向确定好ETL解析规则;(7)根据ETL解析规则,以及各个组件对应的SQL语句或者JAVA代码,得到最终的可执行JAR文件,完成对数据的处理。2.根据权利要求1所述的一种中小企业通用数据ETL任务同步方法,其特征是,在步骤(1)中,不同的ETL任务包含不同的数据处理组件,组件是一个或者多个,并且每个组件含有完整的功能,用户在使用这些组件的时候选择直接使用或者根据需要进行数据库函数配置或者JAVA编码使用;在ETL任务过程,至少包括数据连接组件、数据装载组件或者文件存储组件、数据流组件。3.根据权利要求1所述的一种中小企业通用数据ETL任务同步方法,其特征是,在步骤(2)中,在确定ETL任务之前,需要先装载组件,从组件库中选择出与ETL任务对应的相关组件,组件库的装载方法如下:响应与用户可视化界面的拖拽操作,生成装载指令,基于装载指令,装载至ETL任务中;组件库是系统默认内置或者是用户根据需要根据多组件自定义生成的,具体地,包括以下步骤:选择拖拽多个组件,对多个组件的基础参数进行配置,基于多个组件,构建组件库;其中,基础参数包括各组件的数据流以及输入输出信息。4.根据权利要求1所述的一种中小企业通用数据ETL任务同步方法,其特征是,在步骤(3)中,确定任务目标之间的数据流向,其中数据流向使用带单向有箭头方向的连接线来标识执行顺序,数据流标识数据的输入和输出,箭头的方向标识数据流向,箭头侧表示输入流,箭头的另外侧表示输出流。5.根据权利要求1所述的一种中小企业通用数据ETL任务同步方法,其特征是,在步骤(4)中,在组件装载好、数据流向确定之后,根据ETL任务需要对目标组件进行配置,在对目标组件进行配置时,双击组件,然后分别对相应的组件进行输入输出和步骤的参数配置;在ETL任务过程中,除数据连接与存储之外,至少包括以下步骤之一:数据选择、...

【专利技术属性】
技术研发人员:王维维
申请(专利权)人:中国计量大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1