生成并执行ETL任务的方法及设备技术

技术编号:23288105 阅读:29 留言:0更新日期:2020-02-08 18:09
本申请涉及一种生成并执行ETL任务的方法,由于ETL需求中的数据处理过程包括多个数据处理环节,将数据处理过程转换成元数据,通过元数据来描述各所述数据处理环节的输入数据,输出数据和当前数据处理环节的处理明细。根据元数据生成ETL任务并执行ETL任务,得到ETL任务执行结果,ETL任务执行结果包括:各数据处理环节的输入数据数量,输出数据数量,数据处理结果。根据ETL任务执行结果中的输入数据数量,输出数据数量是否达到预设要求,数据处理结果是否成功来确定各数据处理环节是否出现错误,从而提高排查效率。

Methods and devices for generating and executing ETL tasks

【技术实现步骤摘要】
生成并执行ETL任务的方法及设备
本申请涉及电路控制
,尤其涉及一种生成并执行ETL任务的方法及设备。
技术介绍
ETL(ExtractTransformLoad,抽取、转换、装载)是建立数据仓库的主要方法,用户从数据源抽取需要的数据,经过清洗转换,最终按事先定义好的规则加载到目标仓库中,ETL是企业进行数据分析的基础。ETL开发时,需要了解完整的ETL流程才能配置,在配置过程中如果其中一个环节出错,那么需要对整个ETL任务链路进行排查,造成时间成本非常高,效率非常低的问题。
技术实现思路
为至少在一定程度上克服相关技术中存在的问题,本申请提供一种生成并执行ETL任务的方法及设备。本申请的方案如下:根据本申请实施例的第一方面,提供一种生成并执行ETL任务的方法,包括:获取ETL需求,所述ETL需求中包括:数据处理过程,所述数据处理过程包括多个数据处理环节;根据预先配置的规则将所述数据处理过程转换成元数据,所述元数据用于描述各所述数据处理环节的输入数据,输出数据和当前数据处理环节的处理明细;根据所述元数据生成ETL任务,所述ETL任务被配置为按照所述数据处理过程对数据源的数据进行处理;执行所述ETL任务,得到ETL任务执行结果,所述ETL任务执行结果包括:各数据处理环节的输入数据数量,输出数据数量,数据处理结果,并根据ETL任务执行结果确定各数据处理环节是否出现错误。优选的,在本申请一种可实现的方式中,所述根据预先配置的规则将所述数据处理过程转换成元数据,包括:将所述数据处理过程的每个数据处理环节转换成ETL单元;所述ETL单元包括对应的数据处理环节的输入数据,输出数据和处理明细;将多个所述ETL单元按照顺序进行排列生成ETL过程元数据;所述顺序是所述ETL单元对应的数据处理环节在所述数据处理过程中的顺序。优选的,在本申请一种可实现的方式中,所述根据预先配置的规则将所述数据处理过程转换成元数据,还包括:将所述ETL单元包括的输入数据,输出数据和处理明细以表格的方式进行记录,生成ETL过程明细元数据。优选的,在本申请一种可实现的方式中,所述根据所述元数据生成ETL任务,包括:对所述ETL过程元数据进行处理;具体为,为所述ETL过程元数据中的每个ETL单元添加唯一标识和执行的流程代码;将处理后的ETL过程元数据输入ETL元数据模型,得到ETL配置文件,所述ETL配置文件配置有所述ETL任务。优选的,在本申请一种可实现的方式中,所述数据处理过程至少包括:数据抽取环节,代码映射环节,清洗转换环节和数据加载环节。优选的,在本申请一种可实现的方式中,所述ETL过程明细元数据至少包括:数据抽取明细元数据,代码映射明细元数据,清洗转换明细元数据和数据加载明细元数据;所述数据抽取明细元数据包括:抽取源描述,抽取规则;所述代码映射明细元数据包括:映射方式,映射字段和映射源字段;所述清洗转换明细元数据包括:数据清洗条件;所述数据加载明细元数据包括:加载前语句,加载后语句,加载目标,加载方式和目标描述。优选的,在本申请一种可实现的方式中,所述输入数据是从所述数据源或当前数据处理环节的上一环节得到的,所述输出数据是经过当前数据处理环节处理后得到的。优选的,在本申请一种可实现的方式中,所述输出数据包括:输出字段,说明和字段类型。优选的,在本申请一种可实现的方式中,所述ETL需求还包括:数据源,数据处理结果样式;所述方法还包括:将所述输出数据与所述数据处理结果样式进行对比得到所述数据处理结果。根据本申请实施例的第二方面,提供一种生成并执行ETL任务的设备,包括:处理器和存储器;所述处理器与存储器通过通信总线相连接:其中,所述处理器,用于调用并执行所述存储器中存储的程序;所述存储器,用于存储程序,所述程序至少用于执行以上任一项所述的生成并执行ETL任务的方法。本申请提供的技术方案可以包括以下有益效果:由于ETL需求中的数据处理过程包括多个数据处理环节,将数据处理过程转换成元数据,通过元数据来描述各所述数据处理环节的输入数据,输出数据和当前数据处理环节的处理明细。根据元数据生成ETL任务并执行ETL任务,得到ETL任务执行结果,ETL任务执行结果包括:各数据处理环节的输入数据数量,输出数据数量,数据处理结果。根据ETL任务执行结果中的输入数据数量,输出数据数量是否达到预设要求,数据处理结果是否成功来确定各数据处理环节是否出现错误,从而提高排查效率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。图1是本申请一个实施例提供的生成并执行ETL任务的方法的流程图;图2是本申请一个实施例提供的生成并执行ETL任务的方法中将数据处理过程转换成元数据的流程图;图3是本申请一个实施例提供的生成并执行ETL任务的设备的结构图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。图1是本申请一个实施例提供的生成并执行ETL任务的方法的流程图,参照图1,一种生成并执行ETL任务的方法,包括:S11:获取ETL需求,ETL需求中包括:数据处理过程,数据处理过程包括多个数据处理环节;ETL是建立数据仓库的主要方法,用户从数据源抽取需要的数据,经过清洗转换,最终按事先定义好的规则加载到目标仓库中,ETL是企业进行数据分析的基础。数据处理过程至少包括:数据抽取环节,代码映射环节,清洗转换环节和数据加载环节。数据抽取环节:从指定的数据源中抽取指定的数据。代码映射环节:建立映射关系表,描述两张表之间的关联关系,如A表中的C字段关联B表中的C字段。清洗转换环节:按照一定的条件,过滤出需要的数据。数据清洗转换环节中由于数据生产系统的问题,可能会产生多条重复数据,需要在清洗的时候去重。数据加载环节:将清洗转换后的数据加载到数仓记录表。S12:根据预先配置的规则将数据处理过程转换成元数据,元数据用于描述各数据处理环节的输入数据,输出数据和当前数据处理环节的处理明细;本实施例中的元数据包括两种,一种为ETL过程元数据,一种为ETL过程明细元数据。参照图2,根据预先配置的规则将数据处理过程转换成元数据,包括:S121:将数据处理过程的每个数据处理环节转换成ETL单元;ETL单元包括对应的本文档来自技高网...

【技术保护点】
1.一种生成并执行ETL任务的方法,其特征在于,包括:/n获取ETL需求,所述ETL需求中包括:数据处理过程,所述数据处理过程包括多个数据处理环节;/n根据预先配置的规则将所述数据处理过程转换成元数据,所述元数据用于描述各所述数据处理环节的输入数据,输出数据和当前数据处理环节的处理明细;/n根据所述元数据生成ETL任务,所述ETL任务被配置为按照所述数据处理过程对数据源的数据进行处理;/n执行所述ETL任务,得到ETL任务执行结果,所述ETL任务执行结果包括:各数据处理环节的输入数据数量,输出数据数量,数据处理结果,并根据ETL任务执行结果确定各数据处理环节是否出现错误。/n

【技术特征摘要】
1.一种生成并执行ETL任务的方法,其特征在于,包括:
获取ETL需求,所述ETL需求中包括:数据处理过程,所述数据处理过程包括多个数据处理环节;
根据预先配置的规则将所述数据处理过程转换成元数据,所述元数据用于描述各所述数据处理环节的输入数据,输出数据和当前数据处理环节的处理明细;
根据所述元数据生成ETL任务,所述ETL任务被配置为按照所述数据处理过程对数据源的数据进行处理;
执行所述ETL任务,得到ETL任务执行结果,所述ETL任务执行结果包括:各数据处理环节的输入数据数量,输出数据数量,数据处理结果,并根据ETL任务执行结果确定各数据处理环节是否出现错误。


2.根据权利要求1所述的方法,其特征在于,所述根据预先配置的规则将所述数据处理过程转换成元数据,包括:
将所述数据处理过程的每个数据处理环节转换成ETL单元;所述ETL单元包括对应的数据处理环节的输入数据,输出数据和处理明细;
将多个所述ETL单元按照顺序进行排列生成ETL过程元数据;所述顺序是所述ETL单元对应的数据处理环节在所述数据处理过程中的顺序。


3.根据权利要求2所述的方法,其特征在于,所述根据预先配置的规则将所述数据处理过程转换成元数据,还包括:
将所述ETL单元包括的输入数据,输出数据和处理明细以表格的方式进行记录,生成ETL过程明细元数据。


4.根据权利要求2所述的方法,其特征在于,所述根据所述元数据生成ETL任务,包括:
对所述ETL过程元数据进行处理;具体为,为所述ETL过程元数据中的每个ETL单元添加唯一标识和执行的流程代码;
将处理后的ETL过程元数据输入...

【专利技术属性】
技术研发人员:葛华王夷俞楠吴翔吴鹏郭晓丹魏宝辉
申请(专利权)人:四川东方网力科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1