ETL中自动生成溯源信息方法及装置、电子设备制造方法及图纸

技术编号:38748420 阅读:16 留言:0更新日期:2023-09-09 11:15
本申请公开了一种ETL中自动生成溯源信息方法及装置、电子设备,该方法包括:接收ETL数据传输的请求,执行包括多个子任务的ETL任务;解析各子任务的来源数据获取指令确定来源数据相关信息项,解析各子任务中对来源数据进行转换的转换指令确定转换过程相关信息项,解析各子任务中目标数据生成指令确定目标数据相关信息项;建立同一子任务对应的来源数据相关信息项、转换过程相关信息项及该目标数据相关信息项的关联关系,得到每个子任务对应的目标数据的溯源信息;将执行ETL任务生成的目标数据与对应的溯源信息存储于不同数据库中。以此解决ETL传输中,目前的ETL不支持目标数据追踪的问题。的问题。的问题。

【技术实现步骤摘要】
ETL中自动生成溯源信息方法及装置、电子设备


[0001]本专利技术涉及数据管理
,特别涉及一种ETL中自动生成溯源信息方法及装置、电子设备。

技术介绍

[0002]在近年来,随着计算机、人工智能以及大数据等技术的蓬勃发展,企业及政府相关部门对于数据治理有了越来越强烈的需求,在数据治理过程中ETL(Extract

Transform

Load,抽取

转换

加载)是一个不可获取的工具。执行ETL任务可以实现从来源数据源抽取数据,经过一系列的加工和转换,将加工转换后的数据落入目标数据源之中。目前在数据治理过程中,需要对某一条数据的数据来源及它是如何转换成目标数据进行查看,但是目前的ETL并不支持数据的追踪查看,或者需要额外对存储目标数据的目标数据库通过加入相关追踪功能以支持数据的追踪,从而导致目标数据库结构发生变动。

技术实现思路

[0003]本申请的目的是提供一种ETL中自动生成溯源信息方法及装置、电子设备。用于解决现有在ETL传输数据的治理过程中,需要对某一目标数据进行来源数据及转换过程的查看,但是目前的ETL并不支持目标数据的追踪的问题。
[0004]第一方面,本申请实施例提供了一种ETL中自动生成溯源信息的方法,所述方法包括:
[0005]接收ETL数据传输的请求,执行预先配置的ETL任务,所述ETL任务包括多个子任务,各子任务用于生成对应的一个包含完整信息项的目标数据;
[0006]解析各子任务的来源数据获取指令确定来源数据相关信息项,解析各子任务中对来源数据进行转换的转换指令确定转换过程相关信息项,及解析各子任务中目标数据生成指令确定目标数据相关信息项;
[0007]建立同一子任务对应的来源数据相关信息项、转换过程相关信息项及该目标数据相关信息项的关联关系,得到每个子任务对应的目标数据的溯源信息;
[0008]将执行ETL任务生成的目标数据存储至第一数据库,将得到不同目标数据对应的溯源信息存储至第二数据库。
[0009]在一些可能的实施例中,解析各子任务的来源数据获取指令确定来源数据相关信息项,解析各子任务中对来源数据进行转换的转换指令确定转换过程相关信息项,及解析各子任务中目标数据生成指令确定目标数据相关信息项,包括:
[0010]解析各子任务的来源数据获取指令,确定来源数据的数据标识和来源数据存储位置的来源数据的第一地址信息;
[0011]解析各子任务中对来源数据进行转换的转换指令,确定用于定位来源数据中发生转换的信息项的第二地址信息、转换类型以及执行转换的参数信息;
[0012]解析各子任务中目标数据生成指令,确定生成的目标数据的数据标识和存储位置
的第三地址信息。
[0013]在一些可能的实施例中,解析各子任务的来源数据获取指令,确定来源数据的数据标识和来源数据存储位置的来源数据的第一地址信息,包括如下至少一个:
[0014]解析各子任务的来源数据获取指令,确定来源数据存在唯一标识来源数据的第一主键字段,且根据对各子任务中目标数据生成指令的解析确定目标数据存在唯一标识目标数据的第二主键字段,若第一主键字段和第二主键字段的字段值相同,确定将第一主键字段地址作为第一地址信息,确定对来源数据各项字段标识进行SHA2计算得到的散列值为来源数据的数据标识;
[0015]解析各子任务的来源数据获取指令,确定来源数据存在唯一标识来源数据的第一主键字段,且根据对各子任务中目标数据生成指令的解析确定目标数据不存在唯一标识目标的数据第二主键字段,确定将第一主键字段地址作为第一地址信息,确定对来源数据各项字段标识进行SHA2计算得到的散列值为来源数据的数据标识;
[0016]解析各子任务的来源数据获取指令,确定来源数据存在唯一标识来源数据的第一主键字段,且根据对各子任务中目标数据生成指令的解析确定目标数据存在唯一标识目标的数据第二主键字段,若第一主键字段和第二主键字段的字段值不同,确定将第一主键字段的数据类型及内容作为第一地址信息,确定对来源数据各项字段标识进行SHA2计算得到的散列值为来源数据的数据标识;
[0017]解析各子任务的来源数据获取指令,确定来源数据不存在唯一标识来源数据的第一主键字段,确定将来源数据中至少一个信息项所在列的地址作为第一地址信息,确定对来源数据各项字段标识进行SHA2计算得到的散列值为来源数据的数据标识。
[0018]在一些可能的实施例中,解析各子任务中目标数据生成指令,确定生成的目标数据的数据标识和存储位置的第三地址信息,包括如下至少一个步骤:
[0019]解析各子任务的目标数据生成指令,确定目标数据存在唯一标识来源数据的第二主键字段,确定将第二主键字段地址作为第三地址信息,确定对目标数据各项字段标识进行SHA2计算得到的散列值为目标数据的数据标识;
[0020]解析各子任务的目标数据生成指令,确定目标数据不存在唯一标识目标数据的第二主键字段,确定将目标数据中至少一个信息项所在列的地址作为第三地址信息,确定对目标数据各信息项字段标识进行SHA2计算得到的散列值为来源数据的数据标识。
[0021]在一些可能的实施例中,建立同一子任务对应的来源数据相关信息项、转换过程相关信息项及该目标数据相关信息项的关联关系,得到每个子任务对应的目标数据的溯源信息,包括:
[0022]确定同一子任务对多个来源数据进行转换时,输出每个来源数据对应的一条记录,所述记录包括来源数据相关信息项、转换过程相关信息项、目标数据相关信息项;
[0023]将同一子任务转换的多个来源数据对应的记录进行融合,得到每个子任务对应的目标数据的溯源信息。
[0024]在一些可能的实施例中,各个来源数据以行的形式存储在相应的表中,各个目标数据以行的形式存储在相应的表中,其中每个子任务用于生成对应行的目标数据,每个子任务对应的目标数据的溯源信息。
[0025]在一些可能的实施例中,将得到不同目标数据对应的溯源信息存储至第二数据
库,包括:
[0026]根据所述溯源信息中的来源数据相关信息项,确定来源数据所在行、来源数据所在表、来源数据所在的库,并作为图数据库中不同类型的第一实体进行存储,并建立不同类型的第一实体之间的关联关系;
[0027]根据所述溯源信息中的目标数据相关信息项,确定目标数据所在行、目标数据所在表、目标数据所在的库,并作为图数据库中不同类型的第二实体进行存储,并建立不同类型的第二实体之间的关联关系;
[0028]根据所述溯源信息中的转换过程相关信息项,建立有转换关系的类型为行的实体间的关联关系。
[0029]在一些可能的实施例中,所述方法还包括:响应溯源信息查看指令,将查看目标数据对应的溯源信息以图结构形式显示,所述图结构包括不同类型的第一实体及关联关系、不同类型的第二实体及关联关系、有转换关系的类型为行的实体间的关联关系,及将转换过程相关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种ETL中自动生成溯源信息方法,其特征在于,所述方法包括:接收ETL数据传输的请求,执行预先配置的ETL任务,所述ETL任务包括多个子任务,各子任务用于生成对应的一个包含完整信息项的目标数据;解析各子任务的来源数据获取指令确定来源数据相关信息项,解析各子任务中对来源数据进行转换的转换指令确定转换过程相关信息项,及解析各子任务中目标数据生成指令确定目标数据相关信息项;建立同一子任务对应的来源数据相关信息项、转换过程相关信息项及该目标数据相关信息项的关联关系,得到每个子任务对应的目标数据的溯源信息;将执行ETL任务生成的目标数据存储至第一数据库,将得到不同目标数据对应的溯源信息存储至第二数据库。2.根据权利要求1所述的方法,其特征在于,解析各子任务的来源数据获取指令确定来源数据相关信息项,解析各子任务中对来源数据进行转换的转换指令确定转换过程相关信息项,及解析各子任务中目标数据生成指令确定目标数据相关信息项,包括:解析各子任务的来源数据获取指令,确定来源数据的数据标识和来源数据存储位置的来源数据的第一地址信息;解析各子任务中对来源数据进行转换的转换指令,确定用于定位来源数据中发生转换的信息项的第二地址信息、转换类型以及执行转换的参数信息;解析各子任务中目标数据生成指令,确定生成的目标数据的数据标识和存储位置的第三地址信息。3.根据权利要求2所述的方法,其特征在于,解析各子任务的来源数据获取指令,确定来源数据的数据标识和来源数据存储位置的来源数据的第一地址信息,包括如下至少一个:解析各子任务的来源数据获取指令,确定来源数据存在唯一标识来源数据的第一主键字段,且根据对各子任务中目标数据生成指令的解析确定目标数据存在唯一标识目标数据的第二主键字段,若第一主键字段和第二主键字段的字段值相同,确定将第一主键字段地址作为第一地址信息,确定对来源数据各项字段标识进行SHA2计算得到的散列值为来源数据的数据标识;解析各子任务的来源数据获取指令,确定来源数据存在唯一标识来源数据的第一主键字段,且根据对各子任务中目标数据生成指令的解析确定目标数据不存在唯一标识目标的数据第二主键字段,确定将第一主键字段地址作为第一地址信息,确定对来源数据各项字段标识进行SHA2计算得到的散列值为来源数据的数据标识;解析各子任务的来源数据获取指令,确定来源数据存在唯一标识来源数据的第一主键字段,且根据对各子任务中目标数据生成指令的解析确定目标数据存在唯一标识目标的数据第二主键字段,若第一主键字段和第二主键字段的字段值不同,确定将第一主键字段的数据类型及内容作为第一地址信息,确定对来源数据各项字段标识进行SHA2计算得到的散列值为来源数据的数据标识;解析各子任务的来源数据获取指令,确定来源数据不存在唯一标识来源数据的第一主键字段,确定将来源数据中至少一个信息项所在列的地址作为第一地址信息,确定对来源数据各项字段标识进行SHA2计算得到的散列值为来源数据的数据标识。
4.根据权利要求2所述的方法,其特征在于,解析各子任务中目标数据生成指令,确定生成的目标数据的数据标识和存储位置的第三地址信息,包括如下至少一个步骤:解析各子任务的目标数据生成指令,确定目标数据存在唯一标识来源数据的第二主键字段,确定将第二主键字段地址作为第三地址信息,确定对目标数据各项字段标识进行SHA2计算得到的...

【专利技术属性】
技术研发人员:许祺周健姜永超王中伟陈维强孙永良李建伟
申请(专利权)人:青岛国创智慧云脑科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1