数据血缘追踪方法、装置、电子设备、介质及产品制造方法及图纸

技术编号:33376650 阅读:24 留言:0更新日期:2022-05-11 22:44
本发明专利技术提供一种数据血缘追踪方法、装置、电子设备、介质及产品,其中,数据血缘追踪方法包括:分别确定目标数据处理链路中各个数据处理组件的元数据对象之间的流向关系、第一数据对象中的字段与数据加载组件的输出字段之间的第一映射关系、第一数据对象中的字段与数据抽取组件的输入字段之间的第二映射关系以及第二数据对象中的字段与数据抽取组件的输入字段之间的第三映射关系;继而根据第二映射关系与第三映射关系,得到第一数据对象中的字段与第二数据对象中的字段之间的关联关系。本发明专利技术能够在复杂的ETL流程下,准确快速且高覆盖率地使得链路最下游数据对应到链路最上游数据,实现了数据源可解释,过程可解释。过程可解释。过程可解释。

【技术实现步骤摘要】
数据血缘追踪方法、装置、电子设备、介质及产品


[0001]本专利技术涉及电数字数据处理
,尤其涉及一种数据血缘追踪方法、装置、电子设备、介质及产品。

技术介绍

[0002]血缘追踪(即血缘分析)是一种技术手段,用于对数据处理过程的全面追踪,从而找到某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系。元数据对象之间的关系特指表示这些元数据对象的数据流输入输出关系,其可以用来进行程序运行问题定位、差异分析、指标波动分析、数据体检与评估等。
[0003]目前,血缘追踪实现方式主要包括调度器反向推导、计算引擎系统提供的血缘追踪接口、计算引擎系统的解析过程源码以及通用的SQL解析器工具。
[0004]其中,调度器反向推导这种方式虽然具有非常高的可行性,且成本低廉,但是缺点也很明显:不能支持字段级别的血缘,而字段关系对于元数据非常重要,甚至是后续扩展数据质量及数据安全的重要依据之一,因此,该种方式不适用于业务方面的影响分析。
[0005]计算引擎系统(如HIVE)提供的血缘追踪接口这种方式,支持了字段级别血缘追踪,且成本低,但是由于将计算引擎与血缘追踪绑定在一起造成在增加血缘追踪功能时,势必对计算引擎有影响,使得整个系统耦合性差,无法按照需求定制。
[0006]计算引擎系统的解析过程源码这种方式虽然能够根据需求进行个性化定制,但是如果计算引擎系统没有提供解析器,则会因为不同计算引擎各自不一样的规则造成应用范围小的问题。
[0007]通用的SQL解析器工具这种方式由于SQL解析过程工作量非常大,且需要对语法规则有较高的熟练度,导致现有的SQL解析器工具成熟度低,在血缘追踪过程中需要人工介入进行补充纠正(例如apache atlas),且追踪结果的准确率较低。
[0008]综上所述,现有的血缘追踪方法存在准确率低、适用性差、覆盖率低等问题。

技术实现思路

[0009]本专利技术提供一种数据血缘追踪方法、装置、电子设备、介质及产品,用以解决上述缺陷。
[0010]本专利技术提供一种数据血缘追踪方法,包括:确定目标数据处理链路中各个数据处理组件的元数据对象之间的流向关系;其中,所述数据处理组件至少包括数据抽取组件与数据加载组件;确定所述数据加载组件所执行的数据加载过程所得到的第一数据对象中的字段与所述数据加载组件的元数据对象的输出字段之间的第一映射关系;根据所述流向关系的逆向顺序确定数据血缘追踪顺序,根据所述第一映射关系以及根据所述数据血缘追踪顺序依次确定各个数据处理组件的输入字段与输出字段之间的映射关系,得到所述第一数据对象中的字段与所述数据抽取组件的元数据对象的输入字段之间的第二映射关系;确定作为数据来源的第二数据对象中的字段与所述数据抽取组件的元数据对象的输入字段之
间的第三映射关系;根据所述第二映射关系与所述第三映射关系,得到所述第一数据对象中的字段与所述第二数据对象中的字段之间的关联关系。
[0011]根据本专利技术提供的一种数据血缘追踪方法,所述数据处理组件还包括数据转换组件,所述数据转换组件包括第一数据转换组件、第二数据转换组件以及第三数据转换组件;其中,所述第一数据转换组件的元数据对象的输入字段与输出字段具有一一对应关系;所述第二数据转换组件的元数据对象包括基于输入字段修改得到的输出字段;所述第三数据转换组件的元数据对象包括基于输入字段增加得到的输出字段;相应的,所述根据所述第一映射关系以及根据所述数据血缘追踪顺序依次确定各个数据处理组件的输入字段与输出字段之间的映射关系,得到所述第一数据对象中的字段与所述数据抽取组件的元数据对象的输入字段之间的第二映射关系,包括:将所述第一映射关系作为当前的映射关系,将数据加载组件作为当前数据处理组件;确定当前数据处理组件的类型;在当前数据处理组件为数据加载组件或第一数据转换组件的情况下,不对当前的映射关系进行调整,然后根据数据血缘追踪顺序,将下一数据处理组件作为当前数据处理组件后,重新执行确定当前数据处理组件的类型的步骤;在当前数据处理组件为第二数据转换组件的情况下,将当前的映射关系修改为第一数据对象中的字段与当前数据处理组件的元数据对象的输入字段之间的映射关系,然后根据数据血缘追踪顺序,将下一数据处理组件作为当前数据处理组件后,重新执行确定当前数据处理组件的类型的步骤;在当前数据处理组件为第三数据转换组件的情况下,将当前的映射关系修改为第一数据对象中的字段与当前数据处理组件的元数据对象的来源输入字段之间的映射关系,然后根据数据血缘追踪顺序,将下一数据处理组件作为当前数据处理组件后,重新执行确定当前数据处理组件的类型的步骤;在当前数据处理组件为数据抽取组件的情况下,将当前的映射关系作为所述第二映射关系。
[0012]根据本专利技术提供的一种数据血缘追踪方法,所述将当前的映射关系修改为第一数据对象中的字段与当前数据处理组件的元数据对象的输入字段之间的映射关系,包括:从当前的映射关系中获取与所述第一数据对象中的字段具有映射关系的字段;根据当前数据处理组件的转换逻辑,确定与所述第一数据对象中的字段具有映射关系的字段所对应的输入字段;将所述与所述第一数据对象中的字段具有映射关系的字段的值修改为所对应的输入字段的值,得到修改后的当前映射关系。
[0013]根据本专利技术提供的一种数据血缘追踪方法,所述将当前的映射关系修改为第一数据对象中的字段与当前数据处理组件的元数据对象的来源输入字段之间的映射关系,包括:从当前的映射关系中获取与所述第一数据对象中的字段具有映射关系的字段;根据当前数据处理组件的转换逻辑,确定与所述第一数据对象中的字段具有映射关系的字段所对应的来源输入字段,所述来源输入字段为当前数据处理组件的元数据对象的输入字段;将所述与所述第一数据对象中的字段具有映射关系的字段的值修改为所对应的来源输入字段的值,得到修改后的当前映射关系。
[0014]根据本专利技术提供的一种数据血缘追踪方法,方法还包括:将所述第一数据对象中的字段与所述第二数据对象中的字段之间的关联关系存入数据库。
[0015]本专利技术还提供一种数据血缘追踪装置,包括:流向关系确定模块,用于确定目标数据处理链路中各个数据处理组件的元数据对象之间的流向关系;其中,所述数据处理组件至少包括数据抽取组件与数据加载组件;第一映射确定模块,用于确定所述数据加载组件
所执行的数据加载过程所得到的第一数据对象中的字段与所述数据加载组件的元数据对象的输出字段之间的第一映射关系;第二映射获取模块,用于根据所述流向关系的逆向顺序确定数据血缘追踪顺序,根据所述第一映射关系以及根据所述数据血缘追踪顺序依次确定各个数据处理组件的输入字段与输出字段之间的映射关系,得到所述第一数据对象中的字段与所述数据抽取组件的元数据对象的输入字段之间的第二映射关系;第三映射确定模块,用于确定作为数据来源的第二数据对象中的字段与所述数据抽取组件的元数据对象的输入字段之间的第三映射关系;关联获取模块,用于根据所述第二映射关系与所述第三映射关系,得到所述第一数据对象中的字段与所述第二数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据血缘追踪方法,其特征在于,包括:确定目标数据处理链路中各个数据处理组件的元数据对象之间的流向关系;其中,所述数据处理组件至少包括数据抽取组件与数据加载组件;确定所述数据加载组件所执行的数据加载过程所得到的第一数据对象中的字段与所述数据加载组件的元数据对象的输出字段之间的第一映射关系;根据所述流向关系的逆向顺序确定数据血缘追踪顺序,根据所述第一映射关系以及根据所述数据血缘追踪顺序依次确定各个数据处理组件的输入字段与输出字段之间的映射关系,得到所述第一数据对象中的字段与所述数据抽取组件的元数据对象的输入字段之间的第二映射关系;确定作为数据来源的第二数据对象中的字段与所述数据抽取组件的元数据对象的输入字段之间的第三映射关系;根据所述第二映射关系与所述第三映射关系,得到所述第一数据对象中的字段与所述第二数据对象中的字段之间的关联关系。2.根据权利要求1所述的数据血缘追踪方法,其特征在于,所述数据处理组件还包括数据转换组件,所述数据转换组件包括第一数据转换组件、第二数据转换组件以及第三数据转换组件;其中,所述第一数据转换组件的元数据对象的输入字段与输出字段具有一一对应关系;所述第二数据转换组件的元数据对象包括基于输入字段修改得到的输出字段;所述第三数据转换组件的元数据对象包括基于输入字段增加得到的输出字段;相应的,所述根据所述第一映射关系以及根据所述数据血缘追踪顺序依次确定各个数据处理组件的输入字段与输出字段之间的映射关系,得到所述第一数据对象中的字段与所述数据抽取组件的元数据对象的输入字段之间的第二映射关系,包括:将所述第一映射关系作为当前的映射关系,将数据加载组件作为当前数据处理组件;确定当前数据处理组件的类型;在当前数据处理组件为数据加载组件或第一数据转换组件的情况下,不对当前的映射关系进行调整,然后根据数据血缘追踪顺序,将下一数据处理组件作为当前数据处理组件后,重新执行确定当前数据处理组件的类型的步骤;在当前数据处理组件为第二数据转换组件的情况下,将当前的映射关系修改为第一数据对象中的字段与当前数据处理组件的元数据对象的输入字段之间的映射关系,然后根据数据血缘追踪顺序,将下一数据处理组件作为当前数据处理组件后,重新执行确定当前数据处理组件的类型的步骤;在当前数据处理组件为第三数据转换组件的情况下,将当前的映射关系修改为第一数据对象中的字段与当前数据处理组件的元数据对象的来源输入字段之间的映射关系,然后根据数据血缘追踪顺序,将下一数据处理组件作为当前数据处理组件后,重新执行确定当前数据处理组件的类型的步骤;在当前数据处理组件为数据抽取组件的情况下,将当前的映射关系作为所述第二映射关系。3.根据权利要求2所述的数据血缘追踪方法,其特征在于,所述将当前的映射关系修改为第一数据对象中的字段与当前数据处理组件的元数据对象的输入字段之间的映射关系,
包括:从当前的映射关系中获取与所述第一数据对象中的字段具有映射关系的字段;根据当前数据处理组件的转换逻辑,确定与所述第一数据对象中的字段具有映射关系的字段所对应的输入字段;将所述与所述第一数据对象中的字段具有映射关系的字段的值修改为所对应的输入字段的值,得到修改后的当前映射关系。4.根据权利要求2所述的数据血缘追踪方法,其特征在于,所述将当前的映射关系修改为第一数据对象中的字段与当前数据处理组件的元数据对象的来源输入字段之间的映射关系,包括:从当前的映射关系中获取与所述第一数据对象中的字段具有映射关系的字段;根据当前数据处理组件的转换逻辑,确定与所述第一数据对象中的字段具有映射关系的字段所对应的来...

【专利技术属性】
技术研发人员:邹品洛巍齐向东吴云坤徐彪蒋勇邢云飞邵锐冯忠田何安迪顾静玲邓娅婷何雨薇杨晓霞熊攀
申请(专利权)人:网神信息技术北京股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1