一种数据血缘管理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:28419652 阅读:18 留言:0更新日期:2021-05-11 18:26
本申请提供了一种数据血缘管理方法、装置、电子设备及存储介质,数据血缘管理方法包括:获取目标元数据的工作流,并将工作流存储至目标节点;工作流包括至少一个流程组件;对工作流中的流程组件进行解析,确定各个流程组件的来源表、目标表以及来源表中来源字段和目标表中目标字段之间的关联关系;通过目标节点的属性信息和分枝图对数据血缘进行管理。本申请通过在数据处理的过程中,对工作流整体的记录和管理,实现对工作流中各个节点、工作流中各个流程组件的表格血缘以及字段血缘的全流程记录,可以实现通过合理的方式进行数据仓库中对于数据问题的定位、追踪以及回溯。

【技术实现步骤摘要】
一种数据血缘管理方法、装置、电子设备及存储介质
本申请涉及数据管理
,尤其是涉及一种数据血缘管理方法、装置、电子设备及存储介质。
技术介绍
目前市场上很多数据的血缘关系的监控是从hive的单个组件数据的血缘关系中监控得到的或者是从不同数据表格中监控得到的,亦或是单独的纯数据走向的血缘关系的监控,且并没有一套完整的、针对整个元数据和数据加工处理过程的从数据流到数据表再到数据字段的整体的血缘监控,因此,在日常的数据处理中以及在针对于数据仓库中所有数据表和数据加工流程管理的过程中,当数据出现问题、或需要针对数据进行治理时,目前市场上的血缘关系无法以合理的方式进行问题的定位、追踪以及回溯。
技术实现思路
有鉴于此,本申请的目的在于提供一种数据血缘管理方法、装置、电子设备及存储介质,通过在数据处理的过程中,对工作流整体的记录和管理,实现对工作流中各个节点、工作流中各个流程组件的表格血缘以及字段血缘的全流程记录,可以实现通过合理的方式进行数据仓库中对于数据问题的定位、追踪以及回溯。本申请主要包括以下几个方面:第一方面,本申请实施例提供了一种数据血缘管理方法,所述数据血缘管理方法包括:获取目标元数据的工作流,并将所述工作流存储至目标节点;所述工作流包括至少一个流程组件;对所述工作流中的流程组件进行解析,确定各个所述流程组件的来源表、目标表以及所述来源表中来源字段和目标表中目标字段之间的关联关系,并将确定出的所述来源表、所述目标表以及来源字段和目标字段之间的关联关系以分枝图形式进行展示;通过所述目标节点的属性信息和所述分枝图对数据血缘进行管理。在一种可能的实施方式中,所述流程组件具体包括:数据交换流程组件、数据开发流程组件、数据质量校验流程组件以及数据可视化流程组件。在一种可能的实施方式中,所述对所述工作流中的流程组件进行解析,确定各个所述流程组件的来源表、目标表以及所述来源表中来源字段和目标表中目标字段之间的关联关系,并将确定出的所述来源表、所述目标表以及来源字段和目标字段之间的关联关系以分枝图形式进行展示,包括:对所述工作流中的所述数据交换流程组件进行同步脚本的解析,确定所述数据交换流程组件的来源表以及目标表;针对元数据在所述来源表中对应的来源数据以及所述元数据在所述目标表中对应的目标数据进行解析对应字段的解析,确定所述来源表中来源字段和目标表中目标字段之间的关联关系,并将确定出的所述来源表、所述目标表以及来源字段和目标字段之间的关联关系以分枝图形式进行展示。在一种可能的实施方式中,所述对所述工作流中的流程组件进行解析,确定各个所述流程组件的来源表、目标表以及所述来源表中来源字段和目标表中目标字段之间的关联关系,并将确定出的所述来源表、所述目标表以及来源字段和目标字段之间的关联关系以分枝图形式进行展示,还包括:对所述工作流中的所述数据开发流程组件通过自定义代码进行脚本的解析,并对元数据中特定字段进行同步解析。在一种可能的实施方式中,所述目标节点的属性信息包括:各个所述节点的建立时间、各个所述节点的容量大小、各个所述节点的内部执行目录以及各个所述节点所对应的执行服务器。第二方面,本申请实施例还提供了一种数据血缘管理装置,所述数据血缘管理装置包括:第一获取模块,用于获取目标元数据的工作流,并将所述工作流存储至目标节点;所述工作流包括至少一个流程组件;解析模块,用于对所述工作流中的流程组件进行解析,确定各个所述流程组件的来源表、目标表以及所述来源表中来源字段和目标表中目标字段之间的关联关系,并将确定出的所述来源表、所述目标表以及来源字段和目标字段之间的关联关系以分枝图形式进行展示;管理模块,用于通过所述目标节点的属性信息和所述分枝图对数据血缘进行管理。在一种可能的实施方式中,所述第一获取模块中的所述流程组件具体包括:数据交换流程组件、数据开发流程组件、数据质量校验流程组件以及数据可视化流程组件。在一种可能的实施方式中,所述解析模块,包括:数据交换流程解析第一单元,用于对所述工作流中的所述数据交换流程组件进行同步脚本的解析,确定所述数据交换流程组件的来源表以及目标表;数据交换流程解析第二单元,用于针对元数据在所述来源表中对应的来源数据以及所述元数据在所述目标表中对应的目标数据进行解析对应字段的解析,确定所述来源表中来源字段和目标表中目标字段之间的关联关系,并将确定出的所述来源表、所述目标表以及来源字段和目标字段之间的关联关系以分枝图形式进行展示。第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的数据血缘管理方法的步骤。第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的数据血缘管理方法的步骤。本申请实施例提供的数据血缘管理方法及装置,与现有技术中的数据血缘管理方法相比,本申请通过在数据处理的过程中,对工作流整体的记录和管理,实现对工作流中各个节点、工作流中各个流程组件的表格血缘以及字段血缘的全流程记录,可以实现通过合理的方式进行数据仓库中对于数据问题的定位、追踪以及回溯。为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本申请实施例所提供的一种数据血缘管理方法的流程图;图2示出了本申请实施例所提供的另一种数据血缘管理方法的流程图;图3示出了本申请实施例所提供的一种数据血缘管理装置的结构示意图;图4示出了本申请实施例所提供的另一种数据血缘管理装置的结构示意图;图5示出了本申请实施例所提供的一种电子设备的结构示意图;图6示出了本申请实施例所提供的一种数据血缘管理方法中一工作流的流程图。图中:300-数据血缘管理装置;310-第一获取模块;320-解析模块;321-数据交换流程解析第一单元;322-数据交换流程解析第二单元;323-数据开发流程解析单元;330-管理模块;500-电子设备;510-处理器;520-存储器;530-总线。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种本文档来自技高网...

【技术保护点】
1.一种数据血缘管理方法,其特征在于,所述数据血缘管理方法包括:/n获取目标元数据的工作流,并将所述工作流存储至目标节点;所述工作流包括至少一个流程组件;/n对所述工作流中的流程组件进行解析,确定各个所述流程组件的来源表、目标表以及所述来源表中来源字段和目标表中目标字段之间的关联关系,并将确定出的所述来源表、所述目标表以及来源字段和目标字段之间的关联关系以分枝图形式进行展示;/n通过所述目标节点的属性信息和所述分枝图对数据血缘进行管理。/n

【技术特征摘要】
1.一种数据血缘管理方法,其特征在于,所述数据血缘管理方法包括:
获取目标元数据的工作流,并将所述工作流存储至目标节点;所述工作流包括至少一个流程组件;
对所述工作流中的流程组件进行解析,确定各个所述流程组件的来源表、目标表以及所述来源表中来源字段和目标表中目标字段之间的关联关系,并将确定出的所述来源表、所述目标表以及来源字段和目标字段之间的关联关系以分枝图形式进行展示;
通过所述目标节点的属性信息和所述分枝图对数据血缘进行管理。


2.根据权利要求1所述的数据血缘管理方法,其特征在于,所述流程组件具体包括:数据交换流程组件、数据开发流程组件、数据质量校验流程组件以及数据可视化流程组件。


3.根据权利要求2所述的数据血缘管理方法,其特征在于,所述对所述工作流中的流程组件进行解析,确定各个所述流程组件的来源表、目标表以及所述来源表中来源字段和目标表中目标字段之间的关联关系,并将确定出的所述来源表、所述目标表以及来源字段和目标字段之间的关联关系以分枝图形式进行展示,包括:
对所述工作流中的所述数据交换流程组件进行同步脚本的解析,确定所述数据交换流程组件的来源表以及目标表;
针对元数据在所述来源表中对应的来源数据以及所述元数据在所述目标表中对应的目标数据进行解析对应字段的解析,确定所述来源表中来源字段和目标表中目标字段之间的关联关系,并将确定出的所述来源表、所述目标表以及来源字段和目标字段之间的关联关系以分枝图形式进行展示。


4.根据权利要求2所述的数据血缘管理方法,其特征在于,所述对所述工作流中的流程组件进行解析,确定各个所述流程组件的来源表、目标表以及所述来源表中来源字段和目标表中目标字段之间的关联关系,并将确定出的所述来源表、所述目标表以及来源字段和目标字段之间的关联关系以分枝图形式进行展示,还包括:
对所述工作流中的所述数据开发流程组件通过自定义代码进行脚本的解析,并对元数据中特定字段进行同步解析。


5.根据权利要求1所述的数据血缘管理方法,其特征在于,所述目标节点的属性信息包括:各...

【专利技术属性】
技术研发人员:任亮傅雨梅杨飞文齐辉
申请(专利权)人:北京知因智慧科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1