基于ETL的数据血缘分析展示方法、装置以及电子设备制造方法及图纸

技术编号:35142524 阅读:57 留言:0更新日期:2022-10-05 10:19
本发明专利技术提供一种基于ETL的数据血缘分析展示方法、装置以及电子设备,方法包括:实时获取数据抽取转换任务的任务执行详情,根据任务执行详情获取包括数据源信息和数据流转信息的数据血缘信息并存储至数据库中;获取待分析的任一表的信息,根据表的信息从数据库中查找表的数据血缘信息;根据数据血缘信息应用图算法以表为中心节点获取各节点的数据源信息和数据流转信息;根据数据源信息和数据流转信息绘制表的血缘关系图并进行展示,血缘关系图至少包括以表为中心节点的数据流入节点和数据流出节点、以及数据流通方向。本发明专利技术通过埋点的方式,实时监控、分析数据抽取转换任务的运行,不影响数据抽取转换任务的正常运行,稳定、准确、全面、可视化。可视化。可视化。

【技术实现步骤摘要】
基于ETL的数据血缘分析展示方法、装置以及电子设备


[0001]本专利技术属于计算机
,具体涉及到一种数据血缘分析展示方法、装置以及电子设备。

技术介绍

[0002]在数据的整个生命周期内,数据会经过不断的处理加工,生成各种中间数据或数据产品,这些数据之间的关联关系便被称之为数据血缘或数据血统。对于业务过程中获取和产生的数据,通常需要采用抽取、转换、加载(Extract

Transform

Load,ETL)工具对原始数据进行多个步骤的加工,并产生出新的数据,在该过程中会产生很多相互关联的数据表,数据在数据表之间的链路关系即称为数据血缘,通过将数据血缘的路径进行标识并展示,可以快速理清数据的流转逻辑和相互关系,便于进行常态化维护。
[0003]随着大数据技术的兴起,数据量越来越大,数据之间的关系越来越复杂,对于数据的修改,往往是牵一发而动全身,因此对数据的血缘分析愈显重要。现有的数据溯源通常是对原始数据库进行检测,工作量巨大,血缘关系更新不及时,且通常只能追溯数据库表之间的血缘关系。

技术实现思路

[0004]本专利技术提供一种数据血缘分析展示方法、装置以及电子设备,以解决现有的数据血缘关系更新不及时的问题。
[0005]基于上述目的,本专利技术实施例提供了一种数据血缘分析展示方法,包括:实时获取数据抽取转换任务的任务执行详情,根据所述任务执行详情解析获取包括数据源信息和数据流转信息的数据血缘信息并存储至数据库中;获取待分析的任一表的信息,并根据所述表的信息从所述数据库中查找所述表的数据血缘信息;根据所述数据血缘信息应用图算法以所述表为中心节点获取各节点的所述数据源信息和所述数据流转信息;根据各节点的所述数据源信息和所述数据流转信息绘制所述表的血缘关系图并进行展示,所述血缘关系图至少包括以所述表为中心节点的数据流入节点和数据流出节点、以及数据流通方向。
[0006]可选的,所述实时获取数据抽取转换任务的任务执行详情,包括:实时监测ETL工具程序、日志,获取应用ETL工具执行的所述数据抽取转换任务的任务执行状态;获取所述数据抽取转换任务的唯一编码、数据存储位置;根据所述唯一编码和所述数据存储位置查询数据库,获取所述数据抽取转换任务的所述任务执行详情,所述任务执行详情包括:数据库、表、字段的层级关系以及抽取、转换、加载的数据操作信息。
[0007]可选的,所述根据所述任务执行详情解析获取包括数据源信息和数据转换信息的数据血缘信息并存储至数据库中,包括:对所述任务执行详情进行全链路的解析汇总,还原所述数据抽取转换任务从第一个步骤到最后一个步骤的完整配置链路,获取包括所述数据源信息和所述数据流转信息的所述数据血缘信息;将获取的所述数据血缘信息存储至所述数据库。
[0008]可选的,所述数据源信息包括:数据库、表、字段、文件的层级关系,所述数据流转信息包括:数据流通方向、数据流通量、数据操作类型。
[0009]可选的,所述将获取的所述数据血缘信息存储至所述数据库,包括:将所述数据源信息和所述数据流转信息按照所述数据操作类型和所述层级关系存储至所述数据库中。
[0010]可选的,所述根据所述数据血缘信息应用图算法以所述表为中心节点获取各节点的所述数据源信息和所述数据流转信息,包括:应用图算法以所述表为中心节点应用图算法遍历搜索所述数据血缘信息中各节点的所述数据源信息和所述数据流转信息,所述图算法为广度优先算法或深度优先算法的其中之一。
[0011]可选地,所述根据各节点的所述数据源信息和所述数据流转信息绘制所述表的血缘关系图并进行展示,包括:以所述表为中心节点,所述中心节点的左侧为所述中心节点的数据流入节点,右侧为所述中心节点的数据流出节点,两个节点之间的箭头为数据流通方向,连线的信息显示的是数据的字段名称,绘制所述表的血缘关系图;对所述血缘关系图进行可视化展示。
[0012]基于同一专利技术构思,本专利技术实施例还提出了一种数据血缘分析展示装置,包括:任务解析单元,用于实时获取数据抽取转换任务的任务执行详情,根据所述任务执行详情解析获取包括数据源信息和数据流转信息的数据血缘信息并存储至数据库中;血缘查找单元,用于获取待分析的任一表的信息,并根据所述表的信息从所述数据库中查找所述表的数据血缘信息;血缘获取单元,用于根据所述数据血缘信息应用图算法以所述表为中心节点获取各节点的所述数据源信息和所述数据流转信息;绘图展示单元,用于根据各节点的所述数据源信息和所述数据流转信息绘制所述表的血缘关系图并进行展示,所述血缘关系图至少包括以所述表为中心节点的数据流入节点和数据流出节点、以及数据流通方向。
[0013]基于同一专利技术构思,本专利技术实施例还提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述的方法。
[0014]基于同一专利技术构思,本专利技术实施例还提出了一种计算机存储介质,存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行前述的方法。
[0015]本专利技术的有益效果是:从上面所述可以看出,本专利技术实施例提供的一种数据血缘分析展示方法、装置以及电子设备,方法包括:实时获取数据抽取转换任务的任务执行详情,根据所述任务执行详情解析获取包括数据源信息和数据流转信息的数据血缘信息并存储至数据库中;获取待分析的任一表的信息,并根据所述表的信息从所述数据库中查找所述表的数据血缘信息;根据所述数据血缘信息应用图算法以所述表为中心节点获取各节点的所述数据源信息和所述数据流转信息;根据各节点的所述数据源信息和所述数据流转信息绘制所述表的血缘关系图并进行展示,所述血缘关系图至少包括以所述表为中心节点的数据流入节点和数据流出节点、以及数据流通方向,通过埋点的方式,实时监控、分析数据抽取转换任务的运行,不影响数据抽取转换任务的正常运行,稳定、准确、全面、可视化。
附图说明
[0016]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
专利技术实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为本专利技术实施例中的数据血缘分析展示方法的流程示意图;
[0018]图2为本专利技术实施例中的数据血缘分析展示方法的血缘关系图的示意图;
[0019]图3为本专利技术实施例中的数据血缘分析展示装置的结构示意图;
[0020]图4为本专利技术实施例中电子设备示意图。
具体实施方式
[0021]为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
[0022]需要说明的是,除非另外定义,本专利技术实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本专利技术实施例中使用的“第一”、“第二”以及类似的词语并不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ETL的数据血缘分析展示方法,其特征是,所述方法包括:实时获取数据抽取转换任务的任务执行详情,根据所述任务执行详情解析获取包括数据源信息和数据流转信息的数据血缘信息并存储至数据库中;获取待分析的任一表的信息,并根据所述表的信息从所述数据库中查找所述表的数据血缘信息;根据所述数据血缘信息应用图算法以所述表为中心节点获取各节点的所述数据源信息和所述数据流转信息;根据各节点的所述数据源信息和所述数据流转信息绘制所述表的血缘关系图并进行展示,所述血缘关系图至少包括以所述表为中心节点的数据流入节点和数据流出节点、以及数据流通方向。2.如权利要求1所述的方法,其特征是,所述实时获取数据抽取转换任务的任务执行详情,包括:实时监测ETL工具程序、日志,获取应用ETL工具执行的所述数据抽取转换任务的任务执行状态;获取所述数据抽取转换任务的唯一编码、数据存储位置;根据所述唯一编码和所述数据存储位置查询数据库,获取所述数据抽取转换任务的所述任务执行详情,所述任务执行详情包括:数据库、表、字段的层级关系以及抽取、转换、加载的数据操作信息。3.如权利要求2所述的方法,其特征是,所述根据所述任务执行详情解析获取包括数据源信息和数据转换信息的数据血缘信息并存储至数据库中,包括:对所述任务执行详情进行全链路的解析汇总,还原所述数据抽取转换任务从第一个步骤到最后一个步骤的完整配置链路,获取包括所述数据源信息和所述数据流转信息的所述数据血缘信息;将获取的所述数据血缘信息存储至所述数据库。4.如权利要求3所述的方法,其特征是,所述数据源信息包括:数据库、表、字段、文件的层级关系,所述数据流转信息包括:数据流通方向、数据流通量、数据操作类型。5.如权利要求4所述的方法,其特征是,所述将获取的所述数据血缘信息存储至所述数据库,包括:将所述数据源信息和所述数据流转信息按照所述数据操作类型和所述层级关系存储至所述数据库中。6.如...

【专利技术属性】
技术研发人员:戴超凡
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1