一种异常血缘关系的确定方法、装置、设备及介质制造方法及图纸

技术编号:33782508 阅读:16 留言:0更新日期:2022-06-12 14:37
本发明专利技术实施例公开了一种异常血缘关系的确定方法、装置、设备及介质。其中,所述方法包括:在数据治理过程中,针对数据仓库中的各个第一数据表,根据当前第一数据表中数据的来源,实时确定与当前第一数据表具有血缘关系的至少一个第二数据表;其中,当前第一数据表中的数据来源实时更新;当第一数据表与第二数据表间不满足预设血缘约束条件时,确定第一数据表与第二数据表的血缘关系异常。通过执行本发明专利技术实施例提供的技术方案,可以实现对数据治理过程中的异常血缘关系进行高效、准确地确定,便于用户快速定位问题。便于用户快速定位问题。便于用户快速定位问题。

【技术实现步骤摘要】
一种异常血缘关系的确定方法、装置、设备及介质


[0001]本专利技术实施例涉及数据血缘关系分析
,尤其涉及一种异常血缘关系的确定方法、装置、设备及介质。

技术介绍

[0002]数据血缘关系为数据治理过程中从数据生成、ETL处理、流转流通到最终消亡的过程中,在数据之间自然形成的一种关系。梳理清楚数据的来源、经过哪些处理步骤、数据间存在哪些引用和依赖的关系,这些信息归纳起来就是数据的血缘关系。数据血缘关系在数据管理,数据追溯,性能优化,增量数据生产方面都能提供价值。
[0003]相关技术中血缘关系的确定是基于SQL AST进行静态分析,并使用关系图做最终呈现,数据表的数仓层次呈现不直观,上下游追溯困难;采用静态分析确定的血缘关系会存在不真实的情况;无法从数据的全生命周期角度完整的记录数据的流动。

技术实现思路

[0004]本专利技术实施例提供了一种异常血缘关系的确定方法、装置、设备及介质,可以实现对数据治理过程中的异常血缘关系进行高效、准确地确定,便于用户快速定位问题。
[0005]第一方面,本专利技术实施例提供了一种异常血缘关系的确定方法,该方法包括:
[0006]在数据治理过程中,针对数据仓库中的各个第一数据表,根据当前第一数据表中数据的来源,实时确定与所述当前第一数据表具有血缘关系的至少一个第二数据表;其中,所述当前第一数据表中的数据来源实时更新;
[0007]当所述第一数据表与所述第二数据表间不满足预设血缘约束条件时,确定所述第一数据表与所述第二数据表的血缘关系异常。
[0008]第二方面,本专利技术实施例还提供了一种异常血缘关系的确定装置,该装置包括:
[0009]第二数据表确定模块,用于在数据治理过程中,针对数据仓库中的各个第一数据表,根据当前第一数据表中数据的来源,实时确定与所述当前第一数据表具有血缘关系的至少一个第二数据表;其中,所述当前第一数据表中的数据来源实时更新;
[0010]血缘关系异常确定模块,用于当所述第一数据表与所述第二数据表间不满足预设血缘约束条件时,确定所述第一数据表与所述第二数据表的血缘关系异常。
[0011]第三方面,本专利技术实施例还提供了一种电子设备,所述电子设备包括:
[0012]至少一个处理器;以及
[0013]与所述至少一个处理器通信连接的存储器;其中,
[0014]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的异常血缘关系的确定方法。
[0015]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所
述的异常血缘关系的确定方法。
[0016]本专利技术实施例提供的技术方案,在数据治理过程中,针对数据仓库中的各个第一数据表,根据当前第一数据表中数据的来源,实时确定与当前第一数据表具有血缘关系的至少一个第二数据表;其中,当前第一数据表中的数据来源实时更新;当第一数据表与第二数据表间不满足预设血缘约束条件时,确定第一数据表与第二数据表的血缘关系异常。通过执行本专利技术实施例提供的技术方案,可以实现对数据治理过程中的异常血缘关系进行高效、准确地确定,便于用户快速定位问题。
[0017]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0018]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术实施例提供的一种异常血缘关系的确定方法的流程图;
[0020]图2是本专利技术实施例提供的另一种异常血缘关系的确定方法的流程图;
[0021]图3是本专利技术实施例提供的一种数据仓库的血缘关系图谱示意图;
[0022]图4是本专利技术实施例提供的一种异常血缘关系的关联作业节点信息示意图;
[0023]图5是本专利技术实施例提供的一种异常血缘关系的确定装置结构示意图;
[0024]图6是本专利技术实施例提供的一种电子设备结构示意图。
具体实施方式
[0025]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0026]图1是本专利技术实施例提供的异常血缘关系的确定方法的流程图,所述方法可以由异常血缘关系的确定装置来执行,所述装置可以由软件和/或硬件的方式实现,所述装置可以配置在用于异常血缘关系的确定的电子设备中。所述方法应用于数据治理的场景中。如图1所示,本专利技术实施例提供的技术方案具体包括:
[0027]S110:在数据治理过程中,针对数据仓库中的各个第一数据表,根据当前第一数据表中数据的来源,实时确定与所述当前第一数据表具有血缘关系的至少一个第二数据表。
[0028]其中,所述当前第一数据表中的数据来源实时更新。
[0029]其中,数据仓库可以是Hive,数据仓库可以是Greenplum,数据仓库可以根据实际需要进行确定。本方案可以通过数据仓库对来自于数据提供方的原始数据进行数据治理之后得到应用数据,并将应用数据提供给数据消费方。具体的,本方案可以收集数据仓库中所有对于数据表的操作记录,例如可以包括库表导入、API接口写入、执行SQL、API接口查询、库表导出等操作,并将所有操作记录归一化为统一的血缘记录。其中,血缘记录可以包含如下元数据:数据源类型(表、数据库、API接口)和源ID;目标类型(表、数据库、API接口)和目
标ID,开始时间,完成时间,是否成功,如果成功转移了(从源数据表到目标数据表)多少条记录。可以从整个数据的全生命周期追踪数据的流动,越到最后的数据越接近于实际应用。数据仓库包括多个业务层,例如按照数据流向可以将数据仓库划分为贴源层(STG)、操作层(ODS)、标准层(DWD)、汇总层(DWS)、应用层(ADM)。每个业务层中存储了若干个数据表,根据业务层之间的数据流向将业务层中数据表划分为目标表(即第一数据表)和来源表(即第二数据表)。其中,第一数据表中的数据由第二数据表中的数据加工生成。例如,假设第一数据表所在的业务层与第二数据表所在的业务层相邻,即第一数据表中的数据由第二数据表中的数据直接生成,则第一数据表与第二数据表具有直接血缘关系。或者,假设第一数据表所在的业务层与第二数据表所在的业务层不相邻,即第一数据表中的数据由第二数据表中的数据间接生成,则第一数据表与第二数据表具有间接血缘关系。本方案中,与第一数据表具有血缘关系的第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常血缘关系的确定方法,其特征在于,包括:在数据治理过程中,针对数据仓库中的各个第一数据表,根据当前第一数据表中数据的来源,实时确定与所述当前第一数据表具有血缘关系的至少一个第二数据表;其中,所述当前第一数据表中的数据来源实时更新;当所述第一数据表与所述第二数据表间不满足预设血缘约束条件时,确定所述第一数据表与所述第二数据表的血缘关系异常。2.根据权利要求1所述的方法,其特征在于,当所述第一数据表与所述第二数据表间不满足预设血缘约束条件时,确定所述第一数据表与所述第二数据表的血缘关系异常,包括:分别确定所述第一数据表所在的第一业务层及所述第二数据表所在的第二业务层;确定所述第一业务层与所述第二业务层间的目标数据流向;当所述目标数据流向与预设数据流向不一致时,确定所述第一数据表与所述第二数据表的血缘关系异常。3.根据权利要求2所述的方法,其特征在于,所述业务层包括贴源层、操作层、标准层、汇总层以及应用层中的至少一层;所述预设数据流向为:贴源层、操作层、标准层、汇总层、应用层。4.根据权利要求1所述的方法,其特征在于,在实时确定与所述第一数据表具有血缘关系的至少一个第二数据表之后,还包括:根据所述数据仓库中各个第一数据表及与所述第一数据表具有血缘关系的第二数据表,确定所述数据仓库的血缘关系图谱;根据所述血缘关系图谱分别确定各个第一数据表的血缘关系链路;当所述血缘关系链路为有向有环图时,确定所述第一数据表的血缘关系异常。5.根据权利要求1所述的方法,其特征在于,在确定所述第一数据表与所述第二数据表的血缘关系异常之后,还包括:生成并显示针对所述第一数据表与...

【专利技术属性】
技术研发人员:吴海燕许志远许玲
申请(专利权)人:云粒智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1