一种基于快照的数据溯源方法及系统技术方案

技术编号:40780861 阅读:20 留言:0更新日期:2024-03-25 20:25
本申请公开一种基于快照的数据溯源方法及系统,包括:捕获表和任务的修改,获取待更新任务脚本的输出目标表,获取输出目标表的依赖上游表,从任务快照脚本中获取字段数据血缘,收集距离最近一次捕获表修改以来的表更新;更新所述数据血缘,获取待更新任务的最新历史快照,刷新输出目标表和任务快照的对应关系,刷新任务快照和输入源端表的对应关系,刷新表变更记录;通过更新所述数据血缘,获取数据来源、去向和处理过程。本申请具备多表多字段多版本的溯源能力,基于表快照和任务快照追溯数据的生成过程,实现全链路闭环,可以保留历史执行相应数据血缘,灵活追溯计算上下游。

【技术实现步骤摘要】

本申请涉及大数据和ai,特别涉及一种基于快照的数据溯源方法及系统


技术介绍

1、在大数据数仓作业开发与调度过程中,存在确认数据获取源头及计算口径的诉求。为了获取数据的生成过程,需要获取数据来源、去向和处理过程等信息,一般需要通过阅读多份在线代码来推导。而在实际的大数据生产环境中,可能源端系统存在交错复杂的数据关系、在线代码维护多个版本、多人协同开发代码风格不一等问题,溯源过程困难且效率低下。因此,若有一套解决方案能够关联不同数据脚本的血缘关系,将可以在需求开发、异常发现、影响分析、资源优化方面获得收益。


技术实现思路

1、本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的一个目的在于提出一种基于快照的数据溯源方法、系统、电子设备以及可读存储介质,本申请在多人协同开发、代码多版本维护、复杂源端数据关系的环境下,可以提供数据变更的追溯、更新、查询的能力,降低溯源难度。

2、本申请公开的第一个方面,如图4所示,提供一种基于快照的数据溯源方法,(a)为表追溯路径,(b)为日志追溯试图本文档来自技高网...

【技术保护点】

1.一种基于快照的数据溯源方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于快照的数据溯源方法,其特征在于,所述捕获表和任务的修改,任务快照脚本中提取数据血缘的步骤,包括:

3.根据权利要求2所述一种基于快照的数据溯源方法,其特征在于,所述提取待更新任务脚本的输出目标表的步骤,包括:

4.根据权利要求2所述一种基于快照的数据溯源方法,其特征在于,所述提取输出目标表的依赖上游表的步骤,包括:

5.根据权利要求1所述一种基于快照的数据溯源方法,其特征在于,所述更新数据血缘的步骤,包括:

6.根据权利要求5所述一种基于快...

【技术特征摘要】

1.一种基于快照的数据溯源方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于快照的数据溯源方法,其特征在于,所述捕获表和任务的修改,任务快照脚本中提取数据血缘的步骤,包括:

3.根据权利要求2所述一种基于快照的数据溯源方法,其特征在于,所述提取待更新任务脚本的输出目标表的步骤,包括:

4.根据权利要求2所述一种基于快照的数据溯源方法,其特征在于,所述提取输出目标表的依赖上游表的步骤,包括:

5.根据权利要求1所述一种基于快照的数据溯源方法,其特征在于,所述更新数据血缘的步骤,包括:

6.根据权利要求5所述一种基于快照的数据溯源方法,其特征在于,所述刷...

【专利技术属性】
技术研发人员:林晓骏黄创光张杰
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1