基于数仓链路的血缘数据管理方法、装置及计算机设备制造方法及图纸

技术编号:43316485 阅读:29 留言:0更新日期:2024-11-15 20:17
本说明书涉及数据治理领域,尤其涉及基于数仓链路的血缘数据管理方法、装置及计算机设备。所述方法包括:根据业务需求建立业务数据的同步任务,使用同步工具将业务数据从源实例同步至目标实例中;分别采集源实例的元数据及所述同步工具的同步配置信息,所述同步配置信息记录同步工具在业务数据同步过程中,在目标实例中配置的目标表的基础信息及源实例与目标实例的映射关系;根据基础信息,从源实例的基础元数据中匹配目标表的详细信息;根据映射关系及所述目标表的详细信息,建立业务端与目标实例之间的血缘链路。本说明书通过记录数据的血缘关系,追溯数据流程和数据转换过程,保证数据的可追溯性,发现潜在数据质量问题,提升数据治理效率。

【技术实现步骤摘要】

本说明书涉及数据治理领域,尤其是基于数仓链路的血缘数据管理方法、装置及计算机设备


技术介绍

1、当前业界的数据血缘采集方案主要有两类:基于开源apache atlas,atlas提供元数据管理和治理的服务,企业可以对自己hadoop生态的数据资产构建目录,进行分类和治理,主要功能:元数据分类、元数据检索、血缘依赖(表到表、字段到字段)。

2、各大互联网公司也提供了很多对应数据治理,数据血缘的方案和产品,然而由于各家公司采用的基础技术架构各有不同,但一般根据各自数据中台的技术栈有针对性开发,很难形成一套通用的数据血缘系统。当前业界常用的apache atlas是通过被动式监听技术实现hivesql的血缘采集,这种抓取方式存在一定的误差,比如日常测试记录也会被采集进去,而且atlas无法实现doris、flink、mysql、kafka等其他数仓实例的血缘采集,更不能建立不同类型数仓之间的血缘,如hive表与doris表、bi看板、api接口之间的血缘关系。


技术实现思路

1、为解决上述现有技术无法本文档来自技高网...

【技术保护点】

1.一种基于数仓链路的血缘数据管理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于数仓链路的血缘数据管理方法,其特征在于,使用同步工具将业务数据从源实例同步至目标实例中包括:

3.根据权利要求2所述的基于数仓链路的血缘数据管理方法,其特征在于,采集各实例的基础元数据还包括:

4.根据权利要求3所述的基于数仓链路的血缘数据管理方法,其特征在于,根据所述基础信息,从源实例的基础元数据中匹配目标表的详细信息包括:

5.根据权利要求4所述的基于数仓链路的血缘数据管理方法,其特征在于,所述同步配置信息进一步包括:第一目标实例中配置的第一...

【技术特征摘要】

1.一种基于数仓链路的血缘数据管理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于数仓链路的血缘数据管理方法,其特征在于,使用同步工具将业务数据从源实例同步至目标实例中包括:

3.根据权利要求2所述的基于数仓链路的血缘数据管理方法,其特征在于,采集各实例的基础元数据还包括:

4.根据权利要求3所述的基于数仓链路的血缘数据管理方法,其特征在于,根据所述基础信息,从源实例的基础元数据中匹配目标表的详细信息包括:

5.根据权利要求4所述的基于数仓链路的血缘数据管理方法,其特征在于,所述同步配置信息进一步包括:第一目标实例中配置的第一目标表的基础信息,及源实例、目标实例及第一目标实例的映射关系,根据所述映射关系、所述源实例的基础元数据及所述目标表的详细信息,建立业务端与目标实例之间...

【专利技术属性】
技术研发人员:彭秀晓赵福强冯朝阳李金山罗超华
申请(专利权)人:北京量子之歌科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1