【技术实现步骤摘要】
数据血缘构建方法、装置、存储介质及电子设备
[0001]本公开的实施方式涉及数据处理
,更具体地,本公开的实施方式涉及数据血缘构建方法、装置、存储介质及电子设备。
技术介绍
[0002]本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。
[0003]随着大数据时代的到来,带来海量数据的处理及存储工作。相应的,数据流转越来越复杂,在数据流转过程中产生的数据间的依赖关系的准确确定也愈发重要,关系到问题排查、溯源追踪以及组织和/或用户关系的准确构建。
技术实现思路
[0004]虽然目前的数据库系统(包括传统数据库、分布式数据库)在数据处理性能上有了长足进步,但是在获取数据依赖关系方面仍有不足。在数据库系统中,数据处理加工过程即ETL过程,指的是将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,在此过程中产生的数据依赖关系被称为“数据血缘关系”。在目前提取“数据血缘关系”的方式中,存在一些不足 ...
【技术保护点】
【技术特征摘要】
1.一种数据血缘构建方法,其特征在于,应用于数据库系统;所述数据库系统包括数据处理引擎,所述数据处理引擎生成对应于数据库命令的访问计划,所述访问计划包括多个节点,所述多个节点中的至少部分节点涉及数据对象;所述方法包括:获取由所述数据处理引擎生成的已解析访问计划;基于所述已解析访问计划构建数据血缘关系;其中,所述数据血缘关系表示所述多个节点涉及的数据对象之间的关联关系。2.根据权利要求1所述的数据血缘构建方法,其特征在于,所述已解析访问计划包括以下至少一种:经过元数据匹配之后产生的逻辑访问计划;基于所述逻辑访问计划生成的物理访问计划。3.根据权利要求1所述的数据血缘构建方法,其特征在于,所述数据处理引擎包括SPARK。4.根据权利要求1所述的数据血缘构建方法,其特征在于,所述基于所述已解析访问计划构建数据血缘关系,包括:遍历所述已解析访问计划中的各所述节点以确定输出节点和输入节点;获取所述输出节点涉及的数据对象的第一标识信息、以及输入节点涉及的数据对象的第二标识信息,关联所述第一标识信息和第二标识信息以构建所述数据血缘关系。5.根据权利要求4所述的数据血缘构建方法,其特征在于,所述遍历所述已解析访问计划中的各所述节点以确定输出节点和输入节点,包括:遍历各所述节点,并对遍历过程中的当前节点执行预设判断方法,包括:确定所述当前节点的描述语句是否包含预设信息,所述预设信息包括:对应输出节点的第一特征信息、对应输入节点的第二特征信息或者对应中间节点的第三特征信息;若所述描述语句包含第一特征信息,则确定所述当前节点为输出节点,并对所述输出节点在所述已解析访问计划中的下级节点执行所述预设判断方法;若所述描述语句包含第三特征信息,则确定所述当前节点为中间节点,并对所述中间节点在所述已解析访问计划中的下级节点执行所述预设判断方法;若所述描述语句包含第二特征信息,则确定所述当前节点为输入节点。6.根据权利要求4所述的数据血缘构...
【专利技术属性】
技术研发人员:刘俊杰,余利华,郭忆,李卓豪,汪源,
申请(专利权)人:网易杭州网络有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。