【技术实现步骤摘要】
一种数据溯源工具构建方法、数据处理方法、装置及设备
[0001]本说明书涉及计算机
,尤其涉及一种数据溯源工具的构建方法、数据处理方法、装置及设备。
技术介绍
[0002]随着数据时代的到来,每天都会产生海量的数据,这些数据作为企业重要的资源,需要进行良好的管理、维护和使用。
[0003]在数据处理过程中,数据与数据之间会串成一条链路,从而自然的形成一种上下游的依赖关系,数据间的这种依赖关系对于数据资产的判重判优、变更影响分析、加工链路溯源及加工口径分析等有着重要的指导作用,是企业数据资产的重要组成部分。
[0004]现阶段,通常在每次产生数据溯源需求时都重新对数据进行溯源处理,例如,当需要对SQL语句(Structured Query Language,结构化查询语言)进行血缘分析时,则对目标SQL语句进行溯源分析,而此时,若还需要对该SQL语句进行其他溯源相关的处理,则需要重新编写程序来对该SQL进行分析处理,费时费力。
[0005]基于此,亟需一种数据溯源工具的构建方法,能够通用于各种溯源相关的处理过程,从而降低人力消耗,提升处理效率。
技术实现思路
[0006]有鉴于此,本说明书实施例提供了一种数据溯源工具的构建方法、数据处理方法、装置及设备,以降低人力消耗,提升数据处理效率。
[0007]本说明书实施例采用下述技术方案:
[0008]本说明书实施例提供一种数据溯源工具构建方法,包括:
[0009]根据目标SQL语句的抽象语法树和所述目标S ...
【技术保护点】
【技术特征摘要】
1.一种数据溯源工具构建方法,包括:根据目标SQL语句的抽象语法树和所述目标SQL语句的层次结构,解析出操作语句;根据所述操作语句对应的操作类型为所述操作语句构建溯源模块;通过与所述溯源模块对应的字段获取方式,从所述操作语句包含的待操作数据中获取填充字段并填充至所述溯源模块中,直至构建出的溯源模块的填充字段均映射有原始输入字段。2.如权利要求1所述的方法,还包括:建立目标SQL语句的抽象语法树。所述建立目标SQL语句的抽象语法树包括:使用开源语法分析器对目标SQL语句进行编译后建立抽象语法树。3.如权利要求1所述的方法,所述从所述操作语句包含的待操作数据中获取填充字段并填充至所述溯源模块中包括:根据所述抽象语法树判断所述待操作数据的来源是否为原始输入字段;若否,则获取所述待操作数据的填充字段并填充至所述溯源模块中,所述待操作数据的填充字段为所述待操作数据包含的操作语句所对应的溯源模块的填充字段。4.如权利要求3所述的方法,还包括:若是,则从元数据中获取所述待操作数据对应的填充字段并填充至所述溯源模块中。5.如权利要求4所述的方法,所述从元数据中获取所述待操作数据对应的填充字段并填充至所述溯源模块中包括:为所述待操作数据构建Tablescan溯源模块,从元数据中获取待操作数据对应的填充字段填充至所述Tablescan溯源模块中;获取所述Tablescan溯源模块的填充字段并填充至所述溯源模块中。6.如权利要求1所述的方法,当所述操作语句为Join语句时,所述基于所述操作语句对应的操作类型为所述操作语句构建溯源模块包括:为所述操作语句构建Join溯源模块;所述通过所述溯源模块对应的字段获取方式,从所述操作语句包含的待操作数据中获取填充字段并填充至所述溯源模块中包括:分别获取通过Join语句连接的操作语句所对应的填充字段;将获取到的填充字段连接后填充至所述Join溯源模块中。7.如权利要求1所述的方法,当所述操作语句为Union语句时,基于所述操作语句对应的操作类型为所述操作语句构建溯源模块包括:为所述操作语句构建Union溯源模块;所述通过所述溯源模块对应的字段获取方式,从所述操作语句包含的待操作数据中获取填充字段并填充至所述溯源模块中包括:分别获取通过Union语句连接的操作语句所对应的填充字段;将获取到的填充字段叠加后填充至所述Union溯源模块中。8.如权利要求1所述的方法,所述操作语句包括数据查询语句和数据加工语句中的至少一种。9.如权利要求1所述的方法,所述填充字段包括数据列名和数据表名中的至少一种。10.一种利用数据溯源工具进行数据处理的方法,包括:
利用目标SQL语句的抽象语法树构建有向无环图,所述有向无环图以溯源模块为节点,所述溯源模块为根据上述权利要求1
‑
9中任意一项所述的溯源工具的构建方法构建得到的溯源模块;遍历所述有向无环图进行数据处理。11.如权利要求10所述的方法,所述数据处理包括:数据血缘的构建...
【专利技术属性】
技术研发人员:冯煜策,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。