【技术实现步骤摘要】
数据血缘关系的确定方法、装置、电子设备和存储介质
本公开涉及数据处理
,具体涉及信息流、大数据等人工智能
,尤其涉及一种数据血缘关系的确定方法、装置、电子设备和存储介质。
技术介绍
随着大数据时代的来临,数据呈现爆发性增长,各种类型的、海量的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。在数据处理的过程中,从数据源头到最终的数据生成,每个环节都可能会影响数据质量的准确性。从而在对数据的检测和处理过程中。如何准确的确定出数据的血缘关系,显得至关重要。
技术实现思路
本公开提供了一种数据血缘关系的确定方法、装置、电子设备和存储介质。本公开一方面,提供了一种数据血缘关系的确定方法,包括:获取待处理的数据及其对应的初始元信息;将所述初始元信息分别与各个参考元信息集进行匹配,以确定与所述初始元信息匹配的目标元信息集;根据所述目标元信息集,确定所述数据对应的血缘关系。本公开的另一方面,提供了一种数据血缘关 ...
【技术保护点】
1.一种数据血缘关系的确定方法,包括:/n获取待处理的数据及其对应的初始元信息;/n将所述初始元信息分别与各个参考元信息集进行匹配,以确定与所述初始元信息匹配的目标元信息集;/n根据所述目标元信息集,确定所述数据对应的血缘关系。/n
【技术特征摘要】
1.一种数据血缘关系的确定方法,包括:
获取待处理的数据及其对应的初始元信息;
将所述初始元信息分别与各个参考元信息集进行匹配,以确定与所述初始元信息匹配的目标元信息集;
根据所述目标元信息集,确定所述数据对应的血缘关系。
2.如权利要求1所述的方法,其中,在所述将所述初始元信息分别与各个参考元信息集进行匹配之前,还包括:
将元信息库中当前处于有效状态的各个元信息集,确定为所述各个参考元信息集。
3.如权利要求1所述的方法,其中,在所述将所述初始元信息分别与各个参考元信息集进行匹配之前,还包括:
响应于所述初始元信息中包含时间信息,将所述时间信息从所述初始元信息中去除。
4.如权利要求1所述的方法,其中,所述将所述初始元信息分别与各个参考元信息集进行匹配,包括:
响应于所述初始元信息中包含分布式文件标识、且所述各个参考元信息集均与数仓表对应,则将所述分布式文件标识与所述各个参考元信息集中的分布式文件系统的标识匹配。
5.如权利要求1所述的方法,其中,在所述确定所述数据对应的血缘关系之后,还包括:
将所述数据及其对应的血缘关系存入血缘关系数据库。
6.如权利要求1-5任一所述的方法,其中,在所述将所述初始元信息分别与各个参考元信息集进行匹配之后,还包括:
在所述初始元信息与各个参考元信息集均不匹配的情况下,将所述待处理的数据标记为血缘匹配失败状态。
7.如权利要求6所述的方法,其中,在所述将所述待处理的数据标记为血缘匹配失败状态之后,还包括:
获取新增参考元信息集;
将所述初始元信息与所述新增参考元信息集进行匹配,并在所述新增参考元信息集中包含与所述初始元信息匹配的元信息集的情况下,根据与所述初始元信息匹配的元信息集,确定所述数据对应的血缘关系。
8.如权利要求7所述的方法,其中,所述获取新增参考元信息集,包括:
获取注册请求,其中,所述注册请求中包括数据源标识及第一秘钥;
向所述数据源标识对应的数据服务器发送连通请求;
响应于获取到所述数据服务器返回的连通响应,确定所述数据服务器对应的第二秘钥及新增元信息集;
在所述第一秘钥与所述第二秘钥匹配的情况下,确定所述新增元信息集为新增参考元信息集。
9.一种数据血缘关系的确定装置,包括:
第一获取模块,用于获取待处理的数据及其对应的初始元信息;
第一确定模块,用于将所述初始元信息分别与各个参考元信息集进行匹配,以确定与所述初始元信息匹配的目标元信息集;
第二确定模块,用于...
【专利技术属性】
技术研发人员:叶玮彬,崔金涛,范振飞,刘涛,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。